人(rén)工智能(néng)的发(fā)展愈来愈强大!
人工智(zhì)能(néng)是(shì)一(yī)个涵盖图像(xiàng)识(shí)别(bié)、自然语言处(chù)理(NLP)和机器人(rén)等多方(fāng)面维度的广泛(fàn)领域。AI也在(zài)以一种有时看似疯狂(kuáng)的速度发展,因此很(hěn)难跟上正在发生(shēng)的(de)一切。
不出所料,许多组织转向他们的IT供应商合作(zuò)伙伴,帮助他们开(kāi)发和部署AI解决方案,以(yǐ)最好地满足他们的需求。大卫·埃里森是联想公(gōng)司的(de)高级人工智能数据(jù)科学(xué)家,他(tā)的职责包(bāo)括使(shǐ)用先进(jìn)的人工(gōng)智能技术为客户组织提供(gòng)解(jiě)决方案,同时在(zài)内部(bù)支持联想全球数(shù)据中(zhōng)心集团的整体人工(gōng)智能战略。
联想已投入商(shāng)业运营(yíng)的(de)项目(mù)包括利用卷积神(shén)经(jīng)网络从(cóng)图像中提取(qǔ)特征,并将其归类为(wéi)缺(quē)陷,以(yǐ)检测工厂的制造缺陷。联想还(hái)为(wéi)一(yī)家赛(sài)车公(gōng)司开发(fā)了一套计算(suàn)机视觉(jiào)系统,以决定是否应该让特定(dìng)的汽车进入维(wéi)修站进行维修。
埃利(lì)森(sēn)表(biǎo)示,今年和不久的将来,人工智能的主要趋势(shì)包括(kuò)基于计算机视觉(jiào)的应用(yòng)程(chéng)序、用于训练人工智能模型的数据(jù)生成和数据标记算法(fǎ)的开发,以及基于转换模(mó)型的自然语言处理的(de)快速进展。
联想对人工智能近期主要趋(qū)势有如下展望:
计(jì)算(suàn)机视觉
在计算机(jī)视(shì)觉方面,开发(fā)人员(yuán)和研究人员(yuán)现在开始探索将这种能(néng)力与人工智能的(de)其他(tā)一些领域相结合的实用方法,比如机器(qì)人技术或自动应用图像字幕等应用的自(zì)然语言处(chù)理。据埃里森介(jiè)绍(shào),这部(bù)分是因为计算机视觉的一些基本问(wèn)题已经被(bèi)证明很难解(jiě)决,研究人员正在寻(xún)找新的方法来(lái)解决(jué)这些(xiē)问题,而不是简单地推动(dòng)研究领域向前(qián)发展。
埃里森:“我(wǒ)认为我们在解决一些核(hé)心的计算机视觉任务(wù)时遇到(dào)了问题,比(bǐ)如3D投影,当你看到一(yī)张图片,一栋建筑的(de)二维(wéi)图像,人类的大脑可以将其推断成三维形状,但机器很难做到这一点(diǎn)。”在这方面(miàn)已经有很多(duō)研究,但这是一个(gè)尚未解决的核心问题,我认为人们会感到(dào)沮丧,会尝试一些新东西,或者(zhě)尝试将(jiāng)它与其他领域相(xiàng)结合(hé),找到更好的用途。
埃里森认为,这就是为什么(me)机器人技术(shù)是目(mù)前最广泛研究的人工智(zhì)能(néng)领域之一(yī),因为它为人(rén)们(men)提供了一个明确的目标(biāo)。他列举的(de)例子包括(kuò)使人工智能能够使用视觉感应在其周围的空间中(zhōng)安全移动——无论是制(zhì)造工厂的机械臂,还是使用人工智能导航到目的地的自动车辆(liàng)。
训练数据
熟悉人工智(zhì)能的(de)人会(huì)知(zhī)道,成功训练一个(gè)模型的(de)关键因素之一是(shì)数据,这需要大量(liàng)的数据。事实上,它(tā)所(suǒ)训练的数据(jù)越多,就越能更(gèng)好地交(jiāo)付你所寻求(qiú)的结果。据埃里森不是,计算机(jī)视觉目前很困难,因为用于训(xùn)练模型的数据集没有包含足(zú)够多(duō)的样本。例如,吉(jí)布(bù)森三维空(kōng)间(jiān)数据库(Gibson Database of 3D Spaces)是一(yī)个广泛(fàn)使用的(de)数(shù)据集,用于训练模(mó)型在室内空间中导(dǎo)航,它包括572栋(dòng)完整的建筑(zhù),共1447层。虽然令人印象深刻,但这不太可能是(shì)一个(gè)人工(gōng)智能系统在现实(shí)世界中可能(néng)遇到的全面集(jí)合。
当物体的方向(xiàng)与(yǔ)计(jì)算(suàn)机视觉模型所训练(liàn)的方向不同时,也会出现类似(sì)的(de)问题(tí)。在被广泛用(yòng)于(yú)人(rén)工智能训练的ImageNet数据集中,埃(āi)里森:“一把椅子只是一张椅子的照片,面对着镜头。如果你把椅子翻(fān)过来(lái),电(diàn)脑视觉应(yīng)用程序突然就认不出(chū)它了。”
这个缺点是一个名为ObjectNet的新数据集的灵感来(lái)源,它以不同的配置(zhì)显示日常(cháng)项目(mù),例如(rú)椅子翻转或倒(dǎo)置(zhì)。这个训(xùn)练集被用来解决计算机视觉的一些(xiē)缺点,例如不能识别方向不正常或部分模糊的物体。
但是为人工(gōng)智能训练获(huò)取足(zú)够(gòu)大和多样化的数据集的问题(tí)仍然存在,这导致(zhì)了(le)埃里森发现的另一个主(zhǔ)要(yào)趋势,即首(shǒu)先使用人工智能(néng)来生成数据集。
自我监督和综(zōng)合数据
数据集需(xū)要(yào)大量的人工数据标签,因此越来越(yuè)多的研究项目现在都(dōu)集(jí)中在自我监督算(suàn)法上,它可以(yǐ)获取(qǔ)已经收(shōu)集到的数据,并让计算机自动给数据(jù)贴上标签。
埃里森解释:“一个典型的(de)例子就是一个具有计算机(jī)视(shì)觉(jiào)应(yīng)用和接近传(chuán)感器(qì)机器人(rén)。计算机(jī)视觉能够(gòu)比接近传(chuán)感器看(kàn)得更远。但(dàn)是(shì)当机器(qì)人向前移动时,出现在计算机(jī)视觉中的(de)东(dōng)西(xī)最终(zhōng)会以物(wù)体的形式出(chū)现在近距离(lí)传感(gǎn)器中。”根据传感(gǎn)器(qì)的(de)数据,回(huí)溯到物体第一次(cì)被发现的时间,然(rán)后对其进(jìn)行标记。
人工智能系统一(yī)旦(dàn)部署就不太可能遇到这样的问题,因此(cǐ)可(kě)能无(wú)法在训练数据集中表示出来,这是开发人员面临(lín)的另一个挑战。然而,如果这些边(biān)缘情(qíng)况(kuàng)代表(biǎo)了真实(shí)场景,那么就需(xū)要考(kǎo)虑这些情(qíng)况,以(yǐ)确保AI模(mó)型正确地处(chù)理它们。
“关键的例子是自动驾驶。在(zài)你(nǐ)的数(shù)据集(jí)中(zhōng)有多少次在昏暗的暴风雪中开车上山?你的(de)数据集(jí)中不会有很多(duō)这(zhè)样的情况(kuàng),所以(yǐ)他(tā)们本(běn)质上必须做模拟数(shù)据。”
换(huàn)句话(huà)说,边缘案例是通过使用合成数(shù)据来处理的(de),合(hé)成数据(jù)是使用各种(zhǒng)方法来(lái)创建(jiàn)的,例如生成模(mó)型。但这(zhè)也(yě)产生(shēng)了一个问题,即数(shù)据科学家或开发人员如何才能确保这些合成数(shù)据准(zhǔn)确地反映出人工(gōng)智能在现实生活(huó)中会(huì)遇到(dào)什么情况。