leyu乐鱼

近期中（zhōng）央密集点名“新基建（jiàn）”,备受关注。人工智（zhì）能作为新基建（jiàn）核（hé）心领域之一，展现出强大成长潜力，将成为产业数字化的重（chóng）要驱动。乘着东风，多模态融（róng）合（hé）发（fā）展或为（wéi）人工智能（néng）深入拓展场（chǎng）景、实现万物互（hù）联提供不竭动力。

近日，由（yóu）蚂蚁金服牵头（tóu）制定（dìng）的（de）“生物特征识别多模态融合国际标（biāo）准”正（zhèng）式立项，这一（yī）标准的制定，对于（yú）多模态领（lǐng）域发展与技术规（guī）范产（chǎn）生（shēng）了重大影响。

为此，笔者与眼神科（kē）技、云从（cóng）、银河（hé）水滴（dī）等多个企业方，进行（háng）了关于（yú）多模态（tài）领域发展主题（tí）的对（duì）话。相（xiàng）较于多模（mó）态，我们应该（gāi）先了解单模（mó）态。在对（duì）话中（zhōng）笔者了解到，对于指纹识（shí）别（bié）、人脸识别、虹（hóng）膜识别、指（zhǐ）静（jìng）脉识别等每一种生物识别技术（shù），通过每一种算法用（yòng）一个传感器去解决（jué）一（yī）个问题的模（mó）式，即为单（dān）模态（tài）。

后来，随（suí）着AI发展和信息化的迭代，不同信息从不同（tóng）方（fāng）位、不同（tóng）传感器（qì）一拥而入，单（dān）一识别技（jì）术已经很难满足（zú）这样的发展，在（zài）这种情况下，多模态技术应场景而生。但（dàn）多模态并不是单模态的简（jiǎn）单叠加或组（zǔ）合（hé）替代，而（ér）是基于（yú）数（shù）据融合的算（suàn）法融合、并依托平台决策为支（zhī）撑，是单模态生物（wù）识别技术的重大突（tū）破，也是识（shí）别（bié）技术的未来发展方（fāng）向。

目前（qián），多模态技术主（zhǔ）要应用于（yú）线上（shàng）娱乐、身份认证、医疗健康、智慧金（jīn）融、安防、教育、军工、园区等领（lǐng）域（yù）。

应用驱动下，多（duō）模（mó）态成AI行业发展（zhǎn）新风向

多模态从2018年开始成为技术（shù）行业的焦点。那时，很多国内大企业（yè），如（rú）华为、腾讯、百度、阿（ā）里等公司，都开始逐（zhú）渐把目光（guāng）瞄向多模态；很（hěn）多创（chuàng）业公司，如眼（yǎn）神科技、云从、依图、银（yín）河水滴等（děng）也在思考这个方向（xiàng）性的发展问题。

腾讯AI Lab的博（bó）士俞栋曾说“多（duō）模态是（shì）迈（mài）向通用人工智能的重要方向”，通用人（rén）工智能（néng）是弱（ruò）人工智能时代需要走的（de）一个方（fāng）向，弱（ruò）人工智（zhì）能是“见多（duō）识广”，解决的（de）是（shì）感知问题。

在眼神科技创始人兼CEO周军看来：“通用人工（gōng）智能具有几（jǐ）个属（shǔ）性：自学习、增（zēng）量学习、增强学（xué）习（xí），这些内容（róng）结合在（zài）一块，是强人（rén）工智能。从弱人（rén）工智能到强人工智（zhì）能的奇点，截止（zhǐ）目前（qián）还没有突破（pò）。”“见少（shǎo）知（zhī）多”、“不见而预知”的强（qiáng）人工智能时代，这是国际前沿人工智能公（gōng）司一直努力多年的事情（qíng），但是技术遇到了天花板。

据（jù）了解，眼（yǎn）神（shén）科（kē）技（jì）从早期（qī）就已经完成了指纹识别、人脸识（shí）别、虹（hóng）膜识别技术的研发，形成基础（chǔ）算法，其在面向市场推广中（zhōng）发现，单一（yī）技（jì）术决策（cè）存在局限，并在应用（yòng）驱动下推出多模态融合生物识别技（jì）术。“多模态融合（hé）生物（wù）识别（bié）可（kě）以提升识别精（jīng）准度（dù），也（yě）能在一定程度提升生物识别技术的场景适（shì）应性和隐私（sī）安（ān）全性。”眼神（shén）科技表（biǎo）示。

简单（dān）来说（shuō），模态就是（shì）“感官”，多模态就是将多种感官（guān）融（róng）合的方（fāng）式（shì）。云从科技解释（shì）道（dào）：“如（rú）果把‘模态’通（tōng）俗（sú）地理（lǐ）解为感官，那么智能音（yīn）箱就（jiù）是一（yī）台（tái）只具（jù）备听觉模态的物联网（wǎng）设备，而加载AI分析能力的摄（shè）像头（tóu）可（kě）以视为视（shì）觉模态的物（wù）联网（wǎng）设备（bèi），把听觉、视觉甚至更多模态（tài）组合（hé）到一起，可诞生多模态物联网（wǎng）”。

与眼神科技（jì）、云从科技领域（yù）略有不同的步（bù）态识别企业银河水滴（dī）表（biǎo）示（shì），“多模态（tài）技术在我国（guó）早已得到广泛应（yīng）用（yòng），如在公共安（ān）防领（lǐng）域（yù）。另外，指纹和（hé）人脸识别（bié）等技术的配合（hé）使用也比较成熟，目前（qián）正在向更深入更广泛（fàn）的程度迈进，在这个（gè）过程（chéng）中，步（bù）态识别技术越来越（yuè）受（shòu）到重视（shì）”。

据悉，步态识别是一种新兴（xìng）的生（shēng）物特征识别技（jì）术（shù），相较于（yú）其他识别方式，步态识别的识别距（jù）离更远。例（lì）如，普通高清摄像（xiàng）机下识别距离最远可达50米，属于（yú）非受（shòu）控识（shí）别（bié），无需识别对象主（zhǔ）动（dòng）配合。步态识别是（shì）由（yóu）体（tǐ）型、头型、肌（jī）肉力量、运动神经灵敏度（dù）、走路姿态等共（gòng）同（tóng）决定，局部变化并不会影响识别结果。

因此，步态识别技术可以有效弥（mí）补其他识别（bié）技术（shù）的不足（zú），比如识别距（jù）离普遍较短、需（xū）要主（zhǔ）动配合或接（jiē）触（chù）等问题。结合了步态识（shí）别的多模（mó）态技术将有（yǒu）更广泛的应用前景。

同时，银河水（shuǐ）滴也（yě）称：“每（měi）一种信息的来源（yuán）都可以称为（wéi）一种模（mó）态。就AI而言，步态、人脸（liǎn）、虹膜、指纹、语音等生（shēng）物特（tè）征模态是机器识别（bié）的依据（jù），多（duō）模态（tài）识别即是一种结合（hé）以上（shàng）多（duō）种识别技（jì）术的解决方案。任何一种识别方式都有一定的不足，多种模式结合可以达到更好的效果”。

新基建下，多模（mó）态融合的AI行业进入快车道

国家新基建政策的颁布（bù），让AI行业拥有（yǒu）了更大的发展空间，加之（zhī）这次生物（wù）特征识别多模（mó）态融合标准的立项，更是让AI有（yǒu）了更多的想象空间。

新基建实际上是新时（shí）代（dài）下，可促进物质、能量、数据（jù）更高效产生和流动，使其（qí）朝着能够产生更大价值的地方汇（huì）聚，这次新冠疫情（qíng）已（yǐ）经切身感受（shòu）到基于AI技术下，新基建所带（dài）来的社会（huì）效应。

云从科技（jì）称，新基建下AI得到很好应用，而多模态（tài）融合（hé）是AI技术发展（zhǎn）必然结果，因为单点技术存在瓶颈，无（wú）法（fǎ）很好发挥AI的作用，容易导致部分功能和（hé）体（tǐ）验感缺失（shī）。

而在多模态或AI技术闭环的支持下，AI可（kě）以（yǐ）在消费端与（yǔ）生产端更好（hǎo）服务社会。“AI是‘头雁’，解决（jué）的是问题本（běn）身（shēn），怎样让能力（lì）提（tí）高，怎么去解决（jué）问题。让AI引领技术发展是整个行业，也是云从当前思考的主要问题。”云从（cóng）科技补（bǔ）充道。

在消费者端，最能体现更好、更自然交互的是一（yī）位24小（xiǎo）时的个人（rén）助理，它能知（zhī）道用户什么时候（hòu）想要（yào）什么，用户永远（yuǎn）能得到自己期望的服务。

在生产者端，人机协同将能扩展人类专家的能力（lì），比（bǐ）如现在医生一天只能诊断10个人，未来也许在AI的帮（bāng）助下（xià），通过语音、AI诊（zhěn）断、视觉辅助、大数据等技（jì）术可以一天（tiān）诊断1000个人。

云（yún）从科技（jì）总（zǒng）结了目前（qián）AI设备技术闭环的（de）三种形式：1、感知，包（bāo）括语（yǔ）音识别、语义理解、多轮对话、NLP、语音精准识（shí）别等领（lǐng）等；2、认知，包括自然物体识别、人脸（liǎn）识别、肢体动作识别等；3、决策（cè），包括（kuò）AI对（duì）热量（liàng）、红外捕捉信号、空间信号的阅读与理解。

眼（yǎn）神科技则向笔者（zhě）表示：“新基建的重要（yào）领域之（zhī）一（yī）就是AI，乘着“新基建（jiàn）”的东风，AI行业发展将加速进入（rù）快车道。从这次（cì）新冠疫情中可（kě）以看到，AI在公（gōng）共安（ān）防、疫（yì）情防控、远（yuǎn）程办公及服务中发挥了重要作用（yòng）”。

此外，中国基础设施的“智能化”建设（shè）迫（pò）在眉睫，智慧城市（shì）、智慧安（ān）防、智能医疗、智（zhì）慧社区、智慧教（jiāo）育等基（jī）础设施智能化建（jiàn）设（shè）进（jìn）入全（quán）面爆发期，将（jiāng）为AI拓展更多创新应用场景和市场空间（jiān）。在（zài）眼神科技看来，“在AI应用场景不断深耕，以及5G、大数据、云计（jì）算（suàn）等新兴技术的融（róng）合推动下，多模态融合生（shēng）物识别是AI未来发展的必经之路”。

不过，目（mù）前AI还处于一个初级阶段，更为关注的是更（gèng）简单层（céng）次的交（jiāo）互。比如语音、人脸识别，这些只是感知阶（jiē）段（duàn）。而且（qiě）在信息化（huà）时代下，很（hěn）多场景（jǐng）每天都（dōu）会产生海（hǎi）量（liàng）的（de）视频和图像（xiàng）数据（jù），但这些信息并（bìng）没有（yǒu）得到很好利用，大量值（zhí）得挖掘的潜（qián）在价值，被使用的也仅是冰山（shān）一角。

对此，眼神科技称（chēng），“在实战（zhàn）应（yīng）用场景会有很多不（bú）可控的因素，比如遮挡、光照等，这些会影响生物特征识别技术（shù）的应（yīng）用，行业（yè）需要针对现有实际问题，对各种识别技术进行不断的研（yán）发和优（yōu）化算法”。

云从科技也（yě）表示，“现在（zài）AI仅处于初（chū）步（bù）发展（zhǎn）阶段，解（jiě）决的是简单（dān）层次（cì）的交互（hù），更深层次的多模（mó）态融合交（jiāo）互（hù），目前做得还（hái）远远不够，有待继续加强”。