leyu乐鱼


    1. 咨询(xún)热线:021-80392549

      leyu乐鱼 QQ在线 leyu乐鱼 企业(yè)微信
      leyu乐鱼
      leyu乐鱼 资(zī)讯 > 人工智能(néng) > 正文

      语音识别揭秘(mì):你(nǐ)的手(shǒu)机究竟(jìng)有多理(lǐ)解(jiě)你

      2019/12/13222

      在我们(men)的生(shēng)活中,语言是(shì)传递信息最重要的方式,它能够让人们之间互相了解。人和机(jī)器(qì)之间(jiān)的交(jiāo)互也是(shì)相(xiàng)同的(de)道(dào)理,让机器人知道(dào)人类要做什么、怎么做。交互(hù)的方(fāng)式有动作、文本(běn)或(huò)语音等等,其中语音交互越来越被重视,因为(wéi)随着(zhe)互联网上智能(néng)硬件的普及,产生(shēng)了(le)各种互(hù)联网的入口方式,而语音是最(zuì)简单、最直(zhí)接(jiē)的交互方式,是最通用的(de)输入模式。

      在1952年,贝尔(ěr)研究所研制了世界上(shàng)第一个能(néng)识(shí)别10个英文数(shù)字发音的系统(tǒng)。1960年英(yīng)国(guó)的Denes等人研制了世界上第一个语音识(shí)别(ASR)系统。大规模(mó)的语音识别研究始于70年代(dài),并(bìng)在单(dān)个词的识别方面(miàn)取得了实质性的(de)进展。上世纪80年(nián)代以后,语音识别研究的重点逐渐转向更通用的大词汇量、非特定(dìng)人(rén)的连续语音识别。

      90年代以来,语(yǔ)音识别的研究一直没有太大进步。但(dàn)是,在语音识别技术的应用及产品(pǐn)化方面取(qǔ)得了较(jiào)大的进展。自2009年(nián)以(yǐ)来,得益于深(shēn)度学习研(yán)究的突(tū)破以及大(dà)量语(yǔ)音数据的积累,语音(yīn)识别技术得到了突飞猛(měng)进的发展。

      深度学习研究使用预(yù)训练的多层(céng)神经网络,提高了声(shēng)学模型(xíng)的准确率。微软的研(yán)究人员率先取得了突破性进展,他们使用深层神经(jīng)网络模型后,语音识(shí)别错(cuò)误率降(jiàng)低了三分之(zhī)一(yī),成为(wéi)近20年来语音识别技术方(fāng)面最快的进步。

      另(lìng)外,随着手机等移(yí)动(dòng)终端(duān)的普及,多个(gè)渠道积(jī)累了大量的文本语料(liào)或语(yǔ)音语料,这(zhè)为模型训练提(tí)供(gòng)了基(jī)础,使得(dé)构建通用的大规模语言模型和声学模型成为可能。在语音识别中,丰富的样本数据是推动系统性能快速提升的重(chóng)要(yào)前提,但是语(yǔ)料的标注需要长期的积累(lèi)和沉(chén)淀,大(dà)规模语料资源(yuán)的积累需要被提(tí)高到战略高度。

      今(jīn)天,语音识(shí)别在移动端(duān)和音箱的应用上最为火热(rè),语音聊(liáo)天机(jī)器(qì)人、语(yǔ)音助(zhù)手等软件层(céng)出(chū)不穷。许多人初次接触(chù)语音(yīn)识别可(kě)能归功于(yú)苹(píng)果手机的语音助手Siri。

      Siri技术来(lái)源于(yú)美国国防部高级研究规划局(DARPA)的CALO计划:初(chū)衷是一个让军方(fāng)简化处理繁重复(fù)杂的(de)事务,并具备认知能力进行(háng)学习、组织的数字助理,其民用版即为Siri虚拟(nǐ)个人助理。

      Siri公司(sī)成立(lì)于2007年,最(zuì)初是以文(wén)字聊天服务(wù)为主,之后与大名鼎鼎(dǐng)的语音识别厂商Nuance合作实现了语音识(shí)别功(gōng)能。2010年,Siri被苹果收购。2011年苹果将该技术随同(tóng)iphoness 4S发(fā)布,之后对Siri的功能仍在不断提(tí)升完(wán)善。现在,Siri成为苹果iphoness上的一项语音控制功(gōng)能(néng),可(kě)以让手机变身为一台智(zhì)能化机(jī)器人(rén)。通过自(zì)然语言的语音(yīn)输入,可以调用各种APP,如天气预报、地(dì)图导(dǎo)航、资料检索(suǒ)等(děng),还能够通过不断(duàn)学习改善性(xìng)能,提(tí)供对话(huà)式的应答服务。

      语音识别(ASR)原(yuán)理

      语音识(shí)别技术是让机器(qì)通过识别把语音信号转变为(wéi)文本,进而通过理(lǐ)解转变为指令的(de)技术(shù)。目(mù)的(de)就是(shì)给机器赋予人的听觉特(tè)性(xìng),听懂人说什么,并作出相应的行为。语(yǔ)音识别系统通常由声学识别模型和语言理解模型两部分组成,分别对(duì)应语音到音(yīn)节和音(yīn)节到字的计(jì)算。一个连(lián)续语(yǔ)音(yīn)识别系统(如下图)大致包含了四个主要部(bù)分:特征(zhēng)提取、声学(xué)模(mó)型、语言模(mó)型和解码器等。

      portant;" />

      (1)语音输入的预处理(lǐ)模块

      对输入的原始语音信号(hào)进行处理(lǐ),滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信(xìn)号的始末(mò))、语(yǔ)音(yīn)分帧(可以近似理解为,一段语音就像是一(yī)段视频,由许多帧的有(yǒu)序(xù)画面构成(chéng),可(kě)以将语音(yīn)信号切割为单个的(de)“画面”进行分析)等处(chù)理。

      (2)特征提取

      在去除语音信号中对于(yú)语(yǔ)音识别无用(yòng)的冗余信(xìn)息后,保留(liú)能够反(fǎn)映(yìng)语音(yīn)本质特征的信息进(jìn)行处理,并用一定的形式表示出来。也就是(shì)提取出反映语(yǔ)音信号特征的关(guān)键(jiàn)特征参(cān)数形成(chéng)特征矢量序(xù)列,以便用于后续处理。

      (3)声学(xué)模型训练

      声学(xué)模型可以理解(jiě)为是对声音的建模(mó),能够把语音输入转换成声(shēng)学表(biǎo)示(shì)的输出,准确的(de)说,是给出(chū)语音(yīn)属(shǔ)于(yú)某(mǒu)个声学符号的概率。根(gēn)据(jù)训(xùn)练语(yǔ)音库的(de)特征参数(shù)训练出(chū)声(shēng)学(xué)模型参(cān)数。在识别(bié)时可以将待识别的语音的特征参数与声学模型进行匹配,得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声(shēng)学模(mó)型建模。

      (4)语(yǔ)言模型训练(liàn)

      语言模型是(shì)用来(lái)计算一个句子出现概(gài)率的模型,简单地说,就是计算一个句子在语法(fǎ)上是否正确的概率。因为句子的构造往往(wǎng)是规律的,前面出现的(de)词经常(cháng)预示了后方可能出现的词语。它主要(yào)用于决定哪个(gè)词序列的(de)可能性更大,或(huò)者在出现了几个词的时候预(yù)测下一个(gè)即将出(chū)现的词语。它定义了哪些词能跟在上(shàng)一个(gè)已经识别的词的后面(匹配(pèi)是一个顺序的处理过程),这样就可以为匹(pǐ)配过程排除一些不可能的单词。

      语言建模(mó)能够有效(xiào)的结合汉语语(yǔ)法和语义的知识(shí),描(miáo)述词之间的内在关系,从而提高(gāo)识别(bié)率,减少(shǎo)搜索范围(wéi)。对训练文本数据库进行语法、语义分析,经过基于(yú)统计模(mó)型训练(liàn)得到语言模型。

      (5)语(yǔ)音解(jiě)码(mǎ)和搜索算法

      解码器是(shì)指语音技(jì)术中的识别(bié)过(guò)程。针对输入的(de)语音信号,根据己(jǐ)经(jīng)训练好的HMM声学(xué)模型、语(yǔ)言模型及字典建(jiàn)立一个识别(bié)网络(luò),根(gēn)据搜索算法在该网络(luò)中寻(xún)找最佳的一条(tiáo)路径,这(zhè)个路径就(jiù)是能够以(yǐ)最大(dà)概率输出该(gāi)语音信(xìn)号的词串(chuàn),这样就确定这个语音样本所包含的文字了。所(suǒ)以,解码操(cāo)作即指搜索(suǒ)算法,即(jí)在解(jiě)码(mǎ)端通过搜索技术寻找最优词串的方(fāng)法。

      连续语音识别中的(de)搜索,就(jiù)是寻找一个词模(mó)型序列以描述输入语音信(xìn)号,从而得(dé)到词解码(mǎ)序列(liè)。搜索所(suǒ)依据的是对公式(shì)中的声学模型打分和语言(yán)模型打分。在(zài)实际(jì)使用(yòng)中,往往要依据经验给(gěi)语言模型加上一个(gè)高权重,并设置(zhì)一个长词惩罚分数。

      语音识别(bié)本质上是一种模式识(shí)别的(de)过程,未(wèi)知语(yǔ)音(yīn)的模式与已知(zhī)语音(yīn)的参考模式逐(zhú)一进(jìn)行(háng)比较,最佳匹(pǐ)配的参考模式被作为识别结(jié)果。当(dāng)今语音识别(bié)技(jì)术的主流算法,主要有基于动(dòng)态时间规整(DTW)算法、基(jī)于非参数模型的(de)矢量量化(VQ)方(fāng)法、基于参(cān)数模型的隐马尔可夫模(mó)型(HMM)的(de)方法、以及近(jìn)年来基于(yú)深度学习(xí)和支持向(xiàng)量机等语(yǔ)音识别(bié)方法。

      站在巨人的肩膀上:开源框架

      目前开(kāi)源世(shì)界里提供(gòng)了多种不同的语音识别工具包,为(wéi)开(kāi)发者构建应用提供了很(hěn)大帮助。但这些工具(jù)各有优劣,需要根据具体情况选择使用(yòng)。下表为目前(qián)相对流行的工具包间的对(duì)比,大多基于传统的 HMM 和N-Gram 语言模(mó)型(xíng)的开(kāi)源工具包(bāo)。

      portant;" />

      对(duì)于普通用户(hù)而言,大多数(shù)人都会知道 Siri 或 Cortana 这样的产品。而对于研(yán)发工(gōng)程师(shī)来说,更灵活、更具专注性的解决方案更符合需求,很多公司(sī)都会(huì)研发自己的语音(yīn)识(shí)别(bié)工具。

      (1)CMU Sphinix是(shì)卡内基梅隆大学的研(yán)究成(chéng)果(guǒ)。已有 20 年(nián)历史了,在 Github和 SourceForge上都已经开源了,而且两个平台上都有较高的活(huó)跃度。

      (2)Kaldi 从(cóng) 2009 年的研讨会起就有它的学术(shù)根基了,现在已经(jīng)在 GitHub上开源,开发(fā)活跃(yuè)度(dù)较高。

      (3)HTK 始于剑桥大学,已经商用较长(zhǎng)时间,但是现在版权已经(jīng)不再开源软件了。它的最(zuì)新版本更新于 2015 年 12 月。

      (4)Julius起源于 1997 年,最后一个主版(bǎn)本发(fā)布于(yú)2016 年(nián) 9 月(yuè),主要支持的是日(rì)语(yǔ)。

      (5)ISIP 是第一个最新(xīn)型的开源(yuán)语音识别系统,源于密(mì)西西比州立大学(xué)。它主要发展于(yú) 1996 到 1999 年间,最(zuì)后版本发布于 2011 年,遗憾的是(shì),这个项目已经不复(fù)存在。

      语音识别技术研究难点(diǎn)

      目前,语(yǔ)音识别研究工作进展缓慢(màn),困难具体表(biǎo)现在:

      (1)输入(rù)无法标(biāo)准统一

      比如,各地方言的差异,每个人独有(yǒu)的发音(yīn)习惯等,如(rú)下(xià)图所示,口腔中元音随着舌头部位的不同可以(yǐ)发出多种(zhǒng)音调,如果组合变化(huà)多(duō)端的辅音,可以产生大量的、相似的发(fā)音,这对(duì)语(yǔ)音识别提出了挑(tiāo)战。除去口音参差不齐,输入设(shè)备(bèi)不统一也导致了语音输(shū)入的(de)不标(biāo)准。

      portant;" />

      (2)噪(zào)声的困(kùn)扰

      噪声(shēng)环境的各类声源处理是目前公认(rèn)的(de)技术(shù)难题,机器无(wú)法从各层次(cì)的背景噪音中(zhōng)分(fèn)辨出人声,而且,背景噪(zào)声千差万别,训练的情况也(yě)不(bú)能完(wán)全(quán)匹配(pèi)真实环(huán)境。因而,语音识别在噪(zào)声中比(bǐ)在安静(jìng)的环(huán)境下要难得多(duō)。

      目前主流的技术思(sī)路(lù)是(shì),通(tōng)过(guò)算法提升降低(dī)误(wù)差(chà)。首先,在收集的原始语(yǔ)音中,提取抗噪(zào)性较高的语音特征。然后,在模型训(xùn)练(liàn)的时候,结合噪声(shēng)处理算法训练(liàn)语音(yīn)模型,使模型(xíng)在噪声环境里的鲁棒(bàng)性较(jiào)高。最(zuì)后,在语音解码(mǎ)的过程中(zhōng)进(jìn)行多重选择(zé),从而提(tí)高语音识别在噪声环境(jìng)中的准确率。完全消除噪声(shēng)的干扰(rǎo),目(mù)前而言,还停留(liú)在(zài)理论层(céng)面。

      (3)模型的有效性

      识别系统中的语言模型、词法模型在大词汇量、连续语音识别中(zhōng)还不能(néng)完全正确的发挥作用,需要有效地结合(hé)语(yǔ)言学、心理学及生理学等其他(tā)学科(kē)的知识。并(bìng)且,语音(yīn)识别系统(tǒng)从(cóng)实验室演示系统向商品(pǐn)的转化过程中还有许(xǔ)多具体(tǐ)细节技术问题需要解决(jué)。

      智能语音识别系统研发方向

      今(jīn)天,许多(duō)用户已经能享受(shòu)到语音识别技术带(dài)来的方便,比如智能手机的语音操作等。但是(shì),这与实现真正的人机(jī)交流还有相当遥远的(de)距离。目前,计算(suàn)机对(duì)用(yòng)户语(yǔ)音的识别程度不高,人机交互上还存在一定的问题(tí),智能语音识别系统技术还有很长(zhǎng)的一段路要走,必(bì)须取得突破性的进展,才能(néng)做到(dào)更好(hǎo)的(de)商业应用,这也是未(wèi)来语音识别技术的发展方向。

      在(zài)语音识别的商业化落地(dì)中,需要内容、算法(fǎ)等各个方面的(de)协同支撑,但(dàn)是良好(hǎo)的(de)用户体验是商业应用的第一要素,而(ér)识别算(suàn)法是提(tí)升用户(hù)体验的核心因素(sù)。目前语音识(shí)别在智能(néng)家居、智能车载、智能客服机器人方面有广泛(fàn)的应用,未来将会深入(rù)到(dào)学习、生活、工作(zuò)的(de)各个环(huán)节。许(xǔ)多科(kē)幻片(piàn)中的场景正在(zài)逐步走入我们的平(píng)常生活。

      本期福利:近日,苏宁金融研究院发布了《中(zhōng)国(guó)居(jū)民(mín)消费升级报告(2019)》,读者可(kě)在(zài)“苏宁财富(fù)资讯”公众号后台回复“2019消(xiāo)费升级”,获得网盘链接和(hé)提取码~

      编(biān)辑:陈霞 汪华(huá)嫱

      关键词(cí):




      AI人工智能网(wǎng)声(shēng)明:

      凡资(zī)讯(xùn)来源注明为其他媒体(tǐ)来(lái)源的信息,均为(wéi)转载(zǎi)自其他媒(méi)体,并不(bú)代表(biǎo)本网站赞同其(qí)观点,也不(bú)代表(biǎo)本网站对其真(zhēn)实性负责(zé)。您若对该文章内容有任何疑问或质疑,请立即(jí)与网站(www.ankang.huangnan.sys.jixi.ww38.viennacitytours.com)联系,本网站将迅速给您回应(yīng)并做(zuò)处(chù)理。


      联系电话:021-31666777   新闻(wén)、技(jì)术文章投(tóu)稿QQ:3267146135   投稿邮(yóu)箱:syy@gongboshi.com

      精选资(zī)讯更多

      相关资讯更多

      热门搜索

      工博士(shì)人工智(zhì)能(néng)网
      leyu乐鱼
      扫描(miáo)二(èr)维码(mǎ)关注微信
      扫(sǎo)码(mǎ)反馈

      扫一扫(sǎo),反馈当前页面

      咨询反馈
      扫码关注(zhù)

      微信公(gōng)众号(hào)

      返回顶(dǐng)部

      leyu乐鱼

      leyu乐鱼