从使用、算法、芯片视点了解语音辨认技能

|
根据许多数据的堆集、深度神经网络模型的开展及算法的迭代优化,近年,语音辨认准确率获得了不断的进步。2016年10月,微软宣告英语语音辨认词错率下降到5.9%,然后能够比美人类。现阶段,在抱负的环境下,多家公司的语音辨认体系现已越过了有用的门槛,并在各个范畴得到了广泛的运用。

人工智能工业链由根底层、技能层与运用层构成。相同,智能语音辨认亦由这三层组成,本文从语音辨认的商业化运用动身,并讨论驱动语音辨认开展的算法及硬件核算才干,三位一体浅析语音辨认现状、开展趋势及依然面对的难点。

一、运用 智能语音技能是人工智能运用最老练的技能之一,并具有交互的天然性,因而,其具有巨大的商场空间。我国语音工业联盟《2015我国智能语音工业开展白皮书》数据显现,2017年全球智能语音工业规划将初次逾越百亿美元,到达105亿美元。我国2017年智能语音工业规划也将初次打破百亿元,五年复合添加率逾越60%。

从运用、算法、芯片视点了解语音辨认技能

科技巨子都在打造自己的智能语音生态体系,国外有IBM、微软、Google,国内有百度、科大讯飞等。

IBM、微软、百度等公司在语音辨认方面,运用组合模型,不断进步语音辨认功用。微软根据6个不同的深度神经网络构成的声学模型以及4个不同的深度神经网络构成的言语模型,获得了逾越人类的辨认准确率。科大讯飞则根据深度全序列卷积神经网络语音辨认结构,获得了有用级的辨认功用。云知声、捷通华声、思必驰等智能语音创业公司亦在不断打磨自己的辨认引擎,并能够把自己的技能落地到工业中。

在巨子和立异者的推动下,语音辨认逐步在智能家居、智能车载、语音帮手、机器人等范畴获得迅猛开展。

1、智能家居 在智能家居,尤其是智能音箱商场,亚马逊与Google处于职业操控位置,并各具特色。

亚马逊的Echo现已卖出近千万台,引爆了在线智能音箱商场。比较于传统的音箱,Echo具有长途唤醒播映音乐、联网查询咨询信息、智能操控家电等功用。可是在智能问答方面,Echo体现一般,Google以此为打破口,发布Google Home,从亚马逊手中争夺23.8%的智能音箱商场份额。2017年9月,亚马逊发布了多款Echo二代产品,比较一代在音质上有显着的进步,且Echo Plus具有愈加强壮的家居操控功用,能够主动查找到附件的智能家居设备,并进行操控。

在我国的语控电视、语控空调、语控照明等智能语控家电商场,科大讯飞、云知声、启英泰伦做了深化布局。

科大讯飞联合京东发布叮咚音箱,并于2016年推出讯飞电视助理,打造智能家居范畴的进口级运用。云知声供给物联网人工智能技能,经过与格力等公司协作,把自己的语音辨认技能集成到终端家电产品中,别的,云知声发布的 Pandora 语音中控计划,能够大幅缩短产品智能化周期。启英泰伦结合自己强壮的硬件(终端智能语音辨认芯片CI1006)及算法(深度学习语音辨认引擎)优势,供给离线与在线的整套语音辨认计划,并在物联网各个范畴有广泛的布局。

2、智能车载 跟着智能网联的开展,估量未来车联网在车载端的浸透率将逾越50%。可是根据安全性等要素考虑,车载端智能与手机端智能有极大的不同,从手机端简略复制的办法并不合适车载端运用场景。语音根据其交互的天然性,被以为是未来人与车交互的首要进口途径。

百度凭借自己的人工智能生态渠道,推出了智能行车帮手CoDriver。科大讯飞与奇瑞等轿车制造商协作,推出了飞鱼轿车助理,推动车联网进程。搜狗与四维图新协作推出了飞歌导航。云知声、思必驰在导航、平视显现器等车载运用方面推出了多款智能语控车载产品。出门问问则根据自己的问问魔镜进入到智能车载商场。

在语音辨认的商业化落地中,需求内容、算法等各个方面的协同支撑,可是杰出的用户体会是商业运用的榜首要素,而辨认算法是进步用户体会的中心要素。下文将从语音辨认的算法开展途径、算法开展现状及前沿算法研讨三个方面来讨论语音辨认技能。

二、算法 关于语音辨认体系而言,榜首步要检测是否有语音输入,即,语音激活检测(VAD)。在低功耗规划中,比较于语音辨认的其它部分,VAD选用always on的作业机制。当VAD检测到有语音输入之后,VAD便会唤醒后续的辨认体系。辨认体系整体流程如图2所示,首要包含特征提取、辨认建模及模型练习、解码得到成果几个进程。

从运用、算法、芯片视点了解语音辨认技能

图2.语音辨认体系

1、VAD(语音激活检测) 用于判别什么时分有语音输入,什么时分是静音状况。语音辨认后续的操作都是在VAD截取出来的有用片段上进行,然后能够减小语音辨认体系噪声误辨认率及体系功耗。在近场环境下,因为语音信号衰减有限,信噪比(SNR)比较高,只需求简略的办法(比方过零率、信号能量)来做激活检测。可是在远场环境中,因为语音信号传输间隔比较远,衰减比较严重,因而导致麦克风收集数据的SNR很低,这种状况下,简略的激活检测办法作用很差。运用深度神经网络(DNN)做激活检测是根据深度学习的语音辨认体系中常用的办法(在该办法下,语音激活检测即为一个分类问题)。在MIT的智能语音辨认芯片中运用了精简版的DNN来做VAD,该办法在噪声比较大的状况下也具有很好的功用。可是更杂乱的远场环境中,VAD依然是未来研讨的要点。

2、特征提取 梅尔频率倒谱系数(MFCC)是最为常用的语音特征,梅尔频率是根据人耳听觉特征提取出来的。MFCC首要由预加剧、分帧、加窗、快速傅里叶改换(FFT)、梅尔滤波器组、离散余弦改换几部分组成,其间FFT与梅尔滤波器组是MFCC最重要的部分。可是近年研讨标明,关于语音辨认而言,梅尔滤波器组纷歧定是最优计划。受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于主动学习的语音特征提取中,并获得杰出的作用。

现在现已证明,在特征提取方面,CLDNN比对数梅尔滤波器组有显着的功用优势。根据CLDNN的特征提取进程能够总结为:在时刻轴上的卷积、pooling、pooled信号进入到CLDNN中三个进程。

远场语音辨认范畴,因为存在强噪声、回响等问题,麦克风阵列波束成形依然是主导办法。

别的,现阶段,根据深度学习的波束成形办法在主动特征提取方面亦获得了许多研讨成果。

3、辨认建模 语音辨认本质上是音频序列到文字序列转化的进程,即在给定语音输入的状况下,找到概率最大的文字序列。根据贝叶斯原理,能够把语音辨认问题分化为给定文字序列呈现这条语音的条件概率以及呈现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对呈现该条文字序列的先验概率建模所得模型是言语模型。

3.1 声学模型

声学模型是把语音转化为声学表明的输出,即找到给定的语音源于某个声学符号的概率。关于声学符号,最直接的表达办法是词组,可是在练习数据量不充分的状况下,很难得到一个好的模型。词组是由多个音素的接连发音构成,别的,音素不光有明晰的界说而且数量有限。因而,在语音辨认中,一般把声学模型变换成了一个语音序列到发音序列(音素)的模型和一个发音序列到输出文字序列的字典。

需求留意的是,因为人类发声器官运动的接连性,以及某些言语中特定的拼读习气,会导致音素的发音遭到前后音素的影响。为了对不同语境的音素加以区别,一般运用能够考虑前后各一个音素的三音子作为建模单元。

别的,在声学模型中,能够把三音子分化为更小的颗粒 状况,一般一个三音子对应3个状况,可是这会引起建模参数的指数添加,常用的处理计划是运用决策树先对这些三音子模型进行聚类,然后运用聚类的成果作为分类方针。

至此,语音辨认有了终究的分类方针 状况。最常用的声学建模办法是隐马尔科夫模型(HMM)。在HMM下,状况是隐变量,语音是观测值,状况之间的跳转契合马尔科夫假定。其间,状况搬运概率密度多选用几许散布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。根据深度学习的开展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型被运用到观测概率的建模中,并获得了十分好的作用。下文给出各个模型的原理、所处理的问题及各自局限性,且给出了由模型的局限性而引起建模办法开展的头绪。

1)高斯混合模型(GMM)

观测概率密度函数由高斯混合模型建模,练习中,不断迭代优化,以求取GMM中的加权系数及各个高斯函数的均值与方差。GMM模型练习速度较快,且GMM声学模型参数量小,能够容易地嵌入到终端设备中。在很长一段时刻内,GMM-HMM混合模型都是体现最优异的语音辨认模型。可是GMM不能运用语境信息,其建模才干有限。

2)深度神经网络(DNN)

最早用于声学模型建模的神经网络,DNN处理了根据高斯混合模型进行数据表明的低效问题。语音辨认中,DNN-HMM混合模型大起伏的进步了辨认率。现在阶段,DNN-HMM根据其相对有限的练习本钱及高辨认率,依然是特定的语音辨认工业范畴常用的声学模型。需求留意的是,根据建模办法的束缚(模型输入特征长度的共同性需求),DNN模型运用的是固定长度的滑动窗来提取特征。

3)循环神经网络(RNN)/卷积神经网络(CNN)模型

关于不同的音素与语速,运用语境信息最优的特征窗长度是不同的。能够有用运用可变长度语境信息的RNN与CNN在语音辨认中能够获得更好的辨认功用。因而,在语速鲁棒性方面,CNN/RNN比DNN体现的更好。

在运用RNN建模方面,用于语音辨认建模的模型有:多隐层的长短期回忆网络(LSTM)、highway LSTM、ResidualLSTM、双向LSTM、时延操控的双向LSTM。

LSTM,根据门控电路规划,其能够运用长短时信息,在语音辨认中获得了十分好的功用。别的,能够经过添加层数进一步进步辨认功用,可是简略地添加LSTM的层数会引起练习困难及梯度消失问题。

Highway LSTM,在LSTM相邻层的回忆单元间添加一个门控的直接链路,为信息在不同层间流动供给一个直接且不衰减的途径,然后处理梯度消失问题

Residual LSTM,在LSTM层间供给一个捷径,亦能处理梯度消失问题。

双向LSTM,能够运用曩昔及未来的语境信息,因而其辨认功用比单向的LSTM好,可是因为双向LSTM运用了未来的信息,因而根据双向LSTM建模的语音辨认体系需求调查完好的一段话之后才干辨认,然后不适用于实时语音辨认体系。

时延操控的双向LSTM,经过调整双向LSTM的反向LSTM,完结了功用与实时性的一个折中建模计划,能够运用于实时的语音辨认体系。

CNN建模方面,包含时延神经网络(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM(CDL)、深度CNN、逐层语境扩展和留意(LACE)CNN、dilated CNN。

TDNN,最早被用于语音辨认的CNN建模办法,TDNN 会沿频率轴和时刻轴一同进行卷积,因而能够运用可变长度的语境信息。TDNN用于语音辨认分为两种状况,榜首种状况下:只要TDNN,很难用于大词汇量接连性语音辨认(LVCSR),原因在于可变长度的表述(utterance)与可变长度的语境信息是两回事,在LVCSR中需求处理可变长度表述问题,而TDNN只能处理可变长度语境信息;第二种状况:TDNN-HMM 混合模型,因为HMM能够处理可变长度表述问题,因而该模型能够有用地处理LVCSR问题。

CNN-DNN,在DNN前添加一到两层的卷积层,以进步对不同说话人的可变长度声道(vocal tract)问题的鲁棒性,比照于单纯DNN,CNN-DNN功用有必定起伏(5%)的进步

CLDNN及CDL,在这两个模型中,CNN只处理频率轴的改动,LSTM用于运用可变长度语境信息。

深度CNN,这儿的 深度 是指一百层以上。语谱图能够被看作是带有特定形式的图画,经过运用比较小的卷积核以及更多的层,来运用时刻及频率轴上长规划的相关信息,深度CNN的建模功用与双向LSTM功用适当,可是深度CNN没有时延问题。在操控核算本钱的状况下,深度CNN能够很好的运用于实时体系。

逐层语境扩展和留意(LACE)CNN及dilated CNN,深度CNN的核算量比较大,因而提出了能够减小核算量的 LACE CNN与dilated CNN,其把整个言语看作单张输入图,因而能够复用中心成果,别的,能够经过规划LACE CNN及dilated CNN网络每一层的步长,使其能够掩盖整个核,来下降核算本钱。

语音辨认的运用环境常常比较杂乱,挑选能够应对各种状况的模型建模声学模型是工业界及学术界常用的建模办法。可是各个单一模型都有局限性。HMM能够处理可变长度的表述,CNN能够处理可变声道,RNN/CNN能够处理可变语境信息。声学模型建模中,混合模型因为能够结合各个模型的优势,是现在声学建模的干流办法。

3.2 言语模型

语音辨认中,最常见的言语模型是N-Gram。近年,深度神经网络的建模办法也被运用到言语模型中,比方根据CNN及RNN的言语模型。

4、端到端的语音辨认体系 在DNN-HMM或许CNN/RNN-HMM模型中,DNN/CNN/RNN与HMM是分隔优化的,可是语音辨认本质上是一个序列辨认问题,如果模型中的一切组件都能够联合优化,很可能会获取更好的辨认准确度,这一点从语音辨认的数学表达式也能够看出(运用贝叶斯原则改动之后的表达式),因而端到端的处理办法亦被引进到语音辨认体系中。

4.1 CTC原则

其间心思维是引进空白标签,然后根据前向后向算法做序列到序列的映射。CTC原则可分为character-based CTC、other output units-based CTC、word-based CTC,因为CTC原则是直接猜测字符、单词等,而不是猜测音素,因而其能够除掉语音辨认中的字典等专家常识。因为在非word-based CTC中,依然需求言语模型及解码器。因而,character-basedCTC与other output units-based CTC对错朴实的端到端的语音辨认体系。相反,word-based CTC模型是朴实的端到端语音辨认体系。

根据word-based CTC原则,运用10万个词作为输出方针且运用 12.5 万小时练习样本得到的语音序列到单词序列的模型,能够逾越根据音素单元的模型。可是word-based CTC模型有练习困难及收敛慢的问题。

4.2 AttenTIon-based模型

比较于CTC原则,AttenTIon-based模型不需求有帧间独立性假定,这也是AttenTIon-based模型的一大优势,因而AttenTIon-based模型可能能够获得更好的辨认功用。可是比较于CTC原则,Attention-based模型练习愈加困难,且有不能单调地从左到右对齐及收敛更慢的缺陷。经过将 CTC 方针函数用作辅佐价值函数,Attention练习和 CTC 练习以一种多使命学习的办法结合到了一同。这种练习战略能够很大程度上改进Attention-based模型的收敛问题,而且缓解了对齐问题。

语音辨认的开展进程中,深度学习起到了要害的作用。声学模型遵从从 DNN 到 LSTM再到端到端建模的开展途径。深度学习最大的优势之一是特征表征。在有噪声、回响等状况下,深度学习能够把噪声、回响看为新的特征,并经过对有噪声、回响数据的学习,到达比较抱负的辨认功用。现在阶段,端到端的建模办法是声学模型建模的要点研讨方向,可是比较于其它的建模办法,其还没有获得显着的功用优势。如安在端到端建模的根底上,进步练习速度及功用,并处理收敛问题是声学模型的重要研讨方向。

5、解码 根据练习好的声学模型,并结合词典、言语模型,对输入的语音帧序列辨认的进程即为解码的进程。传统的解码是将声学模型、词典以及言语模型编译成一个网络。解码就是在这个动态网络空间中,根据最大后验概率,挑选一条或多条最优途径作为辨认成果(最优的输出字符序列)。查找常用的办法是Viterbi算法。关于端到端的语音辨认体系,最简略的解码办法是beam search算法。

6、远场杂乱环境下处理计划 现在阶段,在近场安静环境下,语音辨认能够获得十分抱负的辨认作用,可是在高噪声、多人说话、强口音等环境,特别是远场环境下,语音辨认还有许多问题需求处理。语音模型自适应、语音增强与别离、辨认模型优化等是常用的可选处理计划。

6.1 语音增强与别离

远场环境下,语音输入信号衰减比较严重,为了对语音信号增强,常选用麦克风阵列的波束构成技能,比方,Google Home选用双麦的规划计划,亚马逊Echo选用6+1的麦克风阵列规划计划。近年,深度学习办法被运用到语音增强与别离中,中心思维是把语音增强与别离转化为一个监督学习问题,即猜测输入声音源的问题。有研讨运用DNN代替波束构成,完结语音增强,并在必定场景下获得了比较抱负的作用。可是在背景噪声很大的环境中,该办法功用还有较大进步空间。

在多人说话的状况下,如果不对输入信号做别离处理,而进行语音辨认的话,辨认作用会很差。关于该问题,在多个说话人间隔较远的状况下,波束构成是一个比较好的处理计划,可是当多个说话人间隔很近的时分,波束构成的语音别离作用也很差。为了避开波束构成所带来的场景分类问题,传统的办法多是在单通道下测验处理该问题,常用算法有computational auditory scene analysis、非负矩阵分化、deep clustering 等,可是这些办法只要当噪声信号(除声源外的其他信号)与声音源信号有显着不同的特征时,这些技能才获得比较好的作用。其它状况下,这些办法在语音别离中获得的作用一般。2016年,俞栋博士提出了一种新的深度学习练习原则-- permutation invariant training,奇妙地处理了该问题,并获得了不错的作用。

6.2 语音模型自适应

许多且丰厚(能够供给更多信息)的数据集是进步模型泛化才干的最直接简略的办法;

根据本钱及练习时刻的考虑,一般状况下只运用有限的练习数据。此刻,在模型练习中参加Kullback-Leiblerdivergence正则项是处理模型自适应问题十分有用的办法;

除了参加正则项外,运用十分少的参数来表征说话者特征是另一种自适应办法,其包含:奇异值分化瓶颈自适应,把满秩矩阵分化为两个低秩矩阵,减小练习参数;子空间法,子空间法又包含:

1. 在输入空间及深度网络的各个层中参加i-vector、扬声器(speaker)编码、噪声估量等辅佐特征;

2. 聚类自适应练习(CAT);

3. 隐层分化(FHL),比较于CAT,FHL只需求少数的练习数据,原因在于FHL的基是秩为1的矩阵,而CAT的基是满秩矩阵,在基数量一样的状况下,CAT需求更多的练习数据。

实时性是语音辨认运用中重视度很高的问题之一,实时性直接影响用户的体会感,进步语音辨认的实时功能够经过下降运算时刻本钱与进步辨认硬件核算才干两方面完结。

7、下降运算时刻本钱 SVD,根据奇异值分化的数学原理,把满秩矩阵分化为两个低秩矩阵,减小深度模型的参数,且能够不下降模型辨认功用;

紧缩模型,运用向量量化或许极低比特量化算法;

改动模型结构,首要针对LSTM,在LSTM中添加一个线性映射层,下降原有LSTM的输出维度,然后下降运算时刻本钱;

运用跨帧的相关性来下降评价深度网络分数的频率,关于DNN或CNN而言,这能够经过运用跳帧战略完结,即每隔几帧才核算一次声学分数,并在解码时将该分数复制到没有评价声学分数的帧 。

别的,进步辨认阶段硬件的运算才干,开发专用的语音辨认芯片对增强语音辨认的实时性含义严重,下文将会在这方面展开讨论。

三、芯片 不断堆集的高质量大数据与深度学习算法是语音辨认功用能够不断进步的要害。根底层的中心处理芯片是支撑海量练习数据、杂乱的深度网络建模办法以及实时揣度的要害要素。语音辨认包含练习与辨认(给定练习好的模型,对输入语音进行辨认)两部分。

在练习阶段,因为数据量及核算量巨大,传统的CPU或许单一处理器简直无法单独地完结一个模型练习进程(初始阶段,谷歌大脑语音辨认项目是根据16000个CPU,用了75天,完结一个有156M参数的深度神经网络模型练习作业)。原因在于CPU芯片架构中只要少数的逻辑运算单元,且指令履行是一条接一条的串行进程,其算力缺乏。研制具有高核算才干的芯片成为语音辨认甚至整个人工智能硬件的开展趋势。

与CPU不同的是,GPU具有许多的核算单元,因而特别合适大规划并行核算。别的,FPGA、TPU、ASIC这些连续传统架构的芯片亦在大规划并行核算中得到广泛的运用。需求留意的是,从本质上讲,这些芯片都是核算功用与灵活性/通用性trade-off的成果,即,如图3所示。CPU,GPU是通用处理器,DSP归为ASP,TPU是ASIC这一类,FPGA则是一种Configurable Hardware。

从运用、算法、芯片视点了解语音辨认技能

别的,根据实时性、低功耗、高核算力的需求,运用专属语音辨认AI芯片处理辨认阶段许多的矩阵运算,进行运算加快是往后终端语音辨认芯片商场的干流方向。

1、云端场景 因为核算量、练习数据量极大,且需求许多的并行运算,现在语音辨认的模型练习部分根本都放在云端进行。在云端练习中,英伟达的GPU占主导商场,多GPU并行架构是终端练习常用的根底架构计划。别的,Google在自己的人工智能生态中,运用TPU做练习与辨认。

现在阶段,语音辨认公司的辨认部分也大多放在云端,比方Google home、亚马逊Echo,国内的科大讯飞、云知声等。在云端辨认中,尽管也有运用GPU,可是GPU并不是最优计划,更多的是运用CPU、GPU、FPGA各自优势,选用异构核算计划(CPU+GPU+FPGA/ASIC)。

2、终端场景 在智能家居等职业运用中,对实时性、稳定性及隐私性有极高的要求。出于对云端数据处理才干、网络推迟及数据安全性的考虑,把核算下放到终端硬件中的边际核算得到了快速的开展。终端离线的语音辨认便是一种根据边际核算的边际智能,我们以为离线与在线是语音辨认共存的开展道路。在终端离线辨认中,需求把练习好的模型存储到芯片。给定语音输入时,引擎会调用模型,完结辨认。终端语音辨认两个要害要素是实时性与本钱,其间实时性影响用户体会,本钱影响语音辨认运用规划。

因为深度神经网络在语音辨认中获得显着的功用优势,其是现在干流的语音辨认建模办法。可是神经网络的模型参数量一般十分大,且辨认进程中有许多的矩阵核算,常用的DSP或许CPU处理该问题时需求许多的时刻,然后无法满意语音辨认的实时性需求。GPU、FPGA的价格又是阻止其在终端语音辨认中大规划运用的首要妨碍。考虑到终端运用中,场景比较照较固定,且需求很高的核算功用,研制语音辨认专属芯片是终端语音辨认硬件开展趋势。

启英泰伦(ChipIntelli):2015年11月在成都建立。2016年6月推出了全球首款根据人工智能的语音辨认芯片CI1006,该芯片集成了神经网络加快硬件,可完结单芯片、本地离线、大词汇量辨认,且辨认率显着高于传统终端语音辨认计划。别的,启英泰伦能够供给廉价的单麦远场语音辨认模组,其实践辨认作用能够比美运用了科胜讯降噪模块的双麦模组,大起伏下降远场语音辨认模组本钱。启英泰伦在终端语音辨认专用芯片开展上获得了显着的技能及先发优势。

MIT项目:MIT黑科技,即,MIT在ISSCC2017上宣布的paper里的芯片,该芯片能够支撑DNN运算架构,进行高功用的数据并行核算,能够完结单芯片离线辨认上千单词。

云知声:云知声致力于打造 云端芯 语音生态效劳体系,其刚获取3亿人民币的出资,将把部分资金投入到终端语音辨认芯片 UniOne 的研制中,据报道,该芯片将会内置DNN处理单元,兼容多麦克风阵列。

曩昔几十年,尤其是最近几年,语音辨认技能不断获得打破。可是,在大多数场景下,语音辨认远没有到达完美。处理远场杂乱环境下的语音辨认问题依然是当时研讨热门。别的,一般状况下,语音辨认都是针对特定的使命,练习专用的模型,因而,模型的可移植性比较差。

人类在对话进程中,能够很高效的运用先验常识,可是现在的语音辨认体系都还无法有用运用先验常识。因而,语音辨认还有许多问题待处理。令人兴奋的是,跟着高质量数据的不断堆集、技能的不断打破及硬件渠道算力的进步,语音辨认正在向我们等待的方向快速开展。

请尊重我们的辛苦付出,未经允许,请不要转载ca88亚洲城【官】_电子爱好者网的文章!
window._bd_share_config={"common":{"bdSnsKey":{},"bdText":"","bdMini":"2","bdMiniList":false,"bdPic":"","bdStyle":"1","bdSize":"32"},"share":{}};with(document)0[(getElementsByTagName('head')[0]||body).appendChild(createElement('script')).src='http://bdimg.share.baidu.com/static/api/js/share.js?v=89860593.js?cdnversion='+~(-new Date()/36e5)];
上一篇:深度学习怎么进行MRI图画右心室切割
下一篇:系留无人机常见核心技术详解