什么是语音交互技术？优势、系统架构与发展现状分析

2022-03-06 23:24:38 作者：云闲 6029

什么是语音交互技术?

语言是人际交流的最习惯、最自然的方式。语音交互技术是一种综合技术,以语音为基础信息载体，使得机器具有像人一样“能听会说、自然交互、又问必答”的交互能力。语音交互涵盖语义分析和理解、知识构建和自我学习能力、大数据处理和挖掘等一系列新兴技术领域。

语音交互过程包括四部分：语音采集、语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)。语音采集这个过程是完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化；自然语言处理根据语音识别转换后的文本字符或命令完成相应的操作；语音合成则完成文本信息到声音信息的转换。

语音交互系统架构

用户界面连接用户和系统，用户和系统的特征都决定着用户界面的设计。语音交互系统包含以下三个主要部分，这三部分依次进行完成一轮人机交互。

(1)语音识别(Automatic Speech Recognition，ASR)：系统通过麦克风阵列采集用户的语音，并转化成文本;

(2)自然语言处理(NLP)对语义进行解读，并生成回复，有些研究中也将这一环节分为自然语言理解(Natural Language Understanding，NLU)和自然语言生成(Natural Language Generation，NLG)。

(3)语音合成(Text to Speech，TTS)：系统将回复的信息转化成语音，并反馈给用户。

全球语音交互技术发展现状

自从1952年IBM开始研究机器对人类语音的识别检测开始，对机器接收并理解语言的研究便从未停止。近20年来，语音交互界面取得了长足的发展，并将情感化的理解和表达引入了认知科学领域，以增强人工智能的类人化交流属性。

在2000年日本研究者提出了一种基于声学特征的语音情感识别方法，能够在一定范围内理解人类常见的8种情绪状态：平静、愤怒、伤感、快乐、憎恶、惊叹、烦恼和恐惧。并且该方法适用于任何语言使用地区和任意性别、年龄的检测，并基于该研究，开发了能够感知用户情绪信息的语音交互系统(VIS)。系统VIS可以与用户进行互动，同时可以根据用户的话语更改其响应状态。

微软研究院于2011年，提出 DNN—HMM(深度神经网络和隐马尔可夫模型)算法，经过海量数据的训练，显著提升在大量词汇连续语音识别任务上的性能，DNN算法的出现使语音识别错误率首次实现大幅度降低。中国科大讯飞首个深度神经网络中文语音识别系统上线基于DNN的声纹识别率提升了30%。

2016年，Tacotron、WaveNet上线，实现远场语音识别和唤醒，也在一定程度上提升了语音识别的准确率，此时的语音识别准确率在理论上可以达到98%，这也意味着智能语音技术市场化适用期的到来"。

得益于人工智能技术的快速发展，语音交互的核心环节(语音识别、语义理解和自然语言生成)取得了一系列突破性进展。在我国，截至目前约有超过250家企业参与智能语音语义市场，根据国家工业信息安全发展研究中心数据显示，2018年底我国语音识别与自然语言处理技术合计申请专利6.1万件，在总计申请专利44.4万件的人工智能领域占比13.6%。

语音交互的优势

由于真正意义上的信息内容交流和传播是从语言产生开始的，语言能力是人类天生具备的交流能力，而文字和图形符号信息交流则需要后天的学习和扩展理解，因此语音交互方式本身便具有极广的用户基础。现阶段，语音交互作为人工智能领发展的重要方向之一，承用于具有一定开放性的使用场景，与传统的命令行界面(CLI)以及图形用户界面(GUI)的交互方式相比，主要具备以下优势：

1、操作方式便捷简单

无需其他外设或身体接触，语音操作贴近本能。

2、基本不消耗学习成本

语言是人天生具备的能力，无需过多后天特定学习，对于基本使用功能，无需指导用户如何进行产品操作，并且没有使用熟练度要求。

3、场景开放

可以在一定距离空间内完成交互行为，并且可以在亲子等家庭场景下多人使用。

4、人性化

当声音的表达语气、语速、音色特征及语调态度不同的时候，其表达的信息情感指向也不同，可以更加亲切直观表现情绪，文字符号等反馈方式相对缺乏鲜活体验。

5、无界面流程限制

传统GUI交互方式需要预设逻辑路径，用户跟随引导路径进行操作和延申，并且需要根据数据信息量进行分层级显示，语音对答可以直达用户需求，无需多层级界面操作。

《【研报】汽车行业智能驾驶系列专题：全球车载语音交互龙头Cerence(CRNC)-210118(20页).pdf》