《2018年微软小冰实时感官系统与未来发展趋势.pdf》由会员分享,可在线阅读,更多相关《2018年微软小冰实时感官系统与未来发展趋势.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、微软小冰实时感官系统与未来发展趋势什么是小冰全双工语音感官实时视觉感官两种感官的结合什么是小冰全双工语音感官实时视觉感官两种感官的结合Chat BotContent providerSolutions交互基础交互内容对话如河流交互方式聊天机器人传统交互互联网时代交互人工智能交互语音助手?微信聊天微信语音微信电话微信视频电报对讲机电话NULL什么是小冰全双工语音感官实时视觉感官两种感官的结合全双工语音交互形式单轮交互多轮交互持续监听全双工交互组成模块:半双工 vs 全双工Speech RecognitionChat EngineText To SpeechContinuous Speech Re
2、cognitionLanguage PredictionChat EngineText To SpeechTurn CoordinatorRhythm Coordinator边听变想(输入模块)节奏控制(输出模块)与上一轮输出的关系QueueInterruptSkip与用与用户语音输出的关系户语音输出的关系YieldInterruptSkip On NewConditional QueueConditional InterruptInterrupt Or Queue每段音频输出可以定义一个模式指定如何调度协调CurrentSentenceCandidatesQueuePlayCursorLef
3、tTime递归回复&主动回复对于声音场景的理解语音身份识别:男、女、儿童语音声纹识别背景噪音识别是否在对小冰说话未来发展方向个人场景 家庭场景 车载场景 公共空间场景多人同时交互 and/or 多设备联动交互与实时视觉感官的结合什么是小冰全双工语音感官实时视觉感官两种感官的结合实时视觉感官的交互形式基于电视+摄像头的部署视频流输入视频流+音频流输出并行事件触发机制(输入模块)静态事件Face ID人物性别、颜值、服装物体时间动态事件人的位置(进入屏幕)人的表情人的关键部位(挥手)手机扫码场景已知男性进入屏幕某男子戴帽子后的闲聊一个小女孩靠近屏幕一个人一直站着不动节奏控制(输出模块)视频流输出 颜值 框住要说话的对象(节奏)物体 照片二维码 音频流输出(节奏)打招呼 引导用户 主动抛话题 更复杂的节奏控制器 认识的人调高优先级 触发过的场景调低优先级 主动抛话题调低优先级 更多不同优先级的任务 未来发展方向大屏商业化小型设备用户化产品线基础能力更多物体、商品识别能力判断物体、人物之间的关系更多场景和功能什么是小冰全双工语音感官实时视觉感官两种感官的结合视觉与听觉相结合的经验交流方式只靠听觉视觉补听觉只靠视觉视觉唤醒说话人识别