![]() |
智能语音机器人小度,不仅能与人还能与其它机器人互动 |
智能语音技术,就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法,涉及语音识别、内容理解、对话问答等
你知道小冰吗?你呼叫过小度吗?你和小娜互动过吗?你使用过Siri吗?如果都没有,那你就out了。它们都是当下很火爆的智能语音机器人,很多人都和它们聊过天。
日前,美国投资机构Mangrove Capital Partners发布了2019年《语音技术报告》。报告分析了语音助理服务的日益普及,并预测苹果2020年将推出Siri操作系统。那么,究竟什么是语音技术?它有哪些应用?语音操作系统又是什么?
通过纯语音信息
实现与机器交互
所谓智能语音技术,就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法,涉及语音识别、内容理解、对话问答等。一般来说,智能语音就是利用计算机对语音信息进行自动处理和识别的技术。
“从引擎模块的角度讲,智能语音技术包括语音前端处理(含语音增强)、语音识别、语音合成、语义理解对话管理和声纹识别等模块。其中,语音识别就是将语音信息通过计算机自动处理转化成文字的过程,也叫语音转写,它包括语音分段、端点检测、特征提取、解码以及后处理等过程。”中国科学院声学研究所(以下简称中科院声学所)研究员赵庆卫说。
目前,智能语音技术主要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。所谓虚拟助手,就是智能语音助手,它的核心在于人类通过纯语音信息实现与机器的交互,让智能机器“助手”帮忙完成指派的任务。
基于语音的人机交互有很大的发展潜力,所以不少互联网企业都看好这个方向。目前,亚马逊已经打造了一个智能语音云平台(Alexa),平台上有各种智能语音应用(8万种技能),在这个平台上,用户可以通过语音发出一系列指令,比如购物、搜索、听音乐、讲故事等。
智能语音技术
的前世今生
事实上,智能语音技术的研究起源于20世纪50年代。1952年,美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”,它可以识别数字0—9的发音,且准确度高达90%以上。
20世纪60年代到70年代初,语音识别的研究取得了一定进展,能够使用模板匹配的方法做一些简单的语音识别(小词汇量、特定人、孤立词)。
从20世纪90年代到21世纪初,非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。1997年,IBM首个听写产品Via Voice问世,用户只要对着话筒说出想要输入的文字,系统就会自动识别并输出文字。
2005年,中科院声学所推出国内第一个自主研发的电信级语音识别平台,首次实现了国产语音识别软件的规模应用,在中国移动23个省的增值业务上线应用。
深度神经网络框架
成为主流
2010年,随着服务器的计算能力大幅提高(受益于GPU的应用)和训练语音数据的大幅度增加(受益于移动互联网和云计算的发展),微软基于深度神经网络的语音识别研究取得较大进展,识别错误率相对下降20%以上。
近年来,基于深度神经网络的语音识别技术进行了持续的迭代,从基础的深度神经网络发展到延时神经网络(TDNN)、双向长短时记忆(BLSTM)以及卷积神经网络(CNN)等;基于端到端架构(End-to-End)的语音识别系统正在被语音识别的学术界和工业界深入研究,一些系统也已经上线,中科院声学所将其最新研究成果实际应用于中国移动通信集团和中国电信集团的客服热线,智能技术直接服务了数以亿计的客户。
据了解,中科院声学所针对实时语音识别的需求,提出了一种基于混合神经网络(延时神经网络+输出投影门循环单元)的低延时声学建模技术,可处理长时信息,网络结构简洁,计算速度快,易于并行化训练。该模型结构已作为一种新型的回馈神经网络结构,被国际主流语音识别开源软件Kaldi采纳。 (陆成宽)
你知道小冰吗?你呼叫过小度吗?你和小娜互动过吗?你使用过Siri吗?如果都没有,那你就out了。它们都是当下很火爆的智能语音机器人,很多人都和它们聊过天。
日前,美国投资机构Mangrove Capital Partners发布了2019年《语音技术报告》。报告分析了语音助理服务的日益普及,并预测苹果2020年将推出Siri操作系统。那么,究竟什么是语音技术?它有哪些应用?语音操作系统又是什么?
通过纯语音信息
实现与机器交互
所谓智能语音技术,就是研究人与计算机直接以自然语音的方式进行有效沟通的各种理论和方法,涉及语音识别、内容理解、对话问答等。一般来说,智能语音就是利用计算机对语音信息进行自动处理和识别的技术。
“从引擎模块的角度讲,智能语音技术包括语音前端处理(含语音增强)、语音识别、语音合成、语义理解对话管理和声纹识别等模块。其中,语音识别就是将语音信息通过计算机自动处理转化成文字的过程,也叫语音转写,它包括语音分段、端点检测、特征提取、解码以及后处理等过程。”中国科学院声学研究所(以下简称中科院声学所)研究员赵庆卫说。
目前,智能语音技术主要应用于智能家居、虚拟助手、可穿戴设备、智能车载、智能客服、智能医疗、陪伴机器人等方面。所谓虚拟助手,就是智能语音助手,它的核心在于人类通过纯语音信息实现与机器的交互,让智能机器“助手”帮忙完成指派的任务。
基于语音的人机交互有很大的发展潜力,所以不少互联网企业都看好这个方向。目前,亚马逊已经打造了一个智能语音云平台(Alexa),平台上有各种智能语音应用(8万种技能),在这个平台上,用户可以通过语音发出一系列指令,比如购物、搜索、听音乐、讲故事等。
智能语音技术
的前世今生
事实上,智能语音技术的研究起源于20世纪50年代。1952年,美国贝尔实验室制造了一台6英尺高的自动数字识别机“Audrey”,它可以识别数字0—9的发音,且准确度高达90%以上。
20世纪60年代到70年代初,语音识别的研究取得了一定进展,能够使用模板匹配的方法做一些简单的语音识别(小词汇量、特定人、孤立词)。
从20世纪90年代到21世纪初,非特定人、大词汇量、连续语音识别系统的研究成为国际语音界研究方向的主流。1997年,IBM首个听写产品Via Voice问世,用户只要对着话筒说出想要输入的文字,系统就会自动识别并输出文字。
2005年,中科院声学所推出国内第一个自主研发的电信级语音识别平台,首次实现了国产语音识别软件的规模应用,在中国移动23个省的增值业务上线应用。
深度神经网络框架
成为主流
2010年,随着服务器的计算能力大幅提高(受益于GPU的应用)和训练语音数据的大幅度增加(受益于移动互联网和云计算的发展),微软基于深度神经网络的语音识别研究取得较大进展,识别错误率相对下降20%以上。
近年来,基于深度神经网络的语音识别技术进行了持续的迭代,从基础的深度神经网络发展到延时神经网络(TDNN)、双向长短时记忆(BLSTM)以及卷积神经网络(CNN)等;基于端到端架构(End-to-End)的语音识别系统正在被语音识别的学术界和工业界深入研究,一些系统也已经上线,中科院声学所将其最新研究成果实际应用于中国移动通信集团和中国电信集团的客服热线,智能技术直接服务了数以亿计的客户。
据了解,中科院声学所针对实时语音识别的需求,提出了一种基于混合神经网络(延时神经网络+输出投影门循环单元)的低延时声学建模技术,可处理长时信息,网络结构简洁,计算速度快,易于并行化训练。该模型结构已作为一种新型的回馈神经网络结构,被国际主流语音识别开源软件Kaldi采纳。 (陆成宽)