语音识别 - The mini wiki

模式识别，就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息和声学信息的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。

雷蒙德·库茨魏尔是生于美国纽约市的作家、发明家和未来学家。他一直是光学字符识别、文字转换语音合成、语音识别技术与电子键盘乐器领域中的先驱。他有关于健康、人工智能、超人类主义、技术奇点和未来主义相关的著作。现任谷歌工程总监。

声学模型是语音识别系统中最为重要的部分之一，目前的主流系统多采用隐马尔科夫模型进行建模。
隐马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

口语语料库为语言音频文件和文字副本的数据库。在语音技术里，口语语料库可用于创建声学模型，配合语音识别引擎使用。在语言学里，口语语料库可用于语音学、会话分析、方言学等方面的研究。

认知计算是指基于人工智能和信号处理的系统平台。这些平台涉及机器学习、自动推理、自然语言处理、语音识别和计算机视觉、人机交互等技术。目前无论是学术院还是工业界，他们对认知计算都没有一个统一的定义。

语音活性检测 , 也称为 speech activity detection or speech detection, 是一项用于语音处理的技术，目的是检测语音信号是否存在。 VAD技术主要用于语音编码和语音识别。它可以简化语音处理，也可用于在音频会话期间去除非语音片段：可以在IP电话应用中避免对静音数据包的编码和传输，节省计算时间和带宽。

Otter.ai是一间总部设于洛思阿图斯的科技公司，利用人工智能及机器学习研发语音识别转录及翻译程式。其产品Otter为实时演讲者提供字幕，并就演讲内容生成书面抄本。

Windows 7基于Windows Vista核心上，仍包含了许多的新功能。并且改进了触控的方便性、语音识别和手写输入、支持虚拟硬盘、更多的档案格式并且提高多核心中央处理器的效能、加快开机速度以及核心上改进。

模式识别，就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息和声学信息的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统。