新华日报：人工智能时代，你了解“声音”吗？----中国科学院声学研究所

　　音频社交渐热， “所听”并非真实 ——

　　人工智能时代，你了解“声音”吗？

　　近日，美国一款即时性音频社交软件Clubhouse风靡全球，不到一年的上线时间，软件全球下载量突破800万。“Spaces”“对话吧”“SoundClub”等一系列类似软件紧跟其后，似乎都在暗示声音社交回归舞台。

　　自出生后的第一声啼哭开始，我们与声音“相处”已久，但关于“声音”，或许还有许多方面值得我们深究。人工智能时代，声音在被捕捉、模仿、传输和理解的过程中，究竟经历了什么？本期《科技周刊》带你走进声音的世界。

　　语音中的声音为何变“奇怪”

　　现实生活中，很多人有这样的经历：当你饱含深情地说了一段语音后，语音播放出来却不仅声音变得奇怪，听起来甚至不太像自己。明明是同一个人在说话，为何会出现这样的差异呢？究竟哪个才是自己最真实的声音？“实际上，这主要有两个原因，首先是声音传播的方式不同，另一个是语音经过社交平台转录出去后常常会被压缩。”中国科学院声学研究所研究员、中国科学院语言声学与内容理解重点实验室副主任张鹏远接受《科技周刊》记者采访时表示，声音是由物体振动产生的，“别人听见你的声音”是由你声带的振动引起了空气的振动，从而被他人感知，所以是依靠空气传播；而“自己听见自己的声音”则是通过颅骨传导，直接振动耳蜗进而转化为神经信号，变成你所听到的声音，这也就是我们常说的“骨传导”。“因为传播方式的不同，且环境中存在着大量干扰，同一个人说的话自己听见的版本和别人听见的版本是不同的。”

　　除此之外，声音之所以变“奇怪”可能还涉及编码和解码的问题。“当我们对着麦克风说话，声音被麦克风采集后转为数字信号，这时候就可能会出现失真。”张鹏远以有损音频和无损音频举例，如果把声音视作一条曲线，无数的点构成了这条曲线。对于同样一段声音，有损音频的采样频率和采样精度比较低，比如每秒钟采样8000个点（约为打电话时所用的采样频率），那么声音自然就会出现偏差。同一首歌曲，采样频率和采样精度越高，其对声音的还原程度也就越高。“一般来说，有损音频和无损音频的文件大小可以相差10倍以上。我们通过微信发送语音，因为要降低传输数据量，所以一般都会对其进行压缩。”

　　声音和我们的指纹一样，有着每个人各自的独特之处，并且相对稳定、可辨别。“由于人的发声器官位置、尺寸不同，并且每个人声音的音色、音调等特征不同，所以从人声音中提取出来的声纹（人的声音频谱）具有唯一性。”张鹏远表示，现在很流行的声纹识别技术实际上就是将声信号转化为数字信号，再利用技术手段捕捉特定对象的声纹特征，从而判定说话的人是谁。

　　你的声音如何被“复刻”

　　自1939年世界上第一台能够合成人声的电子设备Voder亮相纽约世界博览会以来，“如何能让机器模仿人的声音”就成了人工智能领域的一大热点话题。江苏省人工智能学会智能语音专家、苏州思必驰信息科技有限公司联合创始人、上海交通大学苏州人工智能研究院执行院长俞凯教授告诉《科技周刊》记者，人工智能语音合成技术正不断迭代更新，其发展历史主要分为三个阶段：在第一代技术阶段，我们需要被模仿人提前录制一个庞大的音库，这个音库会被切分成若干小段随时待取，当我们所需要合成的语音中每一个涉及的词都提前被录制过，则可以直接调取。“这种情况下播放出的声音将会很逼真，基本上就是录音，但其缺点在于需要提前录制大量语料，一旦遇到没有提前录制的词句，就会出现间断等明显不自然情况。”

　　第二代技术开始运用机器学习技术，首先将采集到的声音利用相关参数化的统计模型进行建模，使用信号处理的方式，将建模之后生成的声音频率特征进行信号处理，最后输出我们能够听见的声音。“尽管这种方式的连贯性会好很多，但由于在统计模型的建模过程中声音频率特征会被平滑，从而产生音质损失，因此整体来看第二代技术所合成的语音并不是那么逼真。”而在第二代技术的基础上发展起来的第三代语音合成技术，大多是基于深度学习中的神经网络技术开展。“和第二代相似，现在的第三代技术也是数据驱动的，但大多采用了先进的端到端深度学习框架，数据训练后合成的声音比较连贯和自然。如果在录音条件非常好且有充足数据的情况下，其合成声音和真人声音没有太大区别，人耳基本上听不出差异。”

　　目前利用语音合成技术去模仿人声，需要通过神经网络去捕捉被模仿人声音中的三类主要变化特性。俞凯介绍，首先是语言文字的特征，即这个词应该发什么音；第二类特征是韵律的特征，即声音的抑扬顿挫；最后还需要把握说话人的时长特征，即说话人发每个音需要用的时间。“男人和女人、老人和孩子，不同人说话的声音各不相同，这三类特征信息被神经网络捕捉到之后会生成一个频谱序列，而这个序列会被传递到另一类神经网络中，最终生成模仿后的声音。”

　　生活中，很多车主将林志玲、郭德纲等名人的声音设定为地图软件中的导航提示音，其实这也得益于语音合成中的复刻技术。“全国大大小小的路名有很多，全部让人念出来录音几乎是不可能的事。因此，我们需要前期在高保真录音室中记录很多人的语音数据，训练一个平均模型，随后将特定目标人说话的录音导入，让系统根据目标人说话特征进行调优，从而尽可能模仿目标人的声音。”张鹏远表示，一般来说，合成语音的自然度和相似度是通过MOS（平均主观意见分）分来进行评价。MOS分满分为5分，一般情况下采集目标人100句话之后所能合成的语音，其MOS分可以达到4.2分的水平；而如果只采集到5句话，则MOS分就会比较低，人耳能明显听出不同。

　　透过声音能“看到”脸吗

　　两年前，康奈尔大学研究团队设计并训练了一个深度神经网络，它在训练过程中学习了视听、音像、声音和面部的关联性，从而根据声音来推测面部特征。透过声音，人工智能真的能够“看到”脸吗？目前，人工智能领域对声音的研究又有何新进展？对此，张鹏远认为，单纯借助声音无法百分百还原目标人的脸部图像，但有可能还原出其部分面部特征。“人的声音和人脸的图像其实是有相关性的，例如我们在单看唇部运动的时候，哪怕没有出声，也可以识别其部分说话内容，所以说声音和图像并不能被割裂，而是强相关。”

　　从康奈尔大学研究团队的实验结果来看，通过声音，人工智能确实可以生成与目标人类似的面孔，可以还原其部分特征，但和真实长相还有一定差距。俞凯表示，说话人的年龄、性别、面部骨骼等生理学特征确实与人的声音具有相关性，可以一定程度上还原说话人的面部特征，但想单独凭借声音这一种模态来完全重构人脸，目前是做不到的。

　　近年来，随着人工智能领域对于声音的研究越来越多，其发展速度也不断加快。“在人与人工智能的语音交互过程中，不单单包括语音合成和识别，还涉及对说话内容的理解。”俞凯进一步解释，目前大多数人接触到的语音交互主要是“你一句，我一句”轮换着对话的模式，而我们现在正在研究的是即兴自然语音交互的新架构，即真人与人工智能可以自由对话。简单来说就是，对话期间任何一方都可以打断另一方；当人没有表达完自己想表达的意思时，人工智能会等人继续说完；而当人表达完意思后，人工智能可以立刻反馈。“我们采用‘全双工’的交互架构，帮助人工智能在‘听见’声音的基础上，能够在语音交互过程中理解说话人的意思，而这些都是早期人工智能语音交互系统里所不具备的。”

　　作者：谢诗涵

　　来源：《新华日报》 (2021-03-17 第14版科技周刊·新知)

　　报道链接：

　　http://xh.xhby.net/pad/con/202103/17/content_899419.html