音频社交渐热, “所听”并非真实 ——
人工智能时代,你了解“声音”吗?
近日,美国一款即时性音频社交软件Clubhouse风靡全球,不到一年的上线时间,软件全球下载量突破800万。“Spaces”“对话吧”“SoundClub”等一系列类似软件紧跟其后,似乎都在暗示声音社交回归舞台。
自出生后的第一声啼哭开始,我们与声音“相处”已久,但关于“声音”,或许还有许多方面值得我们深究。人工智能时代,声音在被捕捉、模仿、传输和理解的过程中,究竟经历了什么?本期《科技周刊》带你走进声音的世界。
语音中的声音为何变“奇怪”
现实生活中,很多人有这样的经历:当你饱含深情地说了一段语音后,语音播放出来却不仅声音变得奇怪,听起来甚至不太像自己。明明是同一个人在说话,为何会出现这样的差异呢?究竟哪个才是自己最真实的声音?“实际上,这主要有两个原因,首先是声音传播的方式不同,另一个是语音经过社交平台转录出去后常常会被压缩。”中国科学院声学研究所研究员、中国科学院语言声学与内容理解重点实验室副主任张鹏远接受《科技周刊》记者采访时表示,声音是由物体振动产生的,“别人听见你的声音”是由你声带的振动引起了空气的振动,从而被他人感知,所以是依靠空气传播;而“自己听见自己的声音”则是通过颅骨传导,直接振动耳蜗进而转化为神经信号,变成你所听到的声音,这也就是我们常说的“骨传导”。“因为传播方式的不同,且环境中存在着大量干扰,同一个人说的话自己听见的版本和别人听见的版本是不同的。”
除此之外,声音之所以变“奇怪”可能还涉及编码和解码的问题。“当我们对着麦克风说话,声音被麦克风采集后转为数字信号,这时候就可能会出现失真。”张鹏远以有损音频和无损音频举例,如果把声音视作一条曲线,无数的点构成了这条曲线。对于同样一段声音,有损音频的采样频率和采样精度比较低,比如每秒钟采样8000个点(约为打电话时所用的采样频率),那么声音自然就会出现偏差。同一首歌曲,采样频率和采样精度越高,其对声音的还原程度也就越高。“一般来说,有损音频和无损音频的文件大小可以相差10倍以上。我们通过微信发送语音,因为要降低传输数据量,所以一般都会对其进行压缩。”
声音和我们的指纹一样,有着每个人各自的独特之处,并且相对稳定、可辨别。“由于人的发声器官位置、尺寸不同,并且每个人声音的音色、音调等特征不同,所以从人声音中提取出来的声纹(人的声音频谱)具有唯一性。”张鹏远表示,现在很流行的声纹识别技术实际上就是将声信号转化为数字信号,再利用技术手段捕捉特定对象的声纹特征,从而判定说话的人是谁。
你的声音如何被“复刻”
自1939年世界上第一台能够合成人声的电子设备Voder亮相纽约世界博览会以来,“如何能让机器模仿人的声音”就成了人工智能领域的一大热点话题。江苏省人工智能学会智能语音专家、苏州思必驰信息科技有限公司联合创始人、上海交通大学苏州人工智能研究院执行院长俞凯教授告诉《科技周刊》记者,人工智能语音合成技术正不断迭代更新,其发展历史主要分为三个阶段:在第一代技术阶段,我们需要被模仿人提前录制一个庞大的音库,这个音库会被切分成若干小段随时待取,当我们所需要合成的语音中每一个涉及的词都提前被录制过,则可以直接调取。“这种情况下播放出的声音将会很逼真,基本上就是录音,但其缺点在于需要提前录制大量语料,一旦遇到没有提前录制的词句,就会出现间断等明显不自然情况。”
第二代技术开始运用机器学习技术,首先将采集到的声音利用相关参数化的统计模型进行建模,使用信号处理的方式,将建模之后生成的声音频率特征进行信号处理,最后输出我们能够听见的声音。“尽管这种方式的连贯性会好很多,但由于在统计模型的建模过程中声音频率特征会被平滑,从而产生音质损失,因此整体来看第二代技术所合成的语音并不是那么逼真。”而在第二代技术的基础上发展起来的第三代语音合成技术,大多是基于深度学习中的神经网络技术开展。“和第二代相似,现在的第三代技术也是数据驱动的,但大多采用了先进的端到端深度学习框架,数据训练后合成的声音比较连贯和自然。如果在录音条件非常好且有充足数据的情况下,其合成声音和真人声音没有太大区别,人耳基本上听不出差异。”
目前利用语音合成技术去模仿人声,需要通过神经网络去捕捉被模仿人声音中的三类主要变化特性。俞凯介绍,首先是语言文字的特征,即这个词应该发什么音;第二类特征是韵律的特征,即声音的抑扬顿挫;最后还需要把握说话人的时长特征,即说话人发每个音需要用的时间。“男人和女人、老人和孩子,不同人说话的声音各不相同,这三类特征信息被神经网络捕捉到之后会生成一个频谱序列,而这个序列会被传递到另一类神经网络中,最终生成模仿后的声音。”
生活中,很多车主将林志玲、郭德纲等名人的声音设定为地图软件中的导航提示音,其实这也得益于语音合成中的复刻技术。“全国大大小小的路名有很多,全部让人念出来录音几乎是不可能的事。因此,我们需要前期在高保真录音室中记录很多人的语音数据,训练一个平均模型,随后将特定目标人说话的录音导入,让系统根据目标人说话特征进行调优,从而尽可能模仿目标人的声音。”张鹏远表示,一般来说,合成语音的自然度和相似度是通过MOS(平均主观意见分)分来进行评价。MOS分满分为5分,一般情况下采集目标人100句话之后所能合成的语音,其MOS分可以达到4.2分的水平;而如果只采集到5句话,则MOS分就会比较低,人耳能明显听出不同。
透过声音能“看到”脸吗
两年前,康奈尔大学研究团队设计并训练了一个深度神经网络,它在训练过程中学习了视听、音像、声音和面部的关联性,从而根据声音来推测面部特征。透过声音,人工智能真的能够“看到”脸吗?目前,人工智能领域对声音的研究又有何新进展?对此,张鹏远认为,单纯借助声音无法百分百还原目标人的脸部图像,但有可能还原出其部分面部特征。“人的声音和人脸的图像其实是有相关性的,例如我们在单看唇部运动的时候,哪怕没有出声,也可以识别其部分说话内容,所以说声音和图像并不能被割裂,而是强相关。”
从康奈尔大学研究团队的实验结果来看,通过声音,人工智能确实可以生成与目标人类似的面孔,可以还原其部分特征,但和真实长相还有一定差距。俞凯表示,说话人的年龄、性别、面部骨骼等生理学特征确实与人的声音具有相关性,可以一定程度上还原说话人的面部特征,但想单独凭借声音这一种模态来完全重构人脸,目前是做不到的。
近年来,随着人工智能领域对于声音的研究越来越多,其发展速度也不断加快。“在人与人工智能的语音交互过程中,不单单包括语音合成和识别,还涉及对说话内容的理解。”俞凯进一步解释,目前大多数人接触到的语音交互主要是“你一句,我一句”轮换着对话的模式,而我们现在正在研究的是即兴自然语音交互的新架构,即真人与人工智能可以自由对话。简单来说就是,对话期间任何一方都可以打断另一方;当人没有表达完自己想表达的意思时,人工智能会等人继续说完;而当人表达完意思后,人工智能可以立刻反馈。“我们采用‘全双工’的交互架构,帮助人工智能在‘听见’声音的基础上,能够在语音交互过程中理解说话人的意思,而这些都是早期人工智能语音交互系统里所不具备的。”
作者:谢诗涵
来源:《新华日报》 (2021-03-17 第14版科技周刊·新知)
报道链接: