随着新兴的播客等多媒体传播形式的流行,在未来数年内,互联网将成为一个浩大的音视频档案库。如何在这样浩繁的数据库里查找所需的片断,未来的搜索技术能否像搜索文字一样迅速找到所需的声音?请关注——
“你问我爱你有多深,我爱你啦———啦啦”……当记者对着麦克风哼着略带走调、吐字不清的经典老歌时,电脑显示屏立刻从数千首曲库中显示出了正确答案———《月亮代表我的心》,下面还有一串备选歌曲。
只要“张张嘴”,对着麦克风说出歌名、歌词或者哼唱一段旋律,短短几秒钟,就可以从茫茫“歌海”搜索到想要的歌曲。近日,在国际音乐处理学术界举办的最高赛事(MIREX)中,中科院声学所中科信利实验室获得哼唱检索评测的第一名。
耳听为虚,眼见为实。日前,记者来到该实验室,亲自体验了“动口不动手”的新一代语音搜索技术。
哼出旋律轻松搜索歌曲
随着互联网、计算及存储技术的日益普及,利用PC上的播放器、MP3随身听和具有音乐播放功能的手机,人们越来越容易地随时随地享受音乐。据不完全统计,世界上的音乐CD有380万种,包含4800万种音乐单曲,分布在80多种语言中,音乐资源确实可以用“浩如烟海”来形容。
计算、通信和存储技术越来越便宜,存储空间越来越大,例如存储超过1000首歌的MP3已经成为普及型的产品。但是,如何使用户从音乐大海中方便的找到自己喜欢的音乐就变成了一个技术挑战。
“基于文本的搜索引擎并不能有效解决这个难题。”中科信利语音实验室主任颜永红介绍说,中科院声学所借助于自身语音识别和音频处理的技术积累,从2002年就开始进行目标音频检索和基于内容的音乐检索核心技术研究。这项语音识别技术并没有停留在实验室,据介绍,目前该技术已经在河北等10余个省级电信运营商开通的彩铃服务中试运营。
基于内容的音乐信息检索是指由用户输入一段音乐,然后根据用户的输入,在音乐数据库中搜索与之相似的曲目。用户只要直接说出歌曲、歌手名称即可迅速找到想要下载的彩铃。如果记不得,还可以哼唱6秒钟旋律,或说出歌曲中的一、两句歌词等方式,轻松地找到自己喜爱的音乐片段。这种技术不仅可以应用于电信网、互联网多媒体的搜索,还可以使人们在KTV等场合方便寻找歌曲。
口语引擎帮您准确发音
科研工作人员还为记者展示了广播电视新闻识别引擎。系统自动播出一段新闻联播,屏幕即刻出现了相应的文字,记者仔细检查,在几分钟的播音时间里,只出现了一个字的错误。
颜永红介绍,这种类似“听写机”的系统,将音频通过听写机转化成对应的文字,处理检索文件将更加方便。它在电视台、广播电台等媒体应用广泛,还能代替会议活动的速录。
据悉,这套中文电视广播新闻节目识别系统已经被英国Autonomy公司采用,并作为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。此外,它还可以测试语言发音、音调、节拍、音量等的标准程度,用于口语学习、音乐教育等领域。
记者进入“口语语言学习引擎”,机器输出一句“千山鸟飞绝”,记者重复了一句,结果电脑很快评估出总体上的发音准确度,甚至给出了每个音素上的得分,并给出改进建议。
颜永红打趣道:“现在,年轻人不都想当超级女生吗?利用此技术,可以纠正你唱歌中的旋律、节拍、吐字、音准等每个细节上的错误,有了这个老师,完全可以打造一个平民‘天后’。”
多媒体内容检索前景可观
哼一段旋律就能查到对应的歌曲,说一个关键词,电脑就能从网络中搜索到相关网页……这些看似“异想天开”的语音识别技术,近两年已经开始变成现实,逐步走向实际应用。
在颜永红看来,由于多媒体内容制作成本下降,诸如《馒头》之类网民自制的音视频内容在互联网上日益增多,同时,随着新兴的播客、麦客等多媒体传播形式的流行,在将来数年内,互联网将成为一个浩大的音视频档案库。如何在这样浩繁的数据库里查找所需的片断,将成为困扰互联网搜索的难题。
因此,基于多媒体内容搜索是下一代搜索引擎未来的发展方向,而语音识别技术必将是其中的关键。由于在多媒体中音频与视频是对应的,只要检索音频通道,就能搜索到相应的视频片段。
虽然语音识别在精准度、口音、抗噪声等方面还有很多难题需要解决,并且其商业运营模式还不成熟,但颜永红依然认为,在“十一五”期间,会有越来越多的人接受自动语音识别技术。(转载自《科技日报》,记者 陈磊)