声学发展史之——智能声学

声学工程师小吴

2022年8月16日 13:32

浏览：2263 收藏：2

前言

最近看到阿里巴巴的精灵声学团队的和波士顿声学的合作，提出这是在“智能声学”技术框架下融合调音的一次尝试。这应该是国内厂商第一次提出类似概念，并且讲解了完整的体系。智能声学，其实并不是一个公认的声学分支的专有名词。若把这个词拆分成“智能”和“声学”，可能更好理解。智能家庭（Home automation），也称智慧家庭或者家庭自动化，是为将智能化信息技术带进家庭生活，从而提升居家生活品质的一种理念。智能家庭在2020年的市场规模近650亿美元，预计在2028年达到1630亿美元。而声学作为重要的信息交互渠道，无论是语音交互/识别，还是各种提升听音体验的音频技术，都在智能家庭中起到了越来越重要的角色。所以我粗浅地概括，智能声学即为在智能家庭中涉及到的声学技术的总称。那今天咱就唠唠，智能声学的发展和涉及到的声学技术。

智能声学发展

智能家庭中最重要的声学设备应该就是智能音箱了。2022年智能音箱的市场规模66亿美元，在智慧家庭市场中占比超过10%。音箱在智能时代已经不仅仅能播放歌曲，而是一个融合了多传感器、AI、以及语音和声学算法等多种前沿技术的智能设备。

智能音箱可以说是始于2014年Amazon Echo的问世。Alexa作为其内部的AI核心，可以听懂用户的命令从而播放歌曲。自此智能音箱横空出世，就迅速占领市场，并且逐步成为智能家庭的核心。除了播放歌曲外，智能音箱还逐渐扩展到居家的其他方面，比如可以问天气、股市、旅行计划、商店开门时间、网上购物，或者是其他的一些通用话题。同时，智能音箱也可以用来控制照明和空调系统，设置定时和闹钟等。智能音箱已然走进了居家生活的方方面面。

除了Echo，在国外相对比较成功的厂商还有Google，Sonos，苹果以及哈曼。而国内则主要有百度、小米、华为和阿里巴巴。群雄逐鹿的场面，各位武林盟主都有哪些奇门遁甲之术呢？我们来看看这里面主要涉及到的声学技术……

智能声学技术

整个智能声学交互的过程，以人嘴为出发点，人耳为结束。用户发出指令，通过声源定位和噪声消除，被智能音箱的麦克风阵列清晰地听到，之后智能音箱的处理器进行一系列的处理，进而实现各种识别功能和调音，将回复或者音乐通过扬声器传送到人耳。

1 声纹识别

声纹识别 (voiceprint recognition) 也被称为说话人识别（speaker recognition）或者语音生物特征识别（voice biometric recognition）,在英文语境里speaker recognition使用的更广泛，从这个字面上看，很容易看出声纹识别的作用，就是通过分析说话人的声音识别出说话人的身份。声纹识别属于生物识别的一种。生物识别技术有很多种，大致可以分为两大类：物理特征识别和行为特征识别。前者包含面部识别、指纹识别、视网膜识别以及虹膜识别等，后者则有声纹识别、手势识别和签名识别。下面的表格详细列出了各种技术在准确性、易用程度、用户接受度、部署难易程度以及成本等方面的表现：

从上表中很容易看出，声纹识别的综合表现很优异，另外有研究表明声纹识别的安全性表现也能和虹膜、指纹以及面部识别媲美。因为每个人说话的声音都是独特的，这个独特性来自于我们各自独特的发声结构。对发声结构有想进一步了解的可以参见往期文章我们是怎样发出声音的？。相比较于其他技术，声纹识别的远距离交互特性让其更适合用于智能音箱系统上。

小故事：

声纹识别技术的发展最早可以追溯到1932年，和美国著名的《联邦绑架法案》（也常被称为《小林德贝格法案》）有关。那一年，美国的飞行员查尔斯·林德贝格20个月大的儿子小林德贝格遭到了绑架最后不幸遇难。在支付赎金时，坐在汽车里的查尔斯没有看到凶手的样子，但听到了凶手的声音。两年多后，一个嫌疑人被抓到，查尔斯听了这个嫌疑人的声音，在庭审时确认和两年前听到的声音一模一样。这个案件当时在全美引起了广泛的关注，学者弗朗西斯·麦基也受此启发，开始了最早的人声识别技术的研究。之后的主要发展节点如下：

声纹识别技术的主要发展节点

声纹识别技术框架图

声纹识别的技术框架图如上图所示，声纹识别是模式识别的一种，主要分为两个阶段：训练和测试。核心的步骤有前处理、特征提取以及建模。

2 语音识别

声纹识别帮助音箱知道是谁在和它对话，那么教会音箱理解话里内容的则是语音识别（speech recognition）技术。下面我们介绍两种常见传统方法：语音学方法，模式识别法。

语音学方法在1967年由Hemdal和Hughes提出，该方法认为我们说的话由基本的语言单元（也称音素）构成，每个语音单元可以被一组物理声学参数表征，而这些参数同说话的人以及相邻的语音单元成函数相关，这个函数关系很容易被机器学习到。语音学方法的第一步是对语音信号进行谱分析，然后就是进行声学参数特征提取，紧接着进行切分和标注，就是将整个语音分割成很多的较短的独立的部分，并给每个部分做上语音标注并与具体的词组对应上。该方法没有得到大规模的应用。

第二种是模式识别（模式匹配）法。该方法包含四个步骤，特征分析、模式训练、模式分类和逻辑决策。在进行模式训练之前需要先对输入的语音信号进行前处理，也就是特征分析，模式训练过程中需要创建参考模式，这个可以通过模板法或者统计模型法（Hidden Markov Model）实现。在模式分类过程中，未知的模式和参考模式会进行比较，差别也会被计算出来。这个方法在过去很长一段时间获得了较大的关注和发展。

3. 声源定位

声源定位可以帮助音箱听到人在哪里说话，然后主要关注人说话的方向，以比较高的信噪比来采集人发出的指令。声源定位最常见的手段就是波束成型（Beamforming），通过麦克风阵列来实现对声源的定位。波束成型的方法最早可能出现于一战时期。我在之前的声学可视化系列文章声学发展史之——声音可视化 (Sound Visualization) · 下里也有过简单介绍。

Perrin Acoustic Array在一战中的使用，用来监测敌机的方位。发明者Sergeant Jean Perrin（图右一）获得了诺贝尔物理学奖

以最简单的Delay-and-sum beamforming为例。我们把两部手机放到一个有网格的平面上，每部手机上都有一个喇叭，喇叭发出声音信号，被另一个平面上的一组麦克风采集到。b图中纵轴是麦克风，横轴是时间。可以看到每个麦克风接收到的信号有不同程度的延迟。这个很好理解，每个麦克风距离喇叭的距离都不同，距离除以声速就是延迟。再看d图。我们现在进行逐行逐格扫描，每一个网格都是假设的声源位置，算出该网格和每个麦克风的距离，进而得出延迟，然后在横轴时间轴上对延迟进行补偿。由于d图中的网格并不是实际声源的位置，所以下边的彩色图中能看出补偿之后还是有延迟。而e图显然是找对了声源位置，在补偿延迟之后，所有麦克风的信号都是一样的。这个时候对所有麦克风的信号求和得到的值是最大的，所以通过这种寻找空间最大值的方式可以得到喇叭的真实位置[4]。

然而现实是，如果这么简单的话，那我们做研发的就得饿死。所以不管现实多么魔幻，还是要心怀感恩 ;) 比如距离很近的多声源、低频声源、室内混响、高背景噪声等都给波束成型的准确定位带来挑战。有一些优化方法比如MVDR和解卷积的方法比如DAMAS和CLEAN可以在某种程度上提高定位精度，另外有资料表明FRIDA（finite rate of innovation sampling based algorithm）和MUSIC（MUsical Signal Classification）算法的鲁棒性较好，其次是SRP-PHAT（Steered-Response Power Phase Transform）和TOPS（test of orthogonality of projected subspaces），再次WAVES（Weighted Average of Signal Subspaces）和CSSM（coherent signal subspace method）算法。在角分辨率这块FRIDA也比较好，MUSIC和SRP-PHAT次之，基于相关性的方法比非相关性方法差。近些年出现了基于机器学习或者深度学习的beamforming，也对提高定位精度和鲁棒性有很大提升，我们会在接下来的内容中涉及到。

4. 回声消除

回声消除在通信领域是一项很重要的技术，在移动电话、远程会议系统和助听器等上面都有广泛的应用。所以什么是回声？它是怎么产生的呢？它又有什么不好的地方？为什么要消除它？相信有些人曾经碰到过，在和朋友打电话的时候，自己说完一句，紧接着你又在听筒听到了自己刚说的那句话，重复好几遍，音量很大，让你很难听清楚朋友到底说了什么。这个延迟的自己的声音就是回声，可以看出它是无效的，不应该出现的，大大的影响了通话的质量和体验。

如上图所示， $w$ 为远端说话人的声音信号， $x$ 为回声通道的脉冲响应函数， $w*x$ 为回声信号， $s$ 为近端说话人的声音， $d$ 为近端麦克风采集的声音信号， $e$ 为误差。远端说话人的声音通过近端喇叭放出后，通过直射或者反射被近端的麦克风采集到，又传回了远端，这就是回声产生的基本原因。

那怎么消除回声呢？从图中可以看出，那就是对回声通道的脉冲响应函数w进行估计，和远端声音信号进行卷积后，就可以得到回声信号的估计值，然后将麦克风采集到的信号减去回声信号的估计值，再进行传输或者播放就解决了这个问题。那怎样对回声通道的脉冲响应函数进行估呢？自适应滤波器。常用的算法有：LMS,NLMS,RLS,APA等。

相比较于电话通信，在智能音箱的远场交互使用场景中，自适应的回声消除，显得更尤为重要。为什么呢？试想一下，音箱正在大声播放着我们喜欢听的歌曲，这时候我们突然想让音箱播放今天的天气情况，通常情况下，我们人到音箱上麦克风的距离要远远大于音箱上喇叭到麦克风的距离，音量也没有喇叭播放的大，我们播放天气的指令完全淹没在了音箱自己播放的音乐当中，导致就没有听到我们的指令，因此必须进行回声消除，否则音箱根本就不知道我们有没有给它指令，何谈交互。简单说，回声消除就是要让音箱听清我们说的。

5. 去混响

用回声消除技术解决了音箱喇叭播放的声音对我们语音指令的影响后，房间里的混响也会对指令产生影响。怎么理解房间混响呢？声源发出的声音，除了直接抵达我们耳朵的部分，还有一部分经过房间墙壁或者家居等物品反射或者散射之后才抵达我们的耳朵，这些延迟到达的声音就被称为混响声。这个延迟的时间越长，表示混响的效果越强。混响的效果太强，例如50ms的延迟，人耳已经可以区分直达声和反射声，这样会影响我们的听觉感受，不容易听清别人的话，或者觉得声源播放的音乐品质较差。适当的混响，例如10~30ms的延迟，由于人耳的时间掩蔽效应，会增强我们的听觉感受。但是对于智能音箱的耳朵，也就是麦克风来说，它并没有人耳那样的时间掩蔽效应，我们说出的语音指令声音，除了直接抵达麦克风的部分，混响导致的延迟部分声音，很不利于后续的语音识别，也就是不利于音箱听清我们说的话，必须进行处理，这个处理技术方法称为语音去混响（Dereverberation）。常见的去混响算法有三大种：第一种是波束成型，这是一种空间滤波的方案，就是让音箱只听到来自特定方向的声音，其他方向直接消除或削弱。第二种是语音增强，可以进一步细分为基于统计模型的去混响方法、基于LPC(linear predictive coding)方法、基于特征值分解方法。第三种是盲反卷积法。

下面的视频，展示了一个人在一个具有特殊混响效果的房间-也被称为混响室-里，说话的效果，是不是都“肉眼可见”到声音在到处乱串反射，很是抓狂，听不清视频里的人说话？

6. AI技术融合

AI可能已经是烂大街的“过气”热词了。可能和很多其他的热点技术不同，AI是真正已经在工业界落地好多年的技术，在各个领域解决实实在在的各种问题，虽然也早已被学术界盯上并使之陷入疯狂内卷，发个paper不带上AI出门都不好意思跟人打招呼。

AI全称Artificial intelligence，中文名曰人工智能。在我们提到的前几项技术中，都能见到AI的身影。未来关键是要做好声学与AI的融合。比如在声源定位中，如果背景噪声过大或者同时有很多人在说话，传统的波束成型及其改进的算法在精准定位发出指令的人声和计算效率上都有局限性。现在可以通过卷积神经网络来解决这个问题。其过程可以简单理解为将每个频率点的beam pattern作为神经网络的输入，将真实声源的pattern作为参考，求解出一个可以去掉beam pattern中噪点的网络[5]。

在语音识别和声纹识别中也是类似的道理，比如可以将不同人声的不同指令的时频谱作为网络的输入，通过不断搜集数据增大数据库，增加识别的准确率。其实和用于图像处理的AI类似，不管是beam pattern还是时频谱本质上都是图片[6]。

如果想提升模型的计算效率和准确性，往往我们需要提取出更有用的feature（特征），以增大输入参数的正交性。也就是说，让输入参数更具代表性。除了可以在音频信号中做文章之外，还可以结合其他传感器，比如触觉传感器，EEG（脑电图），EMG（肌电图），相机，IMU（惯性测量单元），将多传感器的信号进行多模态融合（Fusion），从而能让网络更加准确地识别用户意图，了解用户需求，提升用户体验。

7. 均衡器EQ，调音和金耳朵

通过音箱回放声音的时候，由于音箱自身和回放环境的影响，我们往往无法真实还原原始声音信号。这是由于音箱的物理限制，以及声音在空间中的反射造成的。均衡器叫Equalizer，简称EQ，顾名思义是用来均衡声音的，补偿我们之前提到的音箱和空间环境的影响。理想状况下，我们给什么样的声音信号，听到的就应该是一模一样的声音信号。举一个简单的不太恰当的例子，比如在任何频率放出的声音强度都是1，那么我听到的也应该都是1，EQ的目的就是把那些不是1的调成1。我们可以在不是1的地方加上相应滤波器，把小于1的地方拉大，把大于1的地方缩小。当然现实中我们还有更高的追求，比如想让声音更饱满低沉，那么需要给低频部分增大到1.5；如果想让声音更明亮，则可以把高频部分调大到1.5；又或者600Hz附近女声特别响，那么就要在这里加个notch filter把这部分能量削弱。更高阶一点的涉及到空间音频，比如有一组音箱，如果想要获取比如说“舞台在前边”的听音体验，那就除了调音之外还要考虑到不同音箱到达人耳的延迟。

然而过度的调音会让音乐失去本身所要表达的情感，即所谓的“包浆”过度。所以目前一些智能音箱提出“不包浆”均衡器的理念。

调音曲线[7]

如果仅仅靠冷冰冰的曲线，就说能达到完美的听音体验是不现实的。我们人耳非常挑剔，所以有的时候曲线可以很漂亮，但是听着不舒服；或者比如我想让声音低沉饱满，那低频是调到1.5呢还是1.49？这个时候“金耳朵”的重要性就体现出来了。知乎上经常被提到的“百万调音师”就是长着金耳朵的那群人。写到这里想到前公司一个项目里的甲方爸爸，有几个金耳朵，通过金耳朵专家们听出来的良品和次品作为我们机器学习训练的样本，因为专家们耳朵的灵敏度不是线性时不变的，导致我们模型经常性的效果不佳-_-。

我是专家，我萌吗？

这个职业我是没办法做到了。了解我们文章的读者应该还记得，我曾经放过我的听力曲线……我觉得其实有必要在我耳朵里边放一个EQ其实……对这个话题感兴趣的请戳：声学发展史之——心理声学(Psychoacoustics) · 下

某人的听力曲线

智能声学未来趋势

智能声学是以智能音箱为基础的技术，所以自然不能忽略了音箱的本质——播放音乐。我们在发展技术的同时，一定要同时密切关注人的听音体验。简单说一说笔者想到的智能音箱音频方面的未来发展趋势。

3D音频

这个不是专属智能音箱的技术，而是音箱的普世技术。当家里的智能音箱≥1的时候，我们就可以把3D音频考虑进来。比如我们坐在家里的沙发上听周杰伦的演唱会，也能有身临其境在现场的感觉。举一个最简单的3D音频的例子，坐在沙发上，周董就在我们正前方的舞台上唱歌。周董走到了舞台的左边和观众互动，我们听到的声音和我们看到的要一样，闭上眼睛不看我们也知道他走到了舞台的左边。之前有过一篇文章详细了介绍了Facebook的Reality Lab在3D音频发展的相关技术：听见未来生活：Audio in the future life

我们作者群的Li博士在Facebook Reality Lab做研究的时候就和3D音频的主要负责人有过合作。

多房间音频

这个比较好理解，我们在客厅用智能音箱听歌，现在想去卧室待会，最直观的做法就是把音箱拎到卧室。那么问题来了：如果是多个智能音箱，那可能实现起来就会比较困难。所以3D音频的进化体就是多房间的3D音频。在每个房间都布局智能音箱，通过传感器追踪人的位置，实时渲染3D音频，不影响听音体验。比如在我是躺着听了一会歌，然后起来去做饭，走到厨房这一路和在厨房做饭照听不误。不止听音体验，这种布局也能做到时时刻刻呼唤语音助手，不用扯着脖子冲着隔壁房间吼。

个人听音区间（Personal sound zone）

坐在沙发上的两个人，一个在听演唱会，另一个在听MIT的公开课，两个人听到的东西互不影响，这个感觉是不是很酷？除了在室内环境，这项技术在车内也是热门研究对象。这项技术目前有很多局限性，比如在混响空间里边就很难实现多区间控制。而且在不同频率范围的表现也不尽相同，比如低频效果要比高频效果好，因为高频需要非常多的音箱数量[Cecchi 2018]。这个问题可以被MEMS音箱解决，因其体积小价位低。MEMS 音箱也是声学里边比较前沿的技术，也是智能音箱可以发展的一项技术之一。我们作者群的德克萨斯大学的牛小宇博士所在的UT Acoustic MEMS Lab一直致力于这方面的研究，感兴趣的也可以看下他写过的指向性MEMS麦克风的文章地球上最先进的麦克风，居是苍蝇耳朵……

非线性均衡（Nonlinear equalization）

我们在用EQ调音的时候，不仅在调由于房间反射引起的失真，同时也在调由于音箱和放大系统引起的线性或者非线性失真。我们经常提到的均衡或者调音主要是在调节线性失真。近年来，也有研究在利用Volterra滤波器来模拟放大器-喇叭-腔体系统，然后再把信号播出，来均衡系统的线性和非线性行为。

定制化调音

根据使用者喜欢的音乐风格，来做相关的定制化调音。根据所听音乐的频率成分，来学习使用者的喜好。并制成属于使用者特有的均衡曲线，加到其所听的音乐当中。

定向声技术

TWS耳机固然好，但是再舒服的耳机戴久了也会不舒服。所以国内外都开始了定向声技术的研发。我在读博时候一个办公室的以色列好基友前几年就在做这个事情，他们也把这项技术叫做虚拟耳机。国内我所了解中科院声学所也在做。

把耳机+音箱+3D回放融为一体，取其精华，去其槽粕。其原理主要有三点：

1. 通过3D传感器，对头部尤其是双耳位置进行识别；

2. 高指向声音打向耳朵。获取双耳位置信息后，双耳音频信号被调制成超声，因此实现对双耳的精准打击，然后通过某种非线性、自解调的算法（并不知道是什么方法，有知道的请不吝赐教），在双耳处还原原始音频；

3. 超声发射由一种特殊音箱（Multi-cell speaker module）完成。

音频经超声调制和解调后被人耳接收 [8]

什么都不用带，达到了戴耳机的效果。其功能又是音箱没法媲美的，虚拟耳机可以做到声音只让目标人听见，而其他人听不见。其意义在公共空间巨大，比如博物馆一个房间不同区域可以根据主题播放不同音频而不互相干扰，车里一家三口可以不用带耳机听自己想听的音乐，办公室接打电话。

私密声空间

其概念十分吸引人，不知道具体效果如何。有几个问题很好奇他们是怎么解决的，比如耳朵追踪的精度，超声能否直接把声音送达耳道外沿，送达位置和追踪偏差会引起HRTF不准从而导致双耳感受下降，以及如何保证解调之后的声音不向周围环境传播等等。

据量子位、雷锋网等人工智能媒体的报道，阿里的精灵声学实验室对于未来智能声学的发展提出了四大趋势：

这个总体判断中，比较有意思的是在音乐类型和声学架构上，这个团队似乎有一些自己特定的面向消费者的技术探索。后续产品和技术值得期待。在底层技术上，他们提出的自适应环境感知与发声单元，是较有前景的发展趋势。

资料推荐

按常理文章后要总结一下，但是我觉得也没有太大必要，留个开放式的结尾给读者无限遐想（主要还是觉得自己没那个能力做全方位的总结）。所以最后分享一些写这篇文章时读过的文章作为干货送给大家吧。另外参考里边的链接大家也可以去点。

· Arora, 2012. Automatic Speech Recognition: A Review

· Gaikwad, 2010. A Review on Speech Recognition Technique

· Bentley, 2018. Understanding the Long-Term Use of Smart Speaker Assistants

· Cecchi, 2018. Room Response Equalization—A Review

· Xue, 2020. Progress and Prospects of Multimodal Fusion Methods in Physical Human–Robot Interaction: A Review

· Hanifa, 2021. A review on speaker recognition: Technology and challenges

· Cohen, 2021. An online algorithm for echo cancellation, dereverberation and noise reduction based on a Kalman-EM Method

· Yang, 2018. Multilayer Adaptation Based Complex Echo Cancellation and Voice Enhancement

参考

[1] https://www.fortunebusinessinsights.com/industry-reports/home-automation-market-100074

[2] https://www.globenewswire.com/news-release/2022/03/23/2408568/0/en/Smart-Speakers-Global-Market-Report-2022.html#:~:text=Major%20players%20in%20the%20smart,ONKYO%20CORPORATION%2C%20and%20Panasonic%20Corporation.

[3] https://www.igadgetsworld.com/smart-speakers-history-future/

[4] William Fonseca. Beamforming considerando difração acústica em superfícies cilíndricas. Doctoral Thesis. Universidade Federal de Santa Catarina (UFSC), 2013.

[5] https://www.sciencedirect.com/science/article/abs/pii/S088832702100354X

[6] https://www.merl.com/demos/seamless-asr

[7] https://dmgaudio.com/products_equick.php?a=cart.incrementQuantity.4

[8] https://www.focusonics.com/technology/

文章来源：子鱼说声学

免责声明：本文系网络转载，版权归原作者所有。如涉及版权，请联系删除！

登录后免费查看全文

立即登录