为什么我们能判断声音的远近 - 初始时间延迟差的作用

 | 郭智涵

编辑 | 子鱼  贰沐


上篇文章(为什么我们能判断声音的远近)中我们说到,在听觉信号中存在着一些线索可以供我们来判断声源的距离远近。这篇文章就以其中的一个线索--初始时间延迟差为例,来介绍应该如何设计对应的听力测试,探究其在双耳距离感知中的作用。通常来说,一个听力测试可以分成三大部分:理论背景,测试准备(包括测量和程序编写)以及结果分析。下面就通过具体的步骤来进行说明。


1. 初始时间延迟差


房间脉冲响应是房间的属性之一,表示声源和麦克风之间的传递函数。它可以分为三个部分:直达声、早期反射声和混响声。初始时间延迟差(Initial Time Delay Gap,后文简写为ITDG)是直达声和第一个从表面反射的声音之间的时间间隔,如图1所示。


为什么我们能判断声音的远近 - 初始时间延迟差的作用的图1

图1: 房间脉冲响应示意图


ITDG被一些学者认为是距离感知的线索。Stephan 和 Simone 证明,通过修改 ITDG 的长度可以改变人类的距离感知【1】。这是因为,如图2所示,当麦克风的位置固定时,声源的距离越远,直达声与第一此反射声之间的路径差就越小,从而 ITDG 也越小。因此,提出了通过修改 ITDG 来影响人类双耳距离感知的假设。然而,值得注意的是,这种假设只在地板被认为是唯一反射表面的情况下成立,如在半消声室或相对空旷的房间中。而声源和麦克风之间存在多个物体会影响第一个反射,从而影响这个假设的有效性。也有学者持反对意见,Fotis 通过实验发现, ITDG 似乎并不是距离感知中的一个显著线索【2】。


为什么我们能判断声音的远近 - 初始时间延迟差的作用的图2

图2: 在只考虑地面反射情况下的ITDG,其中dR代表直达声路径,dD代表第一次反射声的路径


2. 实验设计
2.1 双耳室内脉冲响应(BRIR)的测量

为了探究 ITDG 在双耳音频距离感知中的作用,首先必须建立BRIRs(Binaural Room Impulse Responses)的数据库。为此,在Chalmers的两个房间EH和LR中,使用人工头(Dummy head或者Artificial head)和扫频正弦信号测量双耳室内脉冲响应。分别在 2 米、4 米、6 米和 8 米的距离上,测量了四个不同方位角(0度、30度、60度、90度)BRIRs 。为了确保获得可用的 ITDG,测量过程中移除了声源和麦克风之间的任何物体。随后,使用fade-in和fade-out窗口函数处理所有测量到的BRIRs。在理想的测量环境中,如半消声室,人工头和声源位于 1.6 米高度时的 ITDG 曲线应该和图3中所示的理想曲线相似。对从EH和LR房间中,人工头的左右耳测量的脉冲响应进行处理并提取ITDG数据,发现测量结果与理想曲线相匹配。为了简化过程,在本研究中,使用左耳的脉冲响应作为进一步分析和修改的基准。

为什么我们能判断声音的远近 - 初始时间延迟差的作用的图3

图3: 在仅考虑地面反射时,1.6米高度的 ITDG 曲线以及来自 EH 和 LR 的测量数据

2.2 ITDG的修改方法

修改算法的核心概念是调整特定脉冲响应 ITDG 的长度(例如,30度时的2米处的BRIR),使其产生与同一角度下的任何距离(例如,30度时的6米处的BRIR)具有相同的距离感知。一旦这种方法被证明是有效的,便可以通过测量少量BRIRs来表达整个区域的响应。为了实现这个目标,将测量到的脉冲响应分为三个不同的部分:直接部分(从脉冲信号开始到直达声峰值后的 1 毫秒),早期反射部分(直接部分后的 35 毫秒),和混响部分(早期反射部分之后,直到信号结束)。这些部分如图4所示。

为什么我们能判断声音的远近 - 初始时间延迟差的作用的图4

图4: 在 ITDG 修改前后的脉冲响应,由于本文仅将来自地面的反射视为距离线索,因此在测量的脉冲响应中出现了一个虚假峰值


为了准确地确定来自地面的第一次反射声的起始点,并排除 ITDG 中的虚假峰值的影响,采用了改进的峰度算法与理想 ITDG 曲线相结合的方法来对测量的BRIRs进行分析【3】。此外,为了简化过程,在修改脉冲响应时,优先考虑靠近声源的一侧;具体来说,右耳的修改长度与左耳直接相关(因为在这次测量中,左耳总是更加靠近声源)。例如,当左耳的 ITDG 缩短 1 毫秒时,右耳也缩短相同的时间。通过保持直接和混响部分不变,压缩或扩展与 ITDG 重叠的早期反射部分,以实现目标距离处所需的 ITDG。由于修改部分与 BRIRs 中的总数据相比要小得多,因此,由此操作产生的声压级和频谱特性的任何变化都被认为是可以忽略不计的。


2.3 程序设计

实验旨在研究在不同场景下修改 ITDG 是否会影响人类听觉的距离感知。研究了以下 2 个因素:目标距离(2 米或6 米)和音频材料(演讲声或鼓声)。由于 BRIRs 是在两个房间内进行测量的,因此总共有2x2x2=8 次试验。听觉实验是根据 MUSHRA设计的【4】,但并不完全相同,例如在这个实验中没有锚点。MUSHRA是音频测试中一个很常用的方法,需要注意的是,其中文版存在着一些翻译错误,因此推荐查看其他版本。实验程序使用MATLAB APP designer进行设计,实验页面如图5所示。 在每个试验中,有3个参考音频和4个选项音频。参考音频是通过将音频材料与实际测量的BRIR卷积得到的。四个选项分别是ref,orig,drr和drr+itdg 。所有参考音频和选项音频均经过调整,以具有相同的响度,以排除响度对距离感知的影响。

以其中一个试验为例。在这个试验中,目标距离为6米,修改后的 BRIR 来自 2 米处,测量值来自入口大厅,材料是演讲。各选项的描述如下:
ref:与 6 米处的参考音频完全相同
orig:与 2 米处的参考音频完全相同
drr:仅将 2 米处的 BRIR 调整至与 6 米处的 BRIR 具有相同的 drr,而不改变 ITDG。
drr+itdg:按照前文所述方法,将 2 米处的BRIR的 ITDG 长度修改为与 6 米处相同。然后保持直接部分不变,修改剩余部分的幅值,直到其drr与 6 米处的BRIR的drr相同。
需要注意的是,4个选项的顺序是随机的,因此测试人员无法猜测每个选项对应的音频。


为什么我们能判断声音的远近 - 初始时间延迟差的作用的图5

图5: 听力测试程序的操作页面



3. 结果分析

由于实验难度较大,共有五名参与者参加了实验,他们都具有丰富的听力测试经验,并报告称没有听力缺陷。参考 MUSHRA 验证方法对结果的准确性和人类距离感知的可压缩性,如果某个参与者在超过 15% 的所有试验中对隐藏参考音频的评分超过真实距离的 10%(即对于 2 米,评估在 1.8-2.2 米之外;对于 6 米,评估在 5.4-6.6 米之外),那么将排除该结果。所有参与者都通过了筛选条件,因此认为他们的结果有效。

听力测试结果用小提琴图来呈现,该图显示了密度曲线和箱线图的单个显示,使得更容易洞察数据分布。整体测试结果(图6)显示,reforig的中位数与实际测量距离相同,这证明了实验结果的可靠性。进一步分析表明, drrdrr+itdg都可以产生与目标相似的距离感,但drr+itdgdrr并没有系统性的改进。为了深入了解结果,对得到的数据进行了统计分析。由于实验参与者人数较少,并且 MUSHRA 测试的结果不符合正态分布(例如结果中的reforig),因此使用非参数检验来分析数据。

为什么我们能判断声音的远近 - 初始时间延迟差的作用的图6

图6:听力实验总体结果


Friedman 检验发现所有试验的差异在p<0.05 处显著。因此,进行了配对的 Wilcoxon 符号秩检验作为事后检验,并进行了 Bonferroni-Holm p 值校正,结果如图7所示。orig ref、drr、drr+itdg 之间有明显区别,但在 drr、drr+itdgref三者之间没有显著差异。这个结果表明 ITDG 在距离感知中并不起到非常重要的作用,这与 Fotis 的结论一致【2】。

为什么我们能判断声音的远近 - 初始时间延迟差的作用的图7

图7:Bonferroni-Holm 校正的 p 值适用于所有成对比较测试,包括speech和drum对以及近处和远处的参考。在p<0.05时,蓝色背景表示显著差异

4. 总结

本文旨在探讨 ITDG 在双耳音频距离感知中的作用。通过在 Chalmers University of Technology 的两个房间测量双耳室内脉冲响应,并对其进行修改,研究了 ITDG 对距离感知的影响。结果表明,尽管修改 ITDG 可以改变双耳音频中的距离感知,但这种影响在实验中并不显著。这意味着 ITDG 可能不是距离感知中的主要线索。

值得注意的是,本研究的结论仅适用于考虑地板作为唯一反射表面的情况,如半消声室或相对空旷的房间。在实际环境中,可能会有多个物体位于声源与接收点之间,从而影响第一次反射和 ITDG 的有效性。并且因为ITDG本身不是双耳线索,在对其进行修改时进行了许多的简化,这些误差也可能对结果产生影响。因此,在未来的研究中,可能需要进一步探讨更复杂环境中 ITDG 对距离感知的影响。

Reference
【1】Werner, S., & Füg, S. (2012, November). Controlled Auditory Distance Perception using Binaural Headphone Reproduction–Evaluation via Listening Tests. In Proceedings of the 27th Tonmeistertagung, VDT International Convention, Cologne, Germany (pp. 22-25).
【2】F. Georgiou, RELATIVE DISTANCE PERCEPTION OF SOUND SOURCES IN CRITICAL LISTENING ENVIRONMENT VIA BINAURAL REPRODUCTION. PhD thesis, 09 2012.
【3】Usher, J. (2010). An improved method to determine the onset timings of reflections in an acoustic impulse response. The Journal of the Acoustical Society of America, 127(4), EL172-EL177.
【4】International Telecommunication Union. (2015). Method for the subjective assessment of intermediate quality level of audio systems (ITU-R BS.1116-3). https://www.itu.int/rec/R-REC-BS.1116-3-201502-I/en

 

文章来源子鱼说声学

默认 最新
当前暂无评论,小编等你评论哦!
点赞 1 评论 收藏
关注