1. 观察语音信号的频域特点,总结其规律。
答:观察语音信号频谱,我们可以获得某些重要的语音特性,如共振峰频率和带宽等。在本实验中可观察到语音信号的频谱分量主要集中在300~3400Hz范围内。
(1)浊音信号的谱线结构是与其周期信号密切相关的,具有与基音及谐波相对应的谱线。在频谱包络中可以清晰分辨出不同浊音的共振峰频率。浊音的能量主要分布在中低频段,而且集中区的带宽窄。在语谱图中,我们也可以发现各共振峰频率的能量随频率逐次衰减。
(2)清音的频谱无明显的规律,比较平坦,这与它是非周期信号有关。相对浊音而言无共振峰,频域特性多用能量集中区来体现频域分量的分布。从实验中可以看出,清音的能量一般集中在高频区,部分清音的在低频段也有分布。语谱图中呈现不规则条纹,频域分布规律类似随机噪声。
(3)在语谱图中,过渡段呈现出明显的疏密变化,从清音过渡到浊音的过程中能观察到能量集中区的跳变,因此在语谱图中可根据清浊音不同的频域特性较容易地区分出清浊音的区域段。
2. 总结清音/b/p/m/f/d/t/n/l/g/k/h/j/q/x/z/c/s/zh/ch/sh/r/共21个的语谱图的规律,给出辅音的能量集中区;
答:(1)规律:在窄带语谱图中,清音区域没有明显的横条纹,一般呈现不规则条纹,也就是说没有谐波分量,这是因为清音是非周期性信号。另外,在清音区域,一般频率越往上,颜色越深,说明清音有较高的频率成分,能量汇集区一般在高频区域。
(2)辅音的能量大多集中在高频区。
表 一
辅音 | 能量集中区(Hz) | 辅音 | 能量集中区(Hz) | 辅音 | 能量集中区(Hz) |
b | 727-2516 | p | 700-30 | m | 3500-4400 |
f | 2101-312 | d | 2530-3200 | t | 2501-4021 |
n | 269-3051 | l | 1924-2618 | j | 2650-6750 |
q | 2458-7360 | x | 2695-7513 | z | 4598-7219 |
c | 2075-5980 | s | 4500-7319 | g | 958-2000 |
k | 1209-2998 | h | 3985-6061 | ch | 280-3885 |
zh | 1730-6023 | sh | 1921-6829 | r | 1500-3120 |
答:(1)规律:在窄带语谱图中,浊音区域上有明显的横条纹;在宽带语谱图中,该区域有明显的竖条纹。另外,一般在低频部分的颜色较深,也就是说能量一般集中在低频区域。
(2)从实验数据可以看出,浊音中a的第一共振峰的频率最大,i的第二共振峰频率最大,而u的第二共振峰的频率是最小的。它们的第一共振峰和第二共振峰与元音三角形图有关,不同元音的第一共振峰和第二共振峰都应落在这个三角形区域内。下表是所测数据,因为实验录音测量误差,有些值会稍有偏差,但基本符合规律。
表 二
基频 (Hz) | F1 (Hz) | F2 (Hz) | F3 (Hz) | 基频 (Hz) | F1 (Hz) | F2 (Hz) | F3 (Hz) | ||
a | 2 | 937 | 1463 | 1931 | ou | 210 | 727 | 1083 | 1860 |
o | 184 | 529 | 910 | 2044 | ie | 204 | 421 | 1320 | 2431 |
e | 197 | 486 | 1162 | 2225 | an | 291 | 915 | 1307 | 2159 |
i | 230 | 390 | 18 | 2244 | en | 203 | 560 | 10 | 2106 |
u | 200 | 411 | 872 | 1984 | in | 246 | 485 | 1610 | 2832 |
ü | 207 | 381 | 1605 | 2700 | ang | 196 | 927 | 1431 | 2671 |
ao | 199 | 916 | 1193 | 2606 | eng | 213 | 582 | 1456 | 2700 |
ai | 194 | 924 | 1673 | 2503 | ong | 294 | 660 | 1098 | 2108 |
ei | 212 | 442 | 18 | 2862 | ing | 240 | 472 | 1600 | 2992 |
基频 (Hz) | F1 (Hz) | F2 (Hz) | F3 (Hz) | 基频 (Hz) | F1 (Hz) | F2 (Hz) | F3 (Hz) | ||
r | 217 | 437 | 1652 | 2637 | m | 225 | 375 | 1173 | 2300 |
n | 221 | 419 | 1356 | 25 | l | 223 | 412 | 1582 | 2386 |
5.分析宽带语谱图和窄带语谱图的不同之处,请解释原因;
答:在宽带语谱图中可以看到明显的竖条纹(共振峰),而在窄带语谱图中看到的是明显的横条纹(谐波分量),能够较容易地分割开各音素区域。
这是因为宽带语谱图具有良好的时间分辨率及较差的频率分辨率,反映的是频谱的快速时变过程,因而能清晰的显示共振峰结构和语谱包络,利用宽带语谱图可测量语音的共振峰频率;而窄带语谱图有良好的频率分辨率及较差的时间分辨率,反映的是基频的时变过程,可以清晰的显示谐波的结构,因而我们采用窄带语谱图来测量语音的谐波分量。
要解释宽带与窄带的不同,就要解释窗函数的作用。波形与窗函数的相乘,不仅为了在窗口边缘两端不引起急剧变化,使波形缓慢降为零,而且还相当于对信号谱与窗函数的傅里叶变换进行卷积。为此窗函数应具有如下特性:
(1)频率分辨率高,即主瓣狭窄、尖锐;
(2)通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。
窗口宽度N、取样周期T和频率分辨率 f=1/(NT),可见,频率分辨率随窗口宽度的增加而提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,但时间分辨率提高。宽带语谱图N比较小,窄带语谱图N比较大,所以出现了上面分析的结果。
6. 对语音加的是不同的窗函数:例如方窗、Hamming窗等,试分析Hamming窗与方窗对频谱的影响。
答:方窗和Hamming窗两个窗函数形状不同,旁瓣衰减程度不同,所以对语音信号频谱的影响也是不同的,其中加方窗的的语谱图条纹最密集。
(1)Hamming窗在频率范围中的分辨率较高,旁瓣的衰减大于42dB,具有频谱泄漏少的优点,频谱中的高频分量弱、波动小,因而可得到较平滑的谱。
(2)方窗频率分辨率高,形成的主瓣较尖。但由于第一旁瓣的衰减只有13.2dB,此时旁瓣太大会叠加到相邻主瓣,发生泄露。也就是说方窗在频谱段上的主瓣形状比Hamming窗要早发生模糊现象,所以方窗不适合用于频谱成分动态范围很宽的语音分析中。Hamming窗主瓣加宽相当于分析带宽加宽,虽频率分辨率下降,但还是可以很好地分析宽带语谱的。