最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

语音频编码标准及发展趋势

来源:动视网 责编:小OO 时间:2025-10-03 09:49:50
文档

语音频编码标准及发展趋势

语音频编码标准及发展趋势黎家力1概述本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。最后通过总结展望了语音频编码标准的发展趋势。语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。从信源的角度来分,分为语音和音频。通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。音频包括音乐、
推荐度:
导读语音频编码标准及发展趋势黎家力1概述本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。最后通过总结展望了语音频编码标准的发展趋势。语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。从信源的角度来分,分为语音和音频。通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。音频包括音乐、
语音频编码标准及发展趋势

黎家力

1 概述

本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。最后通过总结展望了语音频编码标准的发展趋势。

语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。从信源的角度来分,分为语音和音频。通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。音频包括音乐、自然产生的声音(如风声、雨声、鸟叫声、机器声等)、彩铃声等。人的发音器官发出的声音频段在80Hz到3400Hz之间,人说话的信号频率在300Hz到3000Hz,人们通常将该频段的信号称为语音信号。语音编码标准只针对语音信号,目的在于用很高的压缩率来高效地处理语音信号;音频编码标准只针对音频信号,目的在于保持音频信号在一定的码率下尽量不失真。

语音和音频的编码标准有融合的趋势。最新的语音编码标准可以保持对语音的高效编码,同时采用带宽扩展的方法在高码率下可以接近音频的编码质量;最新的音频编码标准使用频带复制等技术,大大降低了压缩码率,使得中低码率下的编码效率接近传统的语音编码标准。

表1 数字音频等级

12 标准化组织

2.1 ITU-T

国际电信联盟(ITU)是世界各国的电信主管部门之间协调电信事务方面的一个国际组织,ITU-T是其属下的电信标准部门,负责通信相关标准的制定。

ITU-T已经标准化的语音频标准有:G.711、G.722、G.728、G.726、G.723.1、G.729、G.722.1、G.729.1等。目前ITU-T的第16研究组(SG16)负责语音频编码相关标准的制定,其中与语音频编码相关的有Q9、Q10两个研究课题。下面分别详细介绍:

2.1.1 Q9课题组

Q9课题主要讨论G.VBR的标准化。G.VBR标准的开发分为两个部分,一个针对窄带、宽带部分的开发,另一个是针对超宽带部分的开发。前者已经完成基线版本(Baseline codec)的选择阶段,Nokia和Voiceage公司联合提交的候选代码在4个候选编码器中成为优胜版本,其它各家基于该版本在其基础上进行优化,因此,该项目进入到融合阶段。而对于超宽带部分,还处于ToR指标讨论阶段。

G.VBR窄带、宽带部分的标准描述了一个8kbit/s-32kbit/s可伸缩的宽带(50Hz-7000Hz)音频/语音编码算法。它的码率总共分为5层。第一层为核心层,主要基于ACELP模型的编码技术,该层的速率为8kbit/s,第二层为ACELP 模型的增强层,速率为12kbit/s。前两层支持窄带和宽带信号的输入和输出。后面三层为基于MDCT技术的增强层,仅支持宽带信号的输入和输出。

由于该编码器的核采用的是ACELP模型,因此该标准和目前的3GPP标准中的AMR-WB 12.65kbps模式兼容。同时该标准还具备VAD/DTX技术。G.VBR的baseline codec帧长度是20ms、延时是54.75ms、运算复杂度还在优化中。默认情况下,编码器和解码器的采样率为16kHz。

2.1.2 Q10课题组

Q10课题的目标是维护和扩展现有的语音编码标准:

¾维护:搜集语音编码标准的缺陷报告,评价它们的优点,制定操作者2指导手册和改进现有标准;

¾在异构网络(heterogeneous networks)的各种不同应用中,可能要考虑不同的附加特征,如丢包掩藏、语音激活检测VAD、非连续传输

DTX、舒适噪声生成CNG、同步、降低运算复杂度、比特率扩展、带宽

扩展等。

Q10课题在近年完成了较多的标准化项目,主要的标准化项目如表2所示。

表2 Q10近年完成的主要标准化项目列表

标准编号 描述 完成时间 G.722.1 Annex C G.722.1音频编解码器超宽带扩展 2005年4月 G.729 Appendix II G.729 Annex B在V oIP应用中的增强可选方案12005年7月 G.729 Appendix

III

G.729 Annex B在V oIP应用中的增强可选方案22005年7月 G.729.1 8-32kbit/s分层宽带语音音频编码器,基本层为G.7292006年4月 G.729.1 Annex A G.729.1在H.245中的使用2006年11月G.729.1 Annex B G.729.1编解码器的浮点版本参考软件2006年11月G.722 Appendix III G.722丢包补偿可选方案1 2006年11月G.722 Appendix IV G.722丢包补偿可选方案2 2006年11月

G.729.1 low delay G.729.1低时延模式,是对标准正文的补充,因此不是

Annex或Appendix

2007年7月

G.729.1是该课题组做的一个重要的语音频编码标准。它是由ETRI、FT、Siemens、Matsushita、Mindspeed和Voiceage共同完成的一个标准化项目。

G.729.1是在G.729上的宽带扩展,可以和G.729进行互操作。它提供了码率的高度可伸缩性,能够适应各种不同业务和不同网络的要求。嵌入式码流可根据需要截断,得到所需的码率,不需要带外信令。

G.729.1标准描述了一个8-32kbit/s可伸缩的宽带(50-7000Hz)音频/语音编码算法。它的码率总共分为12层。它能够在14-32kbit/s码率下对宽带信号进行编码。生成的嵌入式码流的码率伸缩步长为2kbit/s。在8kbit/s和12kbit/s码率下,G.729.1是一个窄带语音编解码器。在8kbit/s码率下,G.729.1码流能和G.729、G.729A、G.729B兼容。G.729A是G.729编码器的简化版本,G.729B是带VAD(活动话音检测)的静音压缩算法.两者结合可以有效地降低码率,同时保持很好的合成语音质量。

G.729.1的帧长度是20ms、延时是48.9375ms、运算复杂度为35.8 WMOPS。

3默认情况下,编码器和解码器的采样率为16kHz。

G.729.1总体的编码算法是三级结构:在窄带(50-4000Hz)使用嵌入式CELP 编码(embedded Code-Excited Linear Predicive coding),在宽带(4000-7000 Hz)使用TD-BWE(Time-Domain Bandwidth Extension),在全带(50-7000 Hz)的增强是使用TDAC(Time-Domain Aliasing Cancellation)。

2007年7月,ITU-T有关会议讨论了G.729.1超宽带及立体声扩展的ToR,并且与Q9进行了联合会议。会议结论是Q9和Q10分别进行超宽带ToR讨论,然后考虑把两个ToR进行融合。

G.722.1是Q10课题组做的另外一个成功的语音频编码标准,其超宽带的标准G.722.1 Annex C已经完成标准化,目前正在进行G.722.1的全带扩展。参与的Polycom和爱立信都在资格阶段的主观测试中通过了所有基本性能指标,同时进入下一阶段。下一阶段是竞争阶段还是融合阶段还需要双方协商。

在Q10中新成立的项目还有G.711的宽带扩展项目,就是在兼容传统的G.711窄带标准的基础之上把频带扩展到宽带,该项目由NTT在2007年1月报告人会议上提出,目前资格阶段已经结束,所有候选方案都进入了下一阶段。

在2007年7月会议上,FT提出对G.722进行超宽带扩展的标准化。会议上讨论了ToR,并且决定在接下来的两次报告人会议上继续讨论。

2.2 MPEG

MPEG(Moving Picture Expert Group)由ISO(International Standard Organization)与IEC(International Electronic Committee)于1988年联合成立,致力于运动图像和伴音编码的标准化工作。目前已经推出MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21、MPEG-A、MPEG-B、MPEG-C、MPEG-D、MPEG-E 标准。其中MPEG-1、MPEG-2、MPEG-4均定义了相应的音视频编码标准,下面详细介绍。

2.2.1 MPEG-1 Audio(ISO-11172-3)

(1)编码器输入:采样率为32kHz、44.1kHz或48kHz,量化精度为16位的PCM编码的20-20kHz数字音频信号。

编码器输出:32-192 kbps单声道,-384kbps双声道的MPEG-1格式的比特流。

4

5

(2)支持4种不同模式:

¾ 单通道;

¾ 双通道(二个的声音信号编码在一个比特流中);

¾ 立体声(左、右声道的信号编码在一个比特流中);

¾ 联合立体声(利用左、右声道信号的相关性,降低输出比特流的码率)。

(3)提供三个的压缩层次,见表3。 表3

分层

延迟时间(ms) 压缩方法 应用

Layer 1

19-50

MUSICAM 简化版本小型数字合式磁带 Layer 2

35-100 MUSICAM 数字音频广播,VCD 等 Layer 359-150 MUSICAM

与ASPEC 结合 ISDN 上的声音传输

(4)编码后的数据流支持循环冗余校验CRC(cyclic redundancy check)。

(5)支持在数据流中添加附加信息。

其中:

¾ MUSICAM(Masking pattern adapted Universal Subband Integrated

Coding And Multiplexing)掩蔽型自适应子带编码和复用技术是较为典型的基于心理声学模型的编码技术,如图1所示,它首先将输入数据通过时频变换转换到频域并划分为若干子带,通过心理声学模型计算每个子带上的掩蔽门限,接着根据量化误差小于掩蔽门限的准则确定比特分配方法,最后形成码流输出。

图1 MUSICAM 编码框图 图2 ASPEC 编码框图 ¾ ASPEC(Adaptive Spectral Perceptual Entropy Coding)

自适应谱感知熵编码技术也是一种基于心理声学模型的编码技术,如图2

2.2.2 MPEG-2 Audio(ISO-13818-3/ISO-13818-3)

ISO-13818-3在与MPEG-1 Audio兼容的基础上实现低码率和多声道扩展。它在包含5个全带宽声道和一个低频带扩展层(LFE)后其比特率可以达到1Mbit/s,其在低取样率16kHz、22.05kHz和24kHz的比特率可达到32~256kbps(第一层)和8~160kbps(第二层)。MPEG-2 Audio对MPEG-1 Audio的扩充包括:

¾增加了16kHz、22.05kHz和24kHz采样频率;

¾扩展了编码器的输出速率范围,由32-384 kbps扩展到8-0kbps;

¾增加了声道数,支持5.1声道和7.1声道的环绕立体声声;

¾MPEG-2还支持Dolby AC-3(Audio Code Number 3)编码。

ISO-13818-7是一个不考虑与MPEG-1 Audio兼容的高质量音频编码标准,它致力于定义一个可以获得更高质量的多声道音频标准,不考虑兼容性。定名为MEPG-2先进编码标准(MPEG-2 Advanced Audio Coding),简称MPEG-2 AAC。

MPEG-2 AAC与MPEG-1 audio采取了不同的标准化的方式,它将系统分解成一系列必须和可选的模块(工具),对模块进行定义。

(1)MPEG-2 AAC的性能

¾采样频率:从8kHz到96kHz。

¾编码器输入:单声道、立体声和多声道的声音。

¾最多可支持:48个主声道、16个低频音效通道LFE(low frequency effects)、16个配音声道(也称为多语言声道)和16个数据流。

¾在压缩比为11:1(即每个声道数据率为44.1×16/11= kbps),5声道的总码率为320。

¾kbps的情况下,重建声音与原始声音之间几乎无区别。

¾与MPEG-1 layerII相比,MPEG-2 AAC压缩率可提高1倍,且质量更好,与MPEG-1 layer III相比,在音质相同的条件下码率仅为原mp3码率

的70%。

(2)MPEG-2 AAC编码器的框架(Profiles)

6

7

图3给出了MPEG-2 AAC 编码器框图,根据使用算法模块(工具)的不同,MPEG2-AAC

编码器分为三个框架:

图3 MPEG-2 AAC 编码器框架

¾ Main Profile,除了增益控制工具之外,还使用了其它所有模块,能

提供最好的声音质量,但对存储容量和处理能力方面的要求比较高。 ¾ LC Profile(Low Complexity Profile),不使用预测模块,瞬时噪声

整形(TNS)滤波器的级数也有限,声音质量比Main Profile 质量低,但对存储容量和处理能力的要求明显降低。

¾ SSR Profile(Scalable Sampling Rate Profile),使用增益控制工

具,不使用预测模块,不使用声道耦合工具,TNS 滤波器的级数和带宽也都有。因此它比基本配置和低复杂性配置更简单,能用来支持

2.2.3 MPEG-4 Audio

MPEG-4 Audio不是一个或一小组编码方案,而是提供了大量的音频对象的编码工具,用来满足各种各样的应用需要。对于某一特定的应用,只有一部分音频的编码工具被采用。框架(Profiles)就是MPEG-4 Audio提供的工具集的一个子集,它针对特定的应用而确定要采用的编码工具。完整的工具集,包括从低码率语音编码到高质量声音编码或音乐合成。工具集中的工具可以组合成各种声音编码算法。

表4 MPEG Audio 11种框架关系

MPEG-4采用了对象的概念。不同的数据源被视作不同的对象,不同的对象

8用不同的工具集进行处理。而数据的接收者不再是被动的,他可以对不同的对象进行自己的操作:删除、添加、移动等等。这种基于对象的操作方法是MPEG-4和MPEG-1、MPEG-2在本质上的不同。

相应地,MPEG-4音频对象可以分为两类:自然音频对象和合成音频对象。MPEG-4自然音频对象涵括了从2kbps到超过kbps的各种传输质量的编码。MPEG-4定义了3种编码器:参数编码、CELP编码和时频编码来协调工作以在整个码率范围内都得到高质量的音频。自然音频对象的编码支持各种分级编码功能和错误恢复功能。合成音频对象包括结构音频(Structured Audio∶SA)和文语转换(Text To Speech∶TTS),与编解码关系不大,后面详细介绍自然音频对象。MPEG Audio中定义的音频对象(每个对象通过一组工具来实现)和11种框架(Profiles)之间的关系见表4。

其中MPEG-4 main audio profile兼容MPEG-2 AAC定义的三种类型。尤其值得一提的是AAC、SBR、参数立体声编解码(PS)构成的High Efficiency AAC V2 profile被3GPP选定为移动音频标准之一,称为Enhanced aacPlus。下面重点介绍MPEG-4中与语音频编码相关的对象。

2.2.

3.1 参数编码

参数编码包括两个对象:

¾参数语音编码:谐波矢量激励编码(Harmonic vector excitation coding),简称HVXC。谐波矢量激励编码HVXC是一种极低码率的参数

语音信号编码器,它允许对语音信号以8khz采样,实现2~4kbit/s

的编码,它也可以采用可变比特技术使码率控制在1.2~1.7kbit/s。

它对于浊音和清音信号分别采用不同的激励信号进行编码。对于清音

信号片段来说,激励信号与在CELP时相似,通过一个码本索引和通过

幅度信息描述。相反,在浊音信号片段应用了谐波综合,它是将基音

和谐音的正弦振荡按照传输的基频进行综合。

¾参数音频编码:谐波和特征线加噪声(Harmonic and Individual Lines plus Noise),简称HILN。谐波和特征线加噪声HILN编码工具允许对

音乐等非语音信号以8kHz或16kHz采样,实现码率4~16kbit/s的编

码。它的基本原理是对输入信号分析,依次提取3类参数:谐波线(用

该谐波成分的基频以及它的谐波部分的包络来描述),特征线(每个特

9征线的频率和幅值),噪声(描述噪声谱的包络来描述)。最后量化后

传输。HILN也可以实现码率的可分级性,它采用扩展的码流传输附加

的正弦音成分,以改善信号的解码质量。

2.2.

3.2 线性码激励(CELP)编码

MPEG-4的CELP是一种自然语音编码工具,支持8kHz和16kHz采样。8kHz 时采样带宽为100~3800Hz,16kKz时采样带宽为50~7000Hz。包括语音端点检测(VAD)、不连续传输(DTX)单元和舒适噪音产生(CNG)模块。

CELP支持多码率编码,在8kHz采样时支持码率从 3.85kbit/s到12.2kbit/s变化,在16kHz采样时支持码率从10.9kbit/s到23.8kbit/s变化,最小的变化步长可以达到0.2kbit/s。

MPEG-4 CELP支持数据率可分级性,也称之为“嵌人编码”,它是通过把增强码流加入到核心码流来实现的。此时编码器产生一个所谓的基本比特流(“基本层”)和一个或多个扩展比特流(“增强层”)。根据可提供的传输容量,除了基本数据流外,解码器也可以对一个或多个扩展比特流进行解码。由于这些增强码流包括输入信号的细节特点或更高频带的成分,从而提高了解码信号的质量。

2.2.

3.3 MPEG-4 AAC

MPEG-4 AAC的三个对象:AAC Main、AAC LC、AAC SSR,分别向下兼容MPEG-2 AAC中的三个框架:Main Profile、LC Profile、SSR Profile。另外新增加以下对象或工具:

¾AAC LTP(LongTerm Prediction);

¾SBR(Spectral Band Replication);

¾PS(Parametric Stereo);

¾AAC Scalable;

¾AAC-LD(Low Delay);

¾ER(Error Resilience)。

2.2.

3.3.1 AAC LTP

AAC LTP对象是在MPEG-2 AAC的Main Profile或LC Profile中加入两个工具感性噪声置换(Perceptual Noise Substitution,PNS)和长期预测10(LongTerm Prediction,LTP)组成。

¾感性噪声置换(PNS),使在量化时完全放弃量化噪声类型的频率范围成为可能。在这个范围中,用在解码器中产生一个功率相同的噪声信

号代替。

¾长期预测(LTP),用来替代MPEG-2 AAC中的相当复杂的带内预测。

2.2.

3.3.2 频带复制(SBR)

频带复制是有由Coding Technologies公司开发的新的语音编码增强工具,改善了在低码率下语音和音频编码器的表现,使得在压缩算法中高效地对音频中的高频部分编码成为可能。应用SBR技术,编码器只需要对低频部分进行处理,而其高频部分由SBR解码器来生成。与先前直接对高频编码不同的是,SBR 技术利用分析低频分量来重建高频分量。为了能够准确重建,一些引导信息以及低的码率被加载到编码后的码流中。这种高频分量的重建对于谐波和类噪声成分非常有效,并且他还允许进行时域和频域的修整。

2.2.

3.3.3 参数立体声(PS)

图4 参数立体声框架

参数立体声利用多声道间的主观听觉冗余来对立体声的数据进行压缩。如图4所示,左右声道的信号通过下混(DownMix)算法转变成下混单声道的信号进行AAC的编码。同时,参数立体声编码工具通过对左右声道的信号进行分析,得到若干描述声道间相关性的参数,并用很小的比特编码发送给解码器。解码

11器通过这些参数来控制解码后的下混单声道信号,重构出立体声的信号。

2.2.

3.3.4 AAC的可分级编码(AAC Scalable)

AAC的可分级编码是建立在多级量化和编码的基础上,基本比特流的编码和解码与不分级的实际上没有发生变化。为了产生一个扩展的比特流,在编码器中精确计算基本解码器的量化误差信号,这种量化误差信号本身精细分级地量化和编码。提供给解码器的不仅有基本比特流,还有扩展的比特流。两种信号被解码并接着相加,以便得到一个输出信号。与基本解码器相比,呈现低的量化误差。具体的分级方式如下:

¾比特率可分级:允许从一个码流中分解出另一个码率较低的码流,后者依然能代表原来信号的意思。分级过程既可以在传输期间进行也可

以在解码端进行。

¾带宽可分级:这是码率可分级的特例,码流中的不同部分对应着信号频谱中的不同部分,因此在传输或解码期间可丢弃一部分频带(位流)。

¾编码复杂度可分级:允许选择不同复杂度的编码器生成有效的有意义的位流。

¾解码复杂度可分级:允许选择不同复杂度的解码器对给定的一个码流进行解码,声音质量与使用的编码器/解码器复杂度有关。

2.2.

3.3.5 低延时编码工具(AAC-LD)

语音会话和视频会话对分组延迟有较高的要求,一般至少要低于100ms,MPEG-AAC编码属于感知编码,感知编码的延时主要由帧长度延时、滤波器组延时、前向块切换延时和码流接收缓冲延时这四部分组成,并且这样的总体延时是和采样率成线形反比的。

对于一个48kHz采样kbps码率的典型AAC编码:

帧延时:1024/48=21.33ms(1024个采样)

滤波器组延时:1024/48=21.33ms(1024个采样)

前向块切换延时:576/48=12ms(576个采样)

码流接收缓冲延时:74.7ms

总体延时:(1024+1024+576)/48ms+74.7ms=129.4ms

明显看出这时延时较大,为此MPEG推出了AAC-LD(low delay)以满足实12

13

时双工通信的需求。

AAC-LD 支持48kHz、44.1kHz、32kHz、24kHz、22.05kHz 采样。AAC-LD 的帧长度减小到AAC 的一半,为512或480个采样,同时其滤波器组的长度也减少到了512或480个采样;同时由于延时还取决于滤波器组的延时,所以AAC-LD 采用如图5所示的低交迭的Zero-Padded 窗函数来产生低交迭的子带滤波器组(图6)。图中LD:ZP win 是低延时零交迭窗,LD:Sin win 是低延时正弦窗,AAC:Sin long win 是AAC

中的长正弦窗。

5 零交迭窗

图6 滤波器组

AAC-LD 取消了在AAC 通用编码器中存在的前视、块切换和码流接收缓冲。这样一系列的改进使得AAC-LD 的延时能够控制在100ms 以下,其在kbps 的典型延时低于60ms。表5为不同编码器在不同采样率,码率情况下的延时比较。

编码器 码率(Kbps)采样率

(kHz) 延时(ms)

AAC-LD stereo 128 32 80

AAC-LD stereo 128 48 56

AAC-LD mono 32 74

AAC-LD mono 48 50

AAC stereo 128 48 172

Layer3 stereo128 48 326

Layer2 stereo128 24 398

G.72216 2

2.2.

3.3.6 错误恢复工具(ER)

在MPEG-4音频标准中提出了差错保护模型,码流中的数据按照比特的差错灵敏度(ESC,error sensitivity categories)归类,对不同的级别采用不等错误保护(UEP,unequal error protection),然后对每个级别提供前向纠错编码(FEC,forward error correction codes)和循环冗余编码(CRC,cyclic redundancy codes)。上述码流经过交织后再使用一次前向纠错编码后输出。

MPEG-4还特别提供了针对AAC的差错恢复工具,以提高噪声信道下的净荷传输质量。AAC比特流的部分应用了改进的编码,分为:

¾虚拟码本工具(VCB11,virtual codebooks tool),用来有差错的频谱成分的最大值。

¾可逆变长编码工具(RVLC,Reversible Variable Length Coding tool),可用来取代AAC尺度因子的哈夫曼和DPCM编码,并使用对称码字对比

例因子进行前向和后向编码。

¾霍夫曼码字重排工具 (HCR,Huffman codeword reordering),它设计一些位置固定的先验码字(PCW,priority codewords),可以于其

它非先验码字。其它非先验码字的位置由一套传播误差较小的算法确

定。

2.2.

3.3.7 MPEG-4 GA

在MPEG-4 AAC的基础之上加上变换域加权交织矢量编码TwinVQ(the transform-domain weighted interleaved vector quantization)和比特切片算术编码BSAC(bit-sliced arithmetic coding)两个工具,就构成了AAC的通用音频编码模型MPEG-4 GA(General Audio Coding),如图7。

14

图7 AAC通用语音编码流图

¾TwinVQ的编码工具是用来提高音乐信号较低码率编码时的编码效率。

由于在16kb/s以下很低数据率时,AAC中的边信息对于传输的数据来说相对较大,这样会使编码效率降低。因此,TwinVQ的基本思想是在正常频谱中应用交错的矢量量化方法,该方法用来代替MPEG-4 AAC中使用的标量量化和霍夫曼编码的传统编码方法。MPEG-4标准化框架大

15量的试听试验表明,MPEG-4 Twin VQ在每声道数据率低于16kb/s时,

可以提供高的编码效率,而对于高的数据率来说,可以使AAC的量化

和编码更有效。

¾BSAC的编码工具用来实现码流的精细分级,它与AAC的区别是频谱数据和比例因子的无噪声编码(noiseless coding)模块(熵编码)。BSAC

的熵编码用算术编码算法实现,替代了AAC的Huffman编码算法。它

提供很好的颗粒伸缩性,提供每个声道1kbit/s,立体声2kbit/s的步

长。为了取得较好的伸缩性,它使用了一种比特切片的技术应用于频

谱数据。首先将量化后的频谱值按频带分类,每一类中的数据用二进

制来表示。对最高位首先处理,然后比特片采用算术编码方式得到最

小冗余度的熵编码。不同频率组的“比特切片”,以确定的方式被配置

为扩展比特流。由此可以确保随着用作提供给解码器的扩展比特流的

数量的增加,频谱分量的量化通过附加不太重要的比特而更精细,服

务质量会相应提高,随之解码信号的带宽也变宽。

2.3 3GPP

3GPP是积极倡导UMTS为主的第三代移动通信标准化组织,成立于1998年12月。它是一个合作伙伴组织,将许多电信标准实体(组织伙伴)连接到了一起。3GPP最初的工作范围是为第三代移动系统制定全球适用的技术规范和技术报告。目前欧洲ETSI、美国T1、日本TTC、ARIB和韩国TTA以及我国CCSA都作为组织伙伴(OP)积极参与了3GPP的各项活动。

3GPP已经标准化的语音频标准包括:GSM HR/FR/EFR、AMR-NB、AMR-WB、AMR-WB+、EAAC+等。主要应用于无线通讯和移动流媒体等。

2.4 3GPP2

3GPP2于1999年1月成立,由美国TIA、日本ARIB、TTC和韩国TTA四个标准化组织发起,中国通信标准化协会(CCSA)也是其组织伙伴。3GPP2是当前主要负责第三代移动通信cdma2000技术的标准组织。

3GPP2已经标准化的语音频标准包括:QCELP8k、QCELP16k、EVRC、4GV-NB、4GV-WB、VMR-WB、SMV等。主要应用于CDMA无线网络的通讯和移动流媒体等。

2.5 AVS

AVS是由中国科学院牵头,联合了国内多家著名高校和多媒体/通讯产业链16的厂商组成的一个制定数字音视频编解码技术标准的国内标准工作组织。该组织当前已经和正在制定的音频标准有:

¾AVS-P3:该标准的目标是为高分辨率高质量的数字音视频广播、数字存储媒体和面向互联网的流媒体等应用提供音频编解码标准。AVS-P3

的参考标准是MPEG-2 AAC,采用绕开AAC基本专利的技术路线。AVS-P3

完全拥有自主知识产权,可作为MPEG-2 AAC的替代标准使用。目前该

标准已经完成标准化,正在报批中。

¾AVS-P10:该标准的目标是为迅速发展的移动音频应用提供音频编解码标准。AVS-P3的参考标准是AMR-WB+,采用绕开AMR-WB+的基本专利的

技术路线。2007年9月已完成AVS-P10的WD文档和参考代码。

¾AVS-S:该标准的目标为市场前景广阔的安防监控产业,为其提供音频编解码标准。AVS-S的参考标准是AVS-P10,在此基础之上增加面向安

防监控的工具模块,如用于加密的数字水印算法;使得解码端可以根

据需要自由选择增强的面向对象的音频编码技术;对输入信号分类检

测和多模式编码,使得在给定码率前提下尽可能提高输出音频质量的

音频信号自适应编码技术。该标准目前正在制定中。

3 语音频编码的发展趋势

¾应用各种带宽扩展技术,语音频编码标准发展的趋势是从窄带(8kHz 采样)到宽带(16kHz采样),再到超宽带(32kHz采样),最终发展到

全频带(48kHz采样),提高了编码的质量。从下面标准的发展过程我

们可以看出这个趋势:

G.729(窄带)-> G.729.1(宽带)-> G.729.1 SWB(超宽带)

AMR-NB(窄带)-> AMR-WB(宽带) -> AMR- WB +(超宽带)

G.722.1(宽带) -> G.722.1C(超宽带) -> G.722.1E(全频带)

¾应用各种可分级语音编码技术,语音频编码标准发展从固定码率,到多速率,最终发展到更精细的可变比特率,更灵活地利用传输带宽。

下面标准的发展过程我们可以看出这个趋势:

G.711、G.729A(固定编码速率)->AMR-NB/WB、EVRC、G.722.1、AAC-LC

(多速率)->G.729.1、G.VBR、BSAC(可变比特率,最少步长到1kbit/s)¾传统的音频编码标准通过各种降低延时和码率的技术,提高其对语音

17

18 的编码效率。AAC-LD 延时可以控制在60ms 以下,已经可以满足双向通话的需要;Enhanced aacPlus 在AAC 的框架上增加了频带复制(SBR)和参数立体声编码技术(Parametric Stereo),使得立体声的码率可以降到24kbit/s,可以满足无线的应用;正在进行中的AAC-ELD,为MPEG4-AAC 提供新类型,主要采用AAC-LD+SBR 技术,可以降低编码延时并且提高压缩效率。

¾ 最新的其他一些技术的发展如错误恢复、代数矢量量化、语音和音乐

检测、空间音频编码等技术从鲁棒性、编码效率、编码质量等各方面综合提高语音频编码标准的指标。

4 语音频编码的融合

上面提到的语音频编码的四个发展趋势导致了以下三大融合:

¾ 固网与无线的融合:语音频编码技术从固定码率和多速率向可变比特

率的演变,高码率的音频编码向低码率的演变,促进了固网(含IP)的语音频编码标准与无线网络的语音频编码标准的融合。

¾ 通讯与广播的融合:语音频编码技术从窄带和宽带向超宽带和全频带

扩展,高延时的音频编码向低延时的演变,促进了双向通讯与广播(含IPTV、移动流媒体、数字电视、手机电视)的语音频标准的融合。 ¾ 语音与音频的融合:随着语音编码的带宽扩展到超宽带甚至全频带;

音频编码把码率降到中低码率,延时的降低,语音和音乐检测算法的成熟,语音和音频编码标准的融合趋势越来越明显。

作者简介:

黎家力,1998年毕业于武汉大学,现就职于中兴通讯股份有限公司,

担任多媒体平台音频项目经理、主任工程师,中国通信标准化协会

(CCSA)信源编码工作组(WG3)副组长,主要从事音频算法的开发和

研究工作,先后为中兴通讯股份有限公司的多媒体终端产品、NGN 产品、GSM 产品、WCDMA 产品、CDMA 产品、手机产品和流媒体产品实现了多个语音/音频声码器和多种语音处理算法,具有丰富的产品研发经验。

文档

语音频编码标准及发展趋势

语音频编码标准及发展趋势黎家力1概述本文首先介绍了语音编码和音频编码的基本概念及其之间的关系。然后详细介绍了当前国内外各标准化组织开展语音频编码标准研究的最新进展,其中重点分析了ITU-T和MPEG两个标准化组织在该领域的标准化情况。最后通过总结展望了语音频编码标准的发展趋势。语音频编码标准是指对语音和音频信号进行信源压缩所采用的标准算法,压缩的目的是为了节省传输带宽或者存储空间。从信源的角度来分,分为语音和音频。通常将人耳可以听到的频率在20Hz到20kHz的声波称为音频信号。音频包括音乐、
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top