
它的英文全称为Audio Video Interleaved,即音频视频交错格式。是将语音和影像同步组合在一起的文件格式。它对视频文件采用了一种有损压缩方式,但压缩比较高,因此尽管面面质量不是太好,但其应用范围仍然非常广泛。AVI支持256色和RLE压缩。AVI信息主要应用在多媒体光盘上,用来保存电视、电影等各种影像信息。
它于1992年被Microsoft公司推出,随Windows3.1一起被人们所认识和熟知。所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大,而且更加糟糕的是压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器播放不了采用早期编码编辑的AVI格式视频,而低版本Windows媒体播放器又播放不了采用最新编码编辑的AVI格式视频,所以我们在进行一些AVI格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放,但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题,如果用户在进行AVI格式的视频播放时遇到了这些问题,可以通过下载相应的解码器来解决。是目前视频文件的主流。 这种格式的文件随处可见,比如一些游戏、教育软件的片头,多媒体光盘中,都会有不少的 AVI 。
现在,在WINDOWS 95或98里都能直接播放AVI,而且它自己的格式也有好几种,最常见的有 Intel Indeo(R)Video R3.2、Microsoft video 等。
AVI 文件包含三部分:文件头、数据块和索引块。其中数据块包含实际数据流,即图像和声音序列数据。这是文件的主体,也是决定文件容量的主要部分。视频文件的大小等于该文件的数据率乘以该视频播放的时间长度,索引块包括数据块列表和它们在文件中的位置,以提供文件内数据随机存取能力。文件头包括文件的通用信息,定义数据格式,所用的压缩算法等参数。
●nAVI格式:nAVI是newAVI的缩写,是一个名为ShadowRealm的地下组织发展起来的一种新视频格式(与我们上面所说的AVI 格式没有太大联系)。它是由Microsoft ASF压缩算法的修改而来的,但是又与下面介绍的网络影像视频中的ASF视频格式有所区别,它以牺牲原有ASF视频文件视频“流”特性为代价而通过增加帧率来大幅提高ASF视频文件的清晰度。
●DV-AVI格式:DV的英文全称是Digital Video Format,是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。目前非常流行的数码摄像机就是使用这种格式记录视频数据的。它可以通过电脑的IEEE 1394端口传输视频数据到电脑,也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名一般是.avi,所以也叫DV-AVI 格式。
目前(07年10月)AVI图象反转的原因很可能是暴风影音和windows media player冲突,下载一个完整的DIVX解码器可以解决。
1992年初Microsoft公司推出了AVI技术及其应用软件VFW(Video for Windows)。在AVI文件中,运动图像和伴音数据是以交织的方式存储,并于硬件设备。这种按交替方式组织音频和视像数据的方式可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。构成一个AVI文件的主要参数包括视像参数、伴音参数和压缩参数等:
AVI没有MPEG这么复杂,从WIN3.1时代,它就已经面世了。它最直接的优点就是兼容好、调用方便而且图象质量好,因此也常常与DVD相并称。但它的缺点也是十分明显的:体积大。也是因为这一点,我们才看到了MPEG-1和MPEG-4的诞生。2小时影像的AVI文件的体积与MPEG-2相差无计,不过这只是针对标准分辨率而言的:根据不同的应用要求,AVI的分辨率可以随意调。窗口越大,文件的数据量也就越大。降低分辨率可以大幅减低它的体积,但图象质量就必然受损。与MPEG-2格式文件体积差不多的情况下,AVI格式的视频质量相对而言要差不少,但制作起来对电脑的配置要求不高,经常有人先录制好了AVI格式的视频,再转换为其他格式。
一、视像参数
1、视窗尺寸(Video size):根据不同的应用要求,AVI的视窗大小或分辨率可按4:3的比例或随意调整:大到全屏0×480,小到160×120甚至更低。窗口越大,视频文件的数据量越大。
2、帧率(Frames per second):帧率也可以调整,而且与数据量成正比。不同的帧率会产生不同的画面连续效果。
二、伴音参数:在AVI文件中,视像和伴音是分别存储的,因此可以把一段视频中的视像与另一段视频中的伴音组合在一起。AVI 文件与WAV文件密切相关,因为WAV文件是AVI文件中伴音信号的来源。伴音的基本参数也即WAV文件格式的参数,除此以外,AVI文件还包括与音频有关的其他参数:
1、视像与伴音的交织参数(Interlace Audio Every X Frames)AVI格式中每X帧交织存储的音频信号,也即伴音和视像交替的频率X是可调参数,X的最小值是一帧,即每个视频帧与音频数据交织组织,这是CD-ROM上使用的默认值。交织参数越小,回放AVI文件时读到内存中的数据流越少,回放越容易连续。因此,如果AVI文件的存储平台的数据传输率较大,则交错参数可设置得高一些。当AVI文件存储在硬盘上时,也即从硬盘上读AVI文件进行播放时,可以使用大一些的交织频率,如几帧,甚至1秒。
2、同步控制(Synchronization)
在AVI文件中,视像和伴音是同步得很好的。但在MPC中回放AVI文件时则有可能出现视像和伴音不同步的现象。
三、压缩参数:在采集原始模拟视频时可以用不压缩的方式,这样可以获得最优秀的图像质量。编辑后应根据应用环境环择合适的压缩参数。
AVI数字视频的特点
AVI及其播放器VFW已成为了PC机上最常用的视频数据格式,是由于其具有如下的一些显著特点:
一、提供无硬件视频回放功能:AVI格式和VFW软件虽然是为当前的MPC设计的,但它也可以不断提高以适应MPC的发展。根据AVI格式的参数,其视窗的大小和帧率可以根据播放环境的硬件能力和处理速度进行调整。在低档MPC机上或在网络上播放时,VFW的视窗可以很小,色彩数和帧率可以很低;而在Pentium级系统上,对于K色、320×240的压缩视频数据可实现每秒25帧的回放速率。这样,VFW就可以适用于不同的硬件平台,使用户可以在普通的MPC上进行数字视频信息的编辑和重放,而不需要昂贵的专门硬件设备。
二、实现同步控制和实时播放:通过同步控制参数,AVI可以通过自调整来适应重放环境,如果MPC的处理能力不够高,而AVI文件的数据率又较大,在WINDOWS环境下播放该AVI文件时,播放器可以通过丢掉某些帧,调整AVI的实际播放数据率来达到视频、音频同步的效果。
三、可以高效地播放存储在硬盘和光盘上的AVI文件:由于AVI数据的交叉存储,VFW播放AVI数据时只需占用有限的内存空间,因为播放程序可以一边读取硬盘或光盘上的视频数据一边播放,而无需预先把容量很大的视频数据加载到内存中。在播放AVI视频数据时,只需在指定的时间内访问少量的视频图像和部分音频数据。这种方式不仅可以提高系统的工作效率,同时也可以实现迅速地加载和快速地启动播放程序,减少播放AVI视频数据时用户的等待时间。
四、提供了开放的AVI数字视频文件结构:AVI文件结构不仅解决了音频和视频的同步问题,而且具有通用和开放的特点。它可以在任何Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的AVI视频文件,在Windows环境下可随时调用。 五、AVI文件可以再编辑:AVI一般采用帧内有损压缩,可以用一般的视频编辑软件如Adobe Premiere或MediaStudio进行再编辑和处理。
DV
DV是英语Digital Video的缩写,数码摄像机的意思。
在摄像时,使用者通过DV的液晶显示屏观看要拍摄的活动影像,拍摄后可以马上看到拍好的活动影像。通过DV能够把拍摄到的活动影像转换为数字信号,连同麦克风记录的声音信号一起存放在DV带中。
DV可以与计算机连接,以读取DV带中的内容,继而对这些内容进行后期处理,如编辑等,还可以刻成VCD或DVD保存起来。
DV还可以与电视机连接,不仅能在电视机上读取DV带中的内容,还能录制电视节目。像素是DV最重要的技术指标。像素越高,图像分辨率也越高。DV的镜头有CCD和COMS之分。
现今随着高清晰度视频DV的不断涌现,DV的存储介质容量也成了一个最为大家所关心的话题所以乎一夜间市面上突然冒出很多的DV,这些DV之间最大的不同可能就是采用的存储介质不同,虽然容量有大小之分,但是优缺点也有相互存在,那么下面就让笔者给大家来简单分析下。
现在市场上面的DV按照存储介质大约可以分为硬盘类、光盘类、DV带类、存储卡类这四大类。首先来谈谈硬盘DV。市场上面的硬盘DV以JVC品牌DV为主,主流容量为20-60GB,硬盘DV的优势就在于存储空间大,可以很方便的将录制的节目存储到电脑中或者直接利用配套的DVD刻录设备将碟片刻出,但是此类机器也有他们的弱点,就是在实际使用的时候如果出现硬盘拍摄完之后无法更换其他介质继续进行拍摄,同时硬盘DV由于使用了硬盘,所以机器不能出现跌落之类的情况,不然机器很可能直接报销,硬盘里面的数据也将全部报销,所以购买这类机器在使用的时候一定要注意。
光盘介质类产品是最金贵的一类产品,但也是最方便的一类机器。说他方便的原因是因为光盘介质的DV采用了DVD光盘作为存储介质,当结束拍摄的时候,只需要将DVD直接取出就可以在任何一台DVD播放器上进行播放。不过这样虽然很方便,但是画面的质量存在一定的压缩,同时光存储介质的寿命都比较短,所以大家在购买的时候要均衡一下。
DV带介质的产品就不用多介绍了,优点就是价格便宜,随处可以买到,而缺点就是磁带保存的时间短,而且拍摄的视频导出电脑时速度慢,非常不爽。不过适合初级玩家,此类机器发展已经成熟,主机的价格也是所有产品线中最便宜的。
存储卡介质的产品一般集中在使用价廉物美的SD卡上,随着SD的容量不断升级以及SDHC标准存储卡的出现,SD卡的容量已经向N个GB级别方向发展,而且这个发展还有继续蔓延的趋势。相比其他存储介质的卡而言,此类机器的体积最为小巧,携带最为方便,缺点就是比较费电,待机时间短,镜头性能一般。
与传统的光学摄像机相比,DV的图像分辨率高,画质清晰,色彩逼真,失真极小。而且小巧轻便,功能强大,使用起来非常灵活、方便。DV以其卓越的性能及相对低廉的价格受到了广大用户的青睐。
DVCPRO
由松下公司开发的一种专业级数字广播摄录格式。水平解析度达700线。
MOV
使用过Mac机的朋友应该多少接触过QuickTime。QuickTime原本是Apple公司用于Mac计算机上的一种图像视频处理软件。Quick-Time提供了两种标准图像和数字视频格式 , 即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法的MPG视频格式。
在所有视频格式当中,也许MOV格式是最不知名的。也许你会听说过QuickTime,MOV格式的文件正是由它来播放的。在PC几乎一统天下的今天,从Apple移植过来的MOV格式自然是受到排挤的。它具有跨平台、存储空间要求小的技术特点,而采用了有损压缩方式的MOV格式文件,画面效果较AVI格式要稍微好一些。到目前为止,它共有 4 个版本,其中以 4.0 版本的压缩率最好。
MKV
MKV是Matroska的一种媒体文件, Matroska是一种新的多媒体封装格式,它可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一个Matroska Media文件当中!
MKV封装十分新颖,而且也非常开放,它对比AVI的优势体现在以下几点:
1:可变帧率:这需要编码的配合,试想一下在回放变化比较慢(比如说静物)时以比较低的FPS来代替,可以节省不少资源。
2:错误检测以及修复:这无疑提供了纠错和容错性,在网络传输的今天尤为需要。
3:软字幕:经常看DVDrip以及HDrip的朋友了解到,字幕一般都是以其它文件形式存在,在MKV里它可以内嵌在封装里,但不会和视频混淆,也可以多字幕随意选择。这样在传输保存时比较方便。
4:流式传输:这和TS流的原因基本一致,通过时间戳来管理视频以及音频的同步问题,做到即下即看。
5:菜单:交互式的操作使得MKV更加人性化。
6:强大的兼容性:MKV最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流,即使是非常封闭的RealMedia及QuickTime也被它包括进去了,堪称万能的媒体容器。
7:开放性和跨平台性:Matroska使用的是一种开放的架构,拥有众多的先进特性,并且能跨平台使用。
不过Matroska相对于以上我们介绍的缺点也是显而易见的,它没有深厚的背景可以依托,这决定了它不可能在商业领域里有所作为。不过从DVDrip里我们看到并非标准才是唯一,真正先进的技术在标准化商业化的道路上碰到很多非技术壁垒,而在网上而言,根本不存在这样那样的顾虑,所以MKV可以网上快速流行起来。
不过MKV的缺点也是显而易见的,分离器方面比较好的仅有HAALI分离器,再加上民间标准的缘故,我们很难在PC以外的地方能见到它的存在。
M-JPEG
M-JPEG(Motion- Join Photographic Experts Group)技术即运动静止图像(或逐帧)压缩技术,广泛应用于非线性编辑领域可精确到帧编辑和多层图像处理,把运动的视频序列作为连续的静止图像来处理,这种压缩方式单独完整地压缩每一帧,在编辑过程中可随机存储每一帧,可进行精确到帧的编辑,此外M-JPEG的压缩和解压缩是对称的,可由相同的硬件和软件实现。但M-JPEG只对帧内的空间冗余进行压缩。不对帧间的时间冗余进行压缩,故压缩效率不高。采用M-JPEG数字压缩格式,当压缩比7:1时,可提供相当于Betecam SP质量图像的节目。
JPEG标准所根据的算法是基于DCT(离散余弦变换)和可变长编码。JPEG的关键技术有变换编码、量化、差分编码、运动补偿、霍夫曼编码和游程编码等
M-JPEG的优点是:可以很容易做到精确到帧的编辑、设备比较成熟。缺点是压缩效率不高。
此外,M-JPEG这种压缩方式并不是一个完全统一的压缩标准,不同厂家的编解码器和存储方式并没有统一的规定格式。这也就是说,每个型号的视频服务器或编码板有自己的M-JPEG版本,所以在服务器之间的数据传输、非线性制作网络向服务器的数据传输都根本是不可能的。
MPEG
又称MPEG(Moving Pictures Experts Group)即动态图像专家组,它是由国际标准化组织ISO(International Standards Organization)与IEC(International Electronic Committee)于1988年联合成立,专门致力于运动图像(MPEG视频)及其伴音编码(MPEG音频)标准化工作。MPEG是运动图像压缩算法的国际标准,现已被几乎所有的计算机平台支持。它包括MPEG-1,MPEG-2和MPEG-4。MPEG-1被广泛地应用在VCD的制作,绝大多数的VCD采用MPEG-1格式压缩。MPEG-2应用在DVD的制作方面、HDTV(高清晰电视广播)和一些高要求的视频编辑、处理方面。MPEG-4是一种新的压缩算法,使用这种算法的ASF格式可以把一部120 min长的电影压缩到300 M左右的视频流,可供在网上观看。
MP4
综述
MP4是一种集音频、视频、图片浏览、电子书、收音机等于一体的多功能播放器。MP4比MP3大。关于MP4的准确概念,一言难尽,因为无论是从MP4的品牌、市场、产品规格、配置标准等各方面来说,都可以用一个字来形容——“乱”。不知是炒作还是趋势 ,在现在商家眼里,只要能视频沾一边的播放器,统统都叫MP4,这种说法简单直观,似乎和笔者当初模糊的认识基本一致。
关于MP4的概念众说纷纭,下图是笔者集百家之言,总结出来的关于MP4概念的认识,MP4既“软”,又“硬”,纷繁复杂。
音频MP4格式:AAC
MP4最初是一种音频格式,和MPEG-4没有太大的关系,就像MP3和MPEG-3没有关系一样。MP3是MPEG-1 Audio Layer 3 的缩写;而MP4是MPEG-2 AAC,完完全全是一种音频压缩格式, 增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性,最重要的是,MP4通过特殊的技术实现数码版权保护,这是MP3所无法比拟的。
视频MP4格式:MPEG-4
现在市面上的MP4多数偏向于多媒体播放器,能够播放AAC的,可以说是凤毛麟角。甚至有媒体把MP4说成是MPEG4的缩写,这在以前看来是一个谬论,但是经过商家不断的炒作,这个谬论也就成为了真理。现在若果你去电脑城听到MP4这个词,绝对是能播放视频格式的多媒体播放器的概念,而不是能播放音频MP4 AAC的随身听。出现这种怪现象不是毫无原因的,上面已提到AAC有版权保护功能,这也是众多唱片公司支持AAC的原因,要使自己的播放器支持AAC,还得支持付一定的版权费或专利费,另外,AAC的来源也是个问题,不像MP3那么开放,网上来源极少,所以目前音频MP4播放器发展尚不成熟,鉴于以上现状,众商家干脆“借尸还魂”,把MP4等同MPEG-4缩写而论,这样也恰好应了MP4是MP3的下一代这条规律,除了支持MP3所具有的音乐播放功能外,还具备强大的MPEG-4视频播放能力,另外,恰好“4”在“3”后,从这点出发,把MP4等同MPEG-4是合理的。
能播放视频的MP3
这种播放器其实不算是MP4,本质上是MP3,视频播放只不过是其附件功能,被称作MP4,纯粹是商业炒作。这种播放器局限性极大屏幕很小(0.8~1.8英寸),闪存容量小,支持特定的格式(MTV、MP4、MPV和DMV等),而且大多数是采用OLED和CSTN等低端屏幕,所以准确地说,这只能称作可播放视频的MP3罢了。代表有:DEC F12R、金邦炫彩王、3E E1000和PISA 炫彩飞艇等。
硬盘式MP4
这类MP4是现阶段发展的主流,产品数量也占绝对的优势,对于硬盘MP4的概念,简单来说就是以硬盘作媒介的随身看。大肚能容天下,有了硬盘再也不用担心不够空间了。硬盘MP4一般来说还集成其它很多功能,例如, 数码相机、摄像机、录音笔、数码伴侣...... 本次横评有11款是硬盘MP4。
闪存式MP4
对比硬盘式MP4,闪存式MP4就是以闪存来作存储媒介的随身看,这种MP4一般都支持内接闪存卡扩充,一般都是SD卡。这次横评有两款是这类型MP4,分别是Govideo PMP-120 和 JXD-680。闪存式MP4相对小巧轻便得多,价格便宜几倍。
没有显示屏的MP4
有些厂商认为MP4的3.5英寸屏幕太小,播放高质量的视频显得寒暄,另外对于闪存式MP4的128~256M,也令人不能欣赏大片,因此这些厂商设计出一种没有屏幕的硬盘MP4,这种MP4可以通过AV-OUT等输出端输出到电视等屏幕,并且采用的是2.5英寸硬盘,体积上偏大,但是对于这种不强调移动性的MP4来说,体积上比传统的DVD机要小巧不少,市面上仅有寥寥可数的几款,这种MP4带有几十吉的容量,但售价和闪存式MP4相若。例如, 博可视MP4 。
关于MP4的各种称呼
虽然MP4这个概念有软硬之分,但是就硬件的MP4来说,根据所采用的设计标准不一样或是功能的侧重点相异又有不同的名字,例如,MP4,PMP,PMC,PVP,PVR,PMA等。
MP4
一个笼统而没有统一定义的概念,这里说的是硬件MP4的概念,MP4可以是随身看,可以是MP3的下一代,可以是所有的PMP,PMC,PVP,PVR......诸多如此的播放器的总称。
PMP( Portable Media Player)
没有统一的标准,而是完全按照厂商自己的要求生产,如iRiver PMP-120,PMP-120的软件系统基于Linux,PMP的系统一般都是Linux开发的,没有固定的软件和硬件要求,可以任意组合,但这也是造成MP4产品多样化的原因。另外,PMP的格式兼容性和解码能力跟硬件有关,所以升级比较难。
PMC( Portable Media Center)
该平台的硬件和软件都由微软统一规定,硬件方面指定用Intel的XScale处理器,而软件系统是Windows Portable Media Player,这个平台属于开放式构架,软件方面容易扩展。PMC是微软为进军移动娱乐数码领域而制定的新标准。例如,YH-999,完完全全符合PMC的标准。
PVR( Personal Video Recorder )
PVR的功能侧重点是视频录像,可以说PVR具有强大的视频录像功能,PVR一般都带有AV-IN/AV-OUT或录像功能。例如,拍得丽iTouch,Mustek PVR-H140。
PVP(Personal Video Player)
和PMP差不多的概念。
PMA( Pocket Media Assistant)
简单地说就是PDA与硬盘MP4的合体,是比较新潮的数码产品,Archos PMA 4XX系列,是全球首款也是现今唯一一款集个人娱乐,商务应用和无线上网于一体的PMA。
MP4的硬件构架
MP4的“芯”脏
从原理上说,MP4与MP3区别不大,但是从硬件性能来说,两者相差甚远,主要是因为视频播放功能,Divx和Xvid等MPEG-4的播放,要求处理器和DSP较高的处理能力,而且要有一定的系统内存,Divx编码器问世之初,编码器开发者就使用主频为400MHz以上的计算机来完成解码,可见MP4要求芯片具有很高的计算性能,很多MP4华丽的操作界面也会消耗不少的系统资源,MP4不仅仅是视频数据和图像数据的处理器,现在的MP4还是很多数码功能和多媒体功能的统一体,要实现形形式式的功能,例如,数码伴侣,视频采集,DC,FM,Game......甚至有些MP4还支持多线工作。所以MP4的芯片不仅要求具有很高的计算能力,还要集成多方面的功能。
由于MP4核心芯片的制作,工艺水平要求过高,所以一般的MP4厂商都为力,这些核心一般由有传统芯片大家制作,如Intel,TI,Sigma Designs等,甚至AMD也推出了MP4专用处理芯片—— AU1200。现阶段MP4主要采用的都是TI的方案和Wintel的完整软硬件方案。其中,TI(Texas Instruments)是移动娱乐设备的芯片巨头,而Intel台式平台的芯片巨头,由于TI起步早,所以现在大多是MP4都是采用TI的芯片方案占领绝大部分的市场份额。虽然硬件有一定的规范,但是软件系统没有一个统一的标准,而是格商家自己进行开发(多数是Linux),这也是“造乱”的一个很大的原因。现在绝大部分厂商都是采用TI的方案,主要的有爱可视、以及欧美和日系数码厂商的sony、东芝。
而Wintel强强联盟,推出PMC新标准,处理器采用Intel的XScale系列,软件系统是微软的Windows Portable Media Center系统,软件和硬件都具有统一的标准,充分体现微软进军便携媒体市场,雄心勃勃,由于系统Windows Portable Media Center,整体架构为开放式,所以可以在操作系统的基础上自行扩展应用软件。Wintel的反感,统一了业界的标准,某种程度上为MP4的发展点明了方向。目前该方案的支持这主要有iRiver、微星、三星和创新等。
TMS320DM270芯片:
TMS320DM270内部结构:由TMS320DM270的核心,可以看出该芯片是一款功能极强大的芯片,主要由ARM(80MHz)、C54xDSP(90MHZ)和iMX(180MHz)三核心组成,其中ARM7 RISC 微处理器主要负责外部接口的管理, C54X DSP数字信号处理器负责音频方面的各种处理,而iMX引擎处理视频数据和图像数据。另外,集成的各种功能模块和控制器使其还具有其它强大的功能,如照相,读卡器,录音,AV-IN/AV-OUT等。
TI关于MP4系统方案:
TI的tms320dm270方案是MP4目前最先进解决方案之一,具有画质好和视频格式兼容性好的特证,本次横评大多数MP4都是采用该方案。MP4内部核心架构大多数都是采用处理器配合DSP协调工作的方式,一般处理器和DSP是集成在一起的。DSP(Digit Signal Processor)主要负责视频解码和编码;而处理器主要是处理档案管理、存取,以及使用接口、周边组件的掌控等事务。另外,某些功能模块还要增加特殊的芯片,例如DC控制模块和显示控制模块等。
从上图看,该方案主要由音频处理、视频显示、存取管理、电源管理、视频采集和TMS320DM270等几部分组成。
音频处理
音频处理方面,TI主要采用自家开发的TLV320AIC23B编码器,它一款高性能低功耗的立体声音频Codec芯片,内置耳机输出放大器,支持MIC和LINE IN两种输入方式,输入/输出都具有可编程增益调节。AIC23内部集成了模数转换(ADC)和数模转换(DAC)电路,输出信噪比可分别达到90dB和100dB,可在8K~96K的频率范围内提供16/20/24/32位的采样。 音质较为纯正,保真度高,高音响亮,低音实净。本次横评的MSI MEGAWVIEW 561就是采用这种音频解码芯片。
视频显示
视频显示即可以是通过NTSC或PAL制式往外部输出,也可以是输出到自带的液晶屏幕,现在MP4采用的屏幕主要有:CSTN、TFT和LPTS等液晶屏,关于这三种屏幕的特性与效果方面的知识,请参考太平洋较早前的文章: 《扫盲运动 便携式媒体播放器MP4全面释疑》。
存取管理
目前主流的硬盘MP4采用的都是来自HITACHI、FUJITSU及TOSHIBA的1.8英寸的为硬盘,偶尔也有采用2.5英寸笔记本硬盘的;而为了节约成本,市面上也有采用小容量和缩小体积闪存的MP4,不过对于MP4来说采用闪存作为介质,从目前的技术背景和市场价格来看,虽然闪存具有硬盘无从攀比的优点(稳定,能耗低,防震性好),但是闪存还不是正道。自HITACHI上一年发布的0.8英寸的微硬盘以来,给处于尴尬局面的MP4带来了新希望。
电源管理
关于电源的问题,正如片源一样,一直都是MP4的死穴,一般的硬盘MP4仅能支持一部大片时间的视频播放续航,这是绝对不够的,特别是对于内置锂电池的MP4,这是极不方便的,因为电池续航力太短等于失去了随身看的意义。不过,这次从接评的10多款MP4种看到了电池问题的新希望,有MP4用可拆御的锂电池,有用AA干电池,更令人欣喜的就是有当中有可以连续播放视频8小时和11小时的。
关于MPEG-4编码与格式
MP4播放器所支持的编码格式可以说是“乱中之乱”,除了PMC,由于硬件平台的没有统一的标准,软件系统也是由厂商自行设计,这是造成MP4播放器的解码兼容性和解码稳定性参差不齐的根本原因;另外,由MPEG-4编码体系洐生出来的格式很多,除PMC之外的MP4,解码兼容性和硬件有关,这就大大增加了解码的难度,视频格式本来就多例如AVI,ASF,MPG,WMV,再加上编码算法也多:MPEG-1,MPEG-2,MPEG-4,而大多MP4播放器所支持的MPEG-4编码,又有多种衍生的编码算法:DivX、XviD、H.263、 MS MPEG-4 3688 、 Microsoft Video1 、Microsoft RLE......
流媒体格式当中,微软所开发的ASF和WMV都是采用MPEG-4编码的,部分MP4支持ASF或WMV这两种流媒体格式,而RM和RMVB,这两种网络上流传极为广泛的流媒体格式,居然没有一款MP4能够支持。而mpg格式既可以是MPEG-1和MPEG-2编码又可以是MPEG-4编码。
另外需要注意的就是,MPEG-4并没有确定必须用什么扩展名,它只是一种编码方法而已,使用avi作为扩展名,是一种习惯性的沿用,这和标准的AVI是有所区别的。现在主流的MP4一般都支持DivX或Xvid编码的avi格式,但是其它很多编码的avi就不一定支持了。最后一提,格式兼容性还跟视频格式的分辨率,zhen率和比特率有关,一个支持DivX的MP4播放器,却播放不了DivX的avi,很可能跟前面的三个因素有关。
究竟什么是MP4呢?就像人们把MP3随身听简称为MP3 一样,MP4便携式视频播放器也同样被简称为MP4。当然,也就像MP3并不是MPEG3那样,MP4也不是MPEG4,它们所采用的名称与自身的底层技术应用没有直接关系,MP4的概念实际上已被厂商延伸。
MP4概念无外乎有两种概念,一种是指继MP3之后的音乐格式,从技术层面讲,MP4使用MPEG-2 AAC技术,也就是简称为A2B或AAC的技术。它的特点是音质更加完美而压缩比更大(15:1-20:1)。它增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等MP3没有的特性,使得在音频压缩后仍能完美的再现CD的音质。
另外一种是指支持MPEG-4这种视频格式的便携式播放器,我们先来看看什么是MP4。MP4(也叫MPEG-4)是MPEG格式的一种,是活动图像的一种压缩方式。通过这种压缩,可以使用较小的文件提供较高的图像质量,是目前最流行(尤其在网络中)的视频文件格式之一。这种格式的好处是它不仅可覆盖低频带,也向高频带发展。MP4从其提出之日起就引起了人们的广泛关注,目前MP4最流行使用的压缩方式为DivX和XviD。经过以DivX或者XviD为代表的MP4技术处理过的DVD节目,图像的视频、音频质量下降不大,但体积却缩小到原来的几分之一,可以很方便地用两张650MB容量的普通CD-ROM来保存生成的文件。用一张盘就可以容纳一百零几分钟的一部电影,而此时的画面质量明显优于VCD。
MP4,硬要说的话,它只是一个文件后缀,而MPEG4则是一类压缩标准,而DVD采用的是MPEG2压缩标准。
MP3是MPEG1 Audio Layer 3,是属于MPEG1的一个音频压缩格式,MPEG4也包含多种音频、视频压缩格式,比如视频压缩格式DivX,Xvid,H.2,音频压缩格式AAC,平时电脑上有些 需要安装什么插件(DIVX、FFDSHOW)之类的才能看的电影,就是用MPEG4压缩的。
MP4播放器的优点
它能够直接播放高品质视频、音频,也可以浏览图片以及作为移动硬盘、数字银行使用;更有产品还具备一些十分新颖、实用的功能,例如爱可视AV420能够录制视频,它可以将来自DVD、电视等设备的信号以MPEG-4格式保存在硬盘中;中基超威力即将推出的MP4播放器支持PIM管理以及无线网络功能,可以在无线环境普及后发挥出更多作用。而且现在我们所见的到MP4播放器,大多数都带有视频转制等专业的视频功能,并具备非常齐全的视频输入/输出端口,因此它们携带的视频文件能够在很多场合中播放,尽管这对一些仅在旅行途中使用播放器的用户没有更多的实际意义,但对于一些经常做视频演示的用户则十分有用,因为MP4播放器能够方便地接驳投影机以及电视等输出设备。从个人使用的角度来看,MP4播放器的最大优势在于体积小巧,携带方便,能够随时、随身播放视频。但是能够满足这些条件的产品则不止专用播放器一种,掌上电脑便是一个竞争对手。虽然无法在功能上直接将两者进行对比,但是仅就本机的视频播放功能上来看两者没有本质差别,但掌上电脑具备更多的功能,而且售价相对更为便宜。如果你使用MP4播放器的频率不高,那么选择一个掌上电脑来替代MP4也未尝不可。
WMA
微软在开发自己的网络多媒体服务平台上主推ASF(Audio Steaming Format),这是一个开放支持在各种各样的网络和协议上的数据传输的标准。它支持音频、视频以及其他一系列的多媒体类型。而WMA是Windows Media Audio的缩写,相当于只包含音频的ASF文件。
WMA文件在80kbps、44kHz的模式下压缩比可达1∶18,基本上和VQF相同。而且压缩速度比MP3提高一倍。所以它应该比VQF更具有竞争力。
PSD
这是著名的Adobe公司的图像处理软件Photoshop的专用格式Photoshop Document(PSD)。PSD其实是Photoshop进行平面设计的一张"草稿图",它里面包含有各种图层、通道、遮罩等多种设计的样稿,以便于下次打开文件时可以修改上一次的设计。在Photoshop所支持的各种图像格式中,PSD的存取速度比其它格式快很多,功能也很强大。由于Photoshop越来越被广泛地应用,所以我们有理由相信,这种格式也会逐步流行起来。
PNG
PNG(Portable Network Graphics)是一种新兴的网络图像格式。在1994年底,由于Unysis公司宣布GIF拥有专利的压缩方法,要求开发GIF软件的作者须缴交一定费用,由此促使免费的png图像格式的诞生。PNG一开始便结合GIF及JPG两家之长,打算一举取代这两种格式。1996年10月1日由PNG向国际网络联盟提出并得到推荐认可标准,并且大部分绘图软件和浏览器开始支持PNG图像浏览,从此PNG图像格式生机焕发。
PNG是目前保证最不失真的格式,它汲取了GIF和JPG二者的优点,存贮形式丰富,兼有GIF和JPG的色彩模式;它的另一个特点能把图像文件压缩到极限以利于网络传输,但又能保留所有与图像品质有关的信息,因为PNG是采用无损压缩方式来减少文件的大小,这一点与牺牲图像品质以换取高压缩率的JPG有所不同;它的第三个特点是显示速度很快,只需下载1/的图像信息就可以显示出低分辨率的预览图像;第四,PNG同样支持透明图像的制作,透明图像在制作网页图像的时候很有用,我们可以把图像背景设为透明,用网页本身的颜色信息来代替设为透明的色彩,这样可让图像和网页背景很和谐地融合在一起。
PNG的缺点是不支持动画应用效果,如果在这方面能有所加强,简直就可以完全替代GIF和JPEG了。Macromedia公司的Fireworks软件的默认格式就是PNG。现在,越来越多的软件开始支持这一格式,而且在网络上也越来截止流行。
TGA
TGA(Tagged Graphics)文件是由美国Truevision公司为其显示卡开发的一种图像文件格式,已被国际上的图形、图像工业所接受。此文件格式的结构比较简单,属于一种图形,图像数据的通用格式,在多媒体领域有着很大影响,是计算机生成图像向电视转换的一种首选格式。TGA图像格式最大的特点是可以做出不规则形状的图形、图像文件,一般图形、图像文件都为四方形,若需要有圆形、菱形甚至是缕空的图像文件时,TGA可就派上用场了! TGA格式支持压缩,使用不失真的压缩算法。
BMP
BMP是英文Bitmap(位图)的简写,它是Windows操作系统中的标准图像文件格式,能够被多种Windows应用程序所支持。随着Windows操作系统的流行与丰富的Windows应用程序的开发,BMP位图格式理所当然地被广泛应用。这种格式的特点是包含的图像信息较丰富,几乎不进行压缩,但由此导致了它与生俱生来的缺点--占用磁盘空间过大。所以,目前BMP在单机上比较流行。
JPEG2000
JPEG 2000同样是由JPEG 组织负责制定的,它有一个正式名称叫做"ISO 15444",与JPEG相比,它具备更高压缩率以及更多新功能的新一代静态影像压缩技术。
JPEG2000 作为JPEG的升级版,其压缩率比JPEG高约30%左右。与JPEG不同的是,JPEG2000 同时支持有损和无损压缩,而 JPEG 只能支持有损压缩。无损压缩对保存一些重要图片是十分有用的。JPEG2000的一个极其重要的特征在于它能实现渐进传输,这一点与GIF的"渐显"有异曲同工之妙,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,而不必是像现在的 JPEG 一样,由上到下慢慢显示。
此外,JPEG2000还支持所谓的"感兴趣区域"特性,你可以任意指定影像上你感兴趣区域的压缩质量,还可以选择指定的部份先解压缩。 JPEG 2000 和 JPEG 相比优势明显,且向下兼容,因此取代传统的JPEG格式指日可待。
JPEG2000可应用于传统的JPEG市场,如扫描仪、数码相机等,亦可应用于新兴领域,如网路传输、无线通讯等等。
MP3
1.便携MP3播放器的俗称.
用来播放MP3格式音乐(现在可以兼容wma,wav等格式)的一种便携式的播放器.便携式MP3播放器最初由韩国人文光洙和黄鼎夏(Moon & Hwang)于1997年发明,并申请了相关专利.
MP3格式技术发展详解
2.MP3作为一种音乐格式
MPEG-1 Audio Layer 3,经常称为MP3,是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。
MPEG-1 Audio Layer 3,经常称为MP3,是当今较流行的一种数字音频编码和有损压缩格式,它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。
概观
MP3是一个数据压缩格式。它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小。
在MP3中使用了许多技术其中包括心理声学以确定音频的哪一部分可以丢弃。MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。
MP3格式使用了混合的转换机制将时域信号转换成频域信号:
* 32波段多相积分滤波器(PQF)
* 36或者12 tap 改良离散余弦滤波器(MDCT);每个子波段大小可以在0...1和2...31之间选择
* 混叠衰减后处理
根据MPEG规范的说法,MPEG-4中的AAC(Advanced audio coding)将是MP3格式的下一代,尽管有许多创造和推广其他格式的重要努力。然而,由于MP3的空前的流行,任何其他格式的成功在目前来说都是不太可能的。MP3不仅有广泛的用户端软件支持,也有很多的硬件支持比如便携式媒体播放器(指MP3播放器)DVD和CD播放器。
发展
MPEG-1 Audio Layer 2编码开始时是德国Deutsche Forschungs- und Versuchsanstalt für Luft- und Raumfahrt(后来称为Deutsches Zentrum für Luft- und Raumfahrt, 德国太空中心)Egon Meier-Engelen管理的数字音频广播(DAB)项目。这个项目是欧盟作为EUREKA研究项目资助的,它的名字通常称为EU-147。EU-147 的研究期间是1987年到1994年。
到了1991年,就已经出现了两个提案:Musicam(称为Layer 2)和ASPEC(自适应频谱感知熵编码)。荷兰飞利浦公司、法国CCETT和德国Institut für Rundfunktechnik提出的Musicam方法由于它的简单、出错时的健壮性以及在高质量压缩时较少的计算量而被选中。基于子带编码的Musicam 格式是确定MPEG音频压缩格式(采样率、帧结构、数据头、每帧采样点)的一个关键因素。这项技术和它的设计思路完全融合到了ISO MPEG Audio Layer I、II 以及后来的Layer III(MP3)格式的定义中。在Mussmann教授(University of Hannover)的主持下,标准的制定由Leon van de Kerkhof(Layer I)和Gerhard Stoll(Layer II)完成。
一个由荷兰Leon Van de Kerkhof、德国Gerhard Stoll、法国Yves-François Dehery和德国Karlheinz Brandenburg 组成的工作小组吸收了Musicam和ASPEC的设计思想,并添加了他们自己的设计思想从而开发出了MP3,MP3能够在128kbit/s达到MP2 192kbit/s 音质。
所有这些算法最终都在1992年成为了MPEG的第一个标准组MPEG-1的一部分,并且生成了1993年公布的国际标准ISO/IEC 11172-3。MPEG音频上的更进一步的工作最终成为了1994年制定的第二个MPEG标准组MPEG-2标准的一部分,这个标准正式的称呼是1995年首次公布的ISO/IEC 13818-3。
编码器的压缩效率通常由位速定义,因为压缩率依赖于位数(:en:bit depth)和输入信号的采样率。然而,经常有产品使用CD参数(44.1kHz、两个通道、每通道16位或者称为2x16位)作为压缩率参考,使用这个参考的压缩率通常较高,这也说明了压缩率对于有损压缩存在的问题。
Karlheinz Brandenburg使用CD介质的Suzanne Vega的歌曲Tom’s Diner来评价MP3压缩算法。使用这首歌是因为这首歌的柔和、简单旋律使得在回放时更容易听到压缩格式中的缺陷。一些人开玩笑地将Suzanne Vega称为“MP3之母”。来自于EBU V3/SQAM参考CD的更多一些严肃和critical 音频选段(glockenspiel, triangle, accordion, ...)被专业音频工程师用来评价MPEG音频格式的主观感受质量。
MP3走向大众
为了生成位兼容的MPEG Audio文件(Layer 1、Layer 2、Layer 3),ISO MPEG Audio委员会成员用C语言开发的一个称为ISO 11172-5的参考模拟软件。在一些非实时操作系统上它能够演示第一款压缩音频基于DSP的实时硬件解码。一些其它的MPEG Audio实时开发出来用于面向消费接收机和机顶盒的数字广播(无线电DAB和电视DVB)。
后来,1994年7月7日Fraunhofer-Gesellschaft发布了第一个称为l3enc的MP3编码器。
Fraunhofer开发组在1995年7月14日选定扩展名.mp3(以前扩展名是.bit)。使用第一款实时软件MP3播放器Winplay3(1995年9月9日发布)许多人能够在自己的个人电脑上编码和回放MP3文件。由于当时的硬盘相对较小(如500MB),这项技术对于在计算机上存储娱乐音乐来说是至关重要的。
MP2、MP3与因特网
1993年10月,MP2(MPEG-1 Audio Layer 2)文件在因特网上出现,它们经常使用Xing MPEG Audio Player播放,后来又出现了Tobias Bading为Unix开发的MAPlay。MAPlay于199年2月22日首次发布,现在已经移植到微软视窗平台上。
刚开始仅有的MP2编码器产品是Xing Encoder和CDDA2WAV,CDDA2WAV是一个将CD音轨转换成WAV格式的CD抓取器。
Internet Underground Music Archive(IUMA)通常被认为是在线音乐的鼻祖,IUMA是因特网上第一个高保真音乐网站,在MP3和网络流行之前它有数千首授权的MP2录音。
从1995年上半年开始直到整个九十年代后期,MP3开始在因特网上蓬勃发展。MP3的流行主要得益于如Nullsoft于1997年发布的Winamp和Napster于1999年发布的Napster这样的公司和软件包的成功,并且它们相互促进发展。这些程序使得普通用户很容易地播放、制作、共享和收集MP3文件。
关于MP3文件的点对点技术文件共享的争论在最近几年迅速蔓延—这主要是由于压缩使得文件共享成为可能,未经压缩的文件过于庞大难于共享。由于MP3文件通过因特网大量传播一些主要唱片厂商通过法律起诉Napster来保护它们的版权(参见知识产权)。
如iTunes Music Store这样的商业在线音乐发行服务通常选择其它或者专有的支持数字版权管理(DRM)的音乐文件格式以控制和数字音乐的使用。支持DRM的格式的使用是为了防止受版权保护的素材免被侵犯版权,但是大多数的保护机制都能被一些方法破解。这些方法能够被计算机高手用来生成能够自由复制的解锁文件。一个显著的例外是微软公司的Windows Media Audio 10格式,目前它还没有被破解。如果希望得到一个压缩的音频文件,这个录制的音频流必须进行压缩并且带来音质的降低。
MP3的音频质量
因为MP3是一种有损格式,它提供了多种不同“位速”的选项—也就是用来表示每秒音频所需的编码数据位数。典型的速度介于每秒128和320kb之间。与此对照的是,CD上未经压缩的音频位速是1411.2 kbit/s(16 位/采样点 × 44100 采样点/秒 × 2 通道)。
使用较低位速编码的MP3文件通常回放质量较低。使用过低的位速,“压缩噪声(:en:compression artifact)”(原始录音中没有的声音)将会在回放时出现。说明压缩噪声的一个好例子是压缩欢呼的声音:由于它的随机性和急剧变化,所以编码器的错误就会更明显,并且听起来就象回声。
除了编码文件的位速之外,MP3文件的质量也与编码器的质量以及编码信号的难度有关。使用优质编码器编码的普通信号,一些人认为128kbit/s的MP3以及44.1kHz的CD采样的音质近似于CD音质,同时得到了大约11:1的压缩率。在这个比率下正确编码的MP3能够获得比调频广播和卡式磁带[来源请求]更好的音质,这主要是那些模拟介质的带宽、信噪比和其它一些。然而,听力测试显示经过简单的练习测试听众能够可靠地区分出128kbit/s MP3与原始CD的区别[来源请求]。在许多情况下他们认为MP3音质太低是不可接受的,然而其他一些听众或者换个环境(如在嘈杂的车中或者聚会上)他们又认为音质是可接受的。很显然,MP3 编码的瑕疵在低端计算机的扬声器上比较不明显,而在连接到计算机的高质量立体声系统,尤其是使用高质量的headphone时则比较明显。
Fraunhofer Gesellschaft(FhG)在他们的官方网站上公布了下面的MPEG-1 Layer 1、2和3的压缩率和数据速率用于比较:
* Layer 1: 384 kbit/s,压缩率 4:1
* Layer 2: 192...256 kbit/s,压缩率 8:1...6:1
* Layer 3: 112...128 kbit/s,压缩率 12:1...10:1
不同层面之间的差别是因为它们使用了不同的心理声学模型导致的;Layer 1的算法相当简单,所以透明编码就需要更高的位速。然而,由于不同的编码器使用不同的模型,很难进行这样的完全比较。
许多人认为所引用的速率出于对Layer 2和Layer 3记录的偏爱而出现了严重扭曲。他们争辩说实际的速率如下所列:
* Layer 1: 384 kbit/s 优秀
* Layer 2: 256...384 kbit/s 优秀, 224...256 kbit/s 很好, 192...224 kbit/s 好
* Layer 3: 224...320 kbit/s 优秀, 192...224 kbit/s 很好, 128...192 kbit/s 好
当比较压缩机制时,很重要的是要使用同等音质的编码器。将新编码器与基于过时技术甚至是带有缺陷的旧编码器比较可能会产生对于旧格式不利的结果。由于有损编码会丢失信息这样一个现实,MP3算法通过建立人类听觉总体特征的模型尽量保证丢弃的部分不被人耳识别出来(例如,由于noise masking),不同的编码器能够在不同程度上实现这一点。
一些可能的编码器:
* Mike Cheng在1998年早些时候首次开发的LAME。 与其它相比,它是一个完全遵循LGPL的MP3编码器,它有良好的速度和音质,甚至对MP3技术的后继版本形成了挑战。
* Fraunhofer Gesellschaft:有些编码器不错,有些有缺陷。
有许多的早期编码器现在已经不再广泛使用:
* ISO dist10 参考代码
* BladeEnc
* ACM Producer Pro.
好的编码器能够在128到160kbit/s下达到可接受的音质,在160到192kbit/s下达到接近透明的音质。所以不在特定编码器或者最好的编码器话题内说128kbit/s或者192kbit/s下的音质是容易引起误解的。一个好的编码器在 128kbit/s下生成的MP3有可能比一个不好的编码器在192kbit/s下生成的MP3音质更好。另外,即使是同样的编码器同样的文件大小,一个不变位速的MP3可能比一个变位速的MP3音质要差很多。
需要注意的一个重要问题是音频信号的质量是一个主观判断。Placebo effect is rampant, with many users claiming to require a certain quality level for transparency.许多用户在A/B测试中都没有通过,他们无法在更低的位速下区分文件。一个特定的位速对于有些用户来说是足够的,对于另外一些用户来说是不够的。每个人的声音感知可能有所不同,所以一个能够满足所有人的特定心理声学模型并不明显存在。仅仅改变试听环境,如音频播放系统或者环境可能就会显现出有损压缩所产生的音质降低。上面给出的数字只是大多数人的一个大致有效参考,但是在有损压缩领域真正有效的压缩过程质量测试手段就是试听音频结果。
如果你的目标是实现没有质量损失的音频文件或者用在演播室中的音频文件,就应该使用无损压缩算法,目前能够将16位PCM音频数据压缩到38%并且声音没有任何损失,这样的压缩工具有Lossless Audio LA、Apple Lossless、TTA、FLAC、Windows Media Audio 9 Lossless (wma) 和Monkey’s Audio 等等。对于需要进行编辑、混合处理的音频文件要尽量使用无损格式,否则有损压缩产生的误差可能在处理后无法预测,多次编码产生的损失将会混杂在一起,在处理之后进行编码这些损失将会变得更加明显。无损压缩在降低压缩率的代价下能够达到最好的结果。
一些简单的编辑操作,如切掉音频的部分片段,可以直接在MP3数据上操作而不需要重新编码。对于这些操作来说,只要使用合适的软件(mp3DirectCut和MP3Gain),上面提到的所关心的问题可以不必考虑。
位速
位速对于MP3文件来说是可变的。总的原则是位速越高则声音文件中包含的原始声音信息越多,这样回放时声音质量也越高。在MP3编码的早期,整个文件使用一个固定的位速。
MPEG-1 Layer 3允许使用的位速是32、40、48、56、、80、96、112、128、160、192、224、256和320 kbit/s,允许的采样频率是32、44.1和48kHz。44.1kHz是最为经常使用的速度(与CD的采样速率相同),128kbit/s是事实上“好品质”的标准,尽管192kbit/s在对等文件共享网络上越来越受到欢迎。MPEG-2和[非正式的]MPEG-2.5包括其它一些位速:6、12、24、32、40、48、56、、80、96、112、128、144、160kbit/s。
可变位速(VBR)也是可能的。MP3文件的中的音频切分成有自己不同位速的帧,这样在文件编码的时候就可以动态地改变位速。尽管在最初的实现中并没有这项功能,VBR现在已经得到了广泛的应用。这项技术使得在声音变化大的部分使用较大的位速而在声音变化小的部分使用较小的位速成为可能。这个方法类似于声音控制的磁带录音机不记录静止部分节省磁带消耗。一些编码器在很大程度上依赖于这项技术。
高达0kbit/s的非标准位速可以使用LAME编码器和自由格式来实现,但是几乎没有MP3播放器能够播放这些文件。
MP3的设计局限
MP3格式有一些不能仅仅通过使用更好的编码器绕过的内在。一些新的压缩格式如Vorbis和AAC不再有这些。
按照技术术语,MP3有如下一些:
* 位速最大是320 kbit/s
* 时间分辨率相对于变化迅速的信号来说太低
* 对于超过15.5/15.8 kHz的频率没有scale factor band
* Joint stereo 是基于帧与帧完成的
* 没有定义编码器/解码器的整体时延,这就意味着gapless playback缺少一个正式的规定
然而,即使有这些,一个好好的调整MP3编码器能够非常有竞争力地完成编码任务。
MP3音频编码
MPEG-1标准中没有MP3编码器的一个精确规范,然而与此相反,解码算法和文件格式却进行了细致的定义。人们设想编码的实现是设计自己的适合去除原始音频中部分信息的算法(或者是它在频域中的修正离散余弦(MDCT)表示)。在编码过程中,576个时域样本被转换成576个频域样本,如果是瞬变信号就使用192而不是576个采样点,这是量化噪声随着随瞬变信号短暂扩散。
这是听觉心理学的研究领域:人类主观声音感知。
这样带来的结果就是出现了许多不同的MP3编码器,每种生成的声音质量都不相同。有许多它们的比较结果,这样一个潜在用户很容易选择合适的编码器。需要记住的是高位速编码表现优秀的编码器(如LAME这个在高位速广泛使用的编码器)未必在低位速的表现也同样好。
MP3音频解码
另一方面,解码在标准中进行了细致的定义。
多数解码器是bitstream compliant,也就是说MP3文件解码出来的非压缩输出信号将与标准文档中数学定义的输出信号一模一样(在规定的近似误差范围内)。
MP3文件有一个标准的格式,这个格式就是包括384、576、或者1152个采样点(随MPEG的版本和层不同而不同)的帧,并且所有的帧都有关联的头信息(32位)和辅助信息(9、17或者32字节,随着MPEG版本和立体声或者单通道的不同而不同)。头和辅助信息能够帮助解码器正确地解码相关的霍夫曼编码数据。
所以,大多数的解码器比较几乎都是完全基于它们的计算效率(例如,它们在解码过程中所需要的内存或者CPU时间)。
ID3和其它标签
“标签”是MP3(或其它格式)中保存的包含如标题、艺术家、唱片、音轨号或者其它关于MP3文件信息等添加到文件的数据。最为流行的标准标签格式目前是ID3 ID3v1和ID3v2标签,最近的是APEv2标签。
APEv2最初是为MPC 文件格式开发的(参见 APEv2规范)。APEv2可以与ID3标签在同一个文件存,但是它也可以单独使用。
音量归一化(normalization)
由于CD和其它各种各样的音源都是在不同的音量下录制的,在标签中保存文件的音量信息将是有用的,这样的话回放时音量能够进行动态调节。
人们已经提出了一些对MP3文件增益进行编码的标准。它们的设计思想是对音频文件的音量(不是“峰值”音量)进行归一化,这样以保证在不同的连续音轨切换时音量不会有变化。
最流行最常用的保存回放增益的解决方法是被简单地称作“Replay Gain”的方法。音轨的音量平均值和修剪信息都存在元数据标签中。
可选技术
有许多其它的有损音频编解码存在,其中包括:
* MPEG-1/2 Audio Layer 2 (MP2),MP3的前辈;
* MPEG-4 AAC, MP3的继承者,Apple的iTunes Music Store和iPod使用;
* Xiph.org Foundation的Ogg Vorbis,自由软件和没有专利的编解码器;
* MPC,也称作Musepack(以前叫MP+),由MP2派生出来;
* Thomson Multimedia的MP3和SBR的组合mp3PRO;
* AC-3,Dolby Digital和DVD中使用;
* ATRAC,Sony的Minidisc使用;
* Windows Media Audio(WMA)来自于微软公司;
* QDesign, 用于低速QuickTime;
* AMR-WB+ 针对蜂窝电话和其它有限带宽使用进行了优化的增强自适应多速宽带编解码器(Enhanced Adaptive Multi Rate WideBand codec);
* RealNetworks的RealAudio,经常用于网站的流媒体;
* Speex,基于CELP的专门为语音和VoIP设计的自由软件和无专利编解码器。
mp3PRO、MP3、AAC、和MP2都是同一个技术家族中的成员,并且都是基于大致类似的心里声学模型。Fraunhofer Gesellschaft拥有许多涵盖这些编解码器所用技术的基本专利,Dolby Labs、索尼公司、Thomson Consumer Electronics和AT&T拥有其它一些关键专利。
在因特网上有一些其它无损音频压缩方法。尽管它们与MP3不同,它们是其它压缩机制的优秀范例,它们包括:
* FLAC 表示’自由无损音频编解码(Free Lossless Audio Codec)’
* Monkey’s Audio
* SHN,也称为Shorten
* TTA
* Wavpack
* Apple Lossless
听觉测试试图找出特定位速下的最好质量的有损音频编解码。在128kbit/s下,Ogg Vorbis、AAC、MPC和WMA Pro性能持平处于领先位置,LAME MP3稍微落后。在kbit/s下,AAC-HE和mp3pro少许领先于其它编解码器。在超过128kbit/s下,多数听众听不出它们之间有明显差别。什么是“CD音质”也是很主观的:对于一些人来说128kbit/s的MP3就足够了,而对于另外一些人来说必须是200kbit/s以上的位速。
尽管如WMA和RealAudio这些新的编解码器的支持者宣称它们各自的算法能够在kbit/s达到CD音质,听觉测试却显示了不同的结果;然而,这些编解码器在kbit/s的音质明显超过同样位速下MP3的音质。无专利的Ogg Vorbis编解码器的开发者宣称它们的算法超过了MP3、RealAudio和WMA的音质,上面提到的听觉测试证实了这种说法。Thomson宣称它的mp3PRO 在kbit/s达到了CD音质,但是测试者报告说kbit/s的mp3Pro文件与112kbit/s的MP3文件音质类似,但是直到 80kbit/s时它才能接近CD音质。
专门为MPEG-1/2视频设计的、优化的MP3总体上在低于48kbit/s的单声道数据和低于80kbit/s的立体声上表现不佳。
授权和专利问题
Thomson Consumer Electronics在认可软件专利的国家控制着MPEG-1/2 Layer 3 专利的授权,这些国家包括美国和日本,欧盟国家不包括在内。Thomson积极地加强这些专利的保护。Thomson已经在欧盟国家被欧洲专利局(:en:European Patent Office授予软件专利,但是还不清楚它们是否会被那里的司法所加强。参见欧洲专利协定中的软件专利(:en:Software patents under the European Patent Convention)。
关于Thomson专利文件、授权协议和费用的最新信息请参考它们的网站mp3licensing.com。
在1998年9月,Fraunhofer Institute向几个MP3软件开发者发去了一封信声明“发布或者销售编码器或者解码器”需要授权。这封信宣称非经授权的产品“触犯了 Fraunhofer和THOMSON的专利权。制造、销售或者发布使用[MPEG Layer-3]标准或者我们专利的产品,你们需要从我们这里获得这些专利的授权协议。”
这些专利问题极大地减慢了未经授权的MP3软件开发并且导致人们的注意力转向开发和欢迎其它如WMA和Ogg Vorbis这样的替代品。Windows开发系统的制造商微软公司从MP3专向它们自有的Windows Media格式以避免与专利相关的授权问题。直到那些关键的专利过期之前,未经授权的编码器和播放器在认可软件专利的国家看起来都是非法的。
尽管有这些专利,永恒的MP3格式继续向前发展;这种现象的原因看起来是由如下因素带来的网络效应:
* 熟悉这种格式,不知道有其它可选格式存在,
* 这些可选格式没有普遍地明显超过MP3的优势这样一个现实,
* 大量的MP3格式音乐,
* 大量的使用这种格式的不同软件和硬件,
* 没有DRM保护技术,这使得MP3文件可以很容易地修改、复制和通过网络重新发布,
* 大多数家庭用户不知道或者不关心软件专利争端,通常这些争端与他们个人用途而选用MP3格式无关。
另外,专利持有人不愿对于开源解码器加强授权费用的征收,这也带来了许多免费MP3解码器的发展。另外,尽管他们试图阻止发布编码器的二进制代码, Thomson已经宣布使用免费MP3编码器的个人用户将不需要支付费用。这样,尽管专利费是许多公司打算使用MP3格式时需要考虑的问题,对于用户来说并没有什么影响,这就带来了这种格式的广受欢迎。
Sisvel S.p.A. [1]和它的美国子公司Audio MPEG, Inc. [2]以前曾经以侵犯MP3技术专利为由起诉Thomson[3],但是那些争端在2005年11月最终以Sisvel给Thomson MP3授权而结束
Motorola最近也与Audio MPEG签署了MP3的授权协议。由于Thomson和Sisvel都拥有他们声称编解码器必需的单独的专利,MP3专利的法律状态还不清晰。
Fraunhofer的专利将在2010年4月到期,到了那时MP3算法将不再受专利保护。
WAV
简 介
声音波形文件(WAV)
出品公司
由Microsoft公司开发的一种WAV声音文件格式,是如今电脑上最为常见的声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源,被Windows平台及其应用程序所广泛支持。
支持格式
Wave格式支持MSADPCM、CCITTALaw、CCITT μ Law和其它压缩算法,支持多种音频位数、采样频率和声道,但其缺点是文件体积较大(一分钟44kHZ、16bit Stereo的WAV文件约要占用10MB左右的硬盘空间),所以不适合长时间记录。
