
视频主要包括电视与电影。本章先了解电视技术的历史与发展,列出各种彩色电视制式,简介数字电视和高清电视的概念与现状,讲解若干常见显示技术;再介绍一些电影和数字电影的基本情况;然后讲解视频信号的数字化,重点介绍视频编码标准。
6.1 电视
电视(TV=TeleVision,远视)与动画一样也是利用人的视觉滞留原理工作的。早期是黑白电视无线广播,后来是模拟彩色电视的无线广播、卫星广播和有线电视广播,现在正处于高清晰数字电视广播的发展阶段。
6.1.1 发展与简史
●电视技术的发展
⏹系统:黑白电视→彩色电视(无线→卫星→有线)→数字电视→高清数字电视→超高清数字电视。
⏹显示:阴极射线管CRT→背投/前投→液晶LCD→等离子PDP→薄膜电视OLED/激光显示器。
⏹存储播放:录像带/机VCR→VCD→DVD→BD→在线播放/网络下载/移动存储。
●电视的发展历史
⏹1931年V.K. Zworykin发明电视显像管。
⏹1937年/1939年英国/美国开始黑白电视广播。
⏹1940年代末美国发明共用天线电视系统,后来逐步发展为有线电视。
⏹1949年美国无线电公司研制成功荫罩式彩色显像管。
⏹1952年美国提出NTSC彩色电视制式。
⏹1954年美国正式开始彩色电视广播。
⏹1958年中国开始黑白电视广播。
⏹1963年联邦德国提出PAL彩色电视制式。
⏹19年借助于点同步通信卫星实现通信与电视转播。
⏹19年美国无线电公司发现液晶光电效应,后来发展成液晶显示器LCD。
⏹1966年美国人D.L.比泽和H.G.斯洛托夫发明等离子显示器PDP
⏹1966年法国提出SECAM彩色电视制式。
⏹1970年代初中国开始彩色电视广播,采用PAL-D制式。
⏹1972年日本广播协会研究所提出模拟高清晰度电视HDTV的MUSE方案,1988年汉城奥运会采用MUSE的HDTV转播,1991年日本正式开始MUSE的HDTV广播。
⏹1974年中国开始在高层建筑中安装和使用共用天线电视系统。
⏹1979年柯达公司Rochester实验室的邓青云发明小分子 OLED (Organic Light Emitting Diode,有机发光二极管/有机电激发光显示器) 薄膜电视。
⏹1980年代中国开始在单位安装电缆电视。
⏹1993年欧洲开始制定数字电视广播DVB标准。
⏹1994年中国成立了由11个有关部委组成的数字HDTV研究开发小组。
⏹1995年美国通过ATSC数字电视标准,高清电视的分辨率为1280*720 / 1920*1080。
⏹1997年中国的CCTV进行HDTV广播试验,1999年实况转播50周年国庆。
⏹2002年5月日本NHK开始推出具有7680×4320像素的超高清电视UHDTV。
⏹2006年8月18日中国公布数字电视地面广播传输的国家标准。
6.1.2 彩色电视
●彩色电视制式
目前世界上现行的模拟彩色电视制式有三种:NTSC制、PAL制和SECAM制,参见表6-2。这里不包括模拟的高清晰度彩色电视。
⏹NTSC(National Television Systems Committee国家电视系统委员会)彩色电视制是1952年美国国家电视标准委员会定义的彩色电视广播标准,称为正交平衡调幅制,1954年开始广播。美国、加拿大等大部分西半球国家,以及日本、韩国、菲律宾等国和中国的采用这种制式。
⏹由于NTSC制存在相位敏感造成彩色失真的缺点,因此德国(当时的西德)于1962年制定了PAL(Phase-Alternative Line,相位逐行交变)制彩色电视广播标准,称为逐行倒相正交平衡调幅制,1967年开始广播。德国、英国等一些西欧国家,以及中国、朝鲜等国家采用这种制式。
⏹法国1957年起制定了SECAM (法文:Sequential Coleur Avec Memoire,顺序颜色传送与存储)彩色电视广播标准,称为顺序传送彩色与存储制,1967年开始广播。法国、俄罗斯及东欧国家采用这种制式。世界上约有65个地区和国家使用这种制式。
表6-2 彩色电视制式(宽:高 = 4:3、隔行扫描)
| 制式 | 制定 国家 | 制定/广播 时间 | (有效)扫描线数 / 帧数(场频) | 使用范围 |
| NTSC | 美国 | 1952/1954 | 525(480) / 30(60) | 美国、日本、加拿大、韩国、 |
| PAL | 西德 | 1962/1967 | 625(575) / 25(50) | 西欧(法国除外)、中国、、朝鲜 |
| SECAM | 法国 | 1957/1967 | 法国、、东欧、中东 |
(1) 必须采用与黑白电视相同的一些基本参数,如扫描方式、扫描行频、场频、帧频、同步信号、图像载频、伴音载频等等。
(2) 需要将摄像机输出的三基色信号转换成一个亮度信号,以及代表色度的两个色差信号,并将它们组合成一个彩色全电视信号进行传送。在接收端,彩色电视机将彩色全电视信号重新转换成三个基色信号,在显象管上重现发送端的彩色图像。
●电视扫描
扫描有隔行扫描(interlaced scanning)和逐行扫描(non-interlaced scanning / progressive scanning)之分。电视发展的初期,由于技术水平不高,数据传输率受到。在低数据传输率下,为了防止低扫描频率的画面所产生的闪烁感,黑白电视和彩色电视都采了用隔行扫描方式,通过牺牲扫描密度来换取扫描频率。而现在已经没有了这些,所以计算机的CRT显示器一般都采用非隔行扫描。
每秒钟扫描多少行称为行频;每秒钟扫描多少场称为场频;每秒扫描多少帧称帧频。
电视的扫描频率之所以取为50场/秒(25帧/秒)或60场/秒(30帧/秒),一个重要的原因是,受当时技术的,电视信号还不能完全避免交流电的干扰,因此才将电视的扫描场频与电源的交变频率取成一致。例如,美日交流电的频率是60Hz,所以他们的电视场频也取为60Hz(30帧/秒);而中国和欧洲的交流电频率是50Hz,所以我们的电视场频就取为50Hz(25帧/秒)。虽然现在的技术已经有了很大发展,交流电的干扰问题早就获得了解决,但是为了与传统的电视信号兼任,同时也可以避免技术上的复杂性,所以即使是最新的高清晰电视广播,仍然还是保留了这样的扫描频率。
●彩色电视国际标准
表6-4 彩白电视的国际标准(宽高比= 4:3)
| TV制式 | PAL(G I D) | NTSC(M) | SECAM(L) |
| 行/帧 | 625 | 525 | 625 |
| 帧/秒(场/秒) | 25(50) | 30(60) | 25(50) |
| 行/秒 | 15625 | 15734 | 15625 |
| 参考白光 | C白 | D6500 | D6500 |
| 声音载频(MHz) | 5.5 6.0 6.5 | 4.5 | 6.5 |
| γ | 2.8 | 2.2 | 2.8 |
| 彩色副载频(Hz) | 4433618 | 3579545 | 4250000(+U) 4406500(-V) |
| 彩色调制 | QAM | QAM | FM |
| 亮度带宽(MHz) | 5.0 5.5 | 4.2 | 6.0 |
| 色度带宽(MHz) | 1.3(Ut) 1.3(Vt) | 1.3(I) 0.6(Q) | >1.0(Ut) >1.0(Vt) |
根据光电三基色的加法原理,任何一种颜色都可以用R、G、B三个彩色分量按一定的比例混合得到。图6-2说明用彩色摄像机摄取景物时,如何把自然景物的彩色分解为R、G、B分量,以及如何重显自然景物彩色的过程。
图6-2 彩色图像重现过程
YC1C2中的Y表示亮度信号,C1和C2是两个色差信号,C1和C2的含义与具体的制式有关。在NTSC彩色电视制式中,C1和C2分别表示I和Q两个色差信号;在PAL彩色电视制式中,C1和C2分别表示U和V两个色差信号;在SECAM彩色电视制式中,C1和C2分别表示Db和Dr两个色差信号;在CCIR 601数字电视标准中,C1和C2分别表示Cb和Cr两个色差信号。所谓色差是指基色信号中的三个分量信号(即R、G、B)与亮度信号之差。
三种彩电制式的颜色坐标都是从PAL的YUV导出的,而YUV又是源于XYZ坐标。Y为亮度,可以由RGB的值确定,色度值U和V分别正比于色差B-Y和R-Y。YUV坐标与PAL制式的基色值RGB的关系为:
其中为RGB归一化的γ校正后的值,其(1, 1, 1)点对应于PAL/SECAM颜色体系中的基准白色。
NTSC的YIQ坐标中的IQ分量是UV分量旋转33度后的结果:
SECAM制式所采用的YDbDr坐标中的DbDr与YUV中的UV之间有如下关系:
Db=3.059U, Dr=-2.169V
601标准YCbCr是YUV的伸缩平移:
其中。伸缩后Y=16~235、CbCr=16~240。
在彩色电视中使用Y、C1C2颜色体系进行信号的发送和接收,有如下两个重要优点:
⏹Y和C1C2是的,因此彩色电视和黑白电视可以同时使用,Y分量可由黑白电视接收机直接使用而不需做任何进一步的处理;
⏹可以利用人的视觉特性来节省信号的带宽和功率,通过选择合适的颜色模型,可以使C1C2的带宽明显低于Y的带宽,而又不明显影响重显彩色图像的观看。这为以后电视信号的有效数字化和数据压缩提供了良好的基础。
6.1.3 数字电视
随着计算机的广泛应用,数字化成为了现代技术的潮流,广播电视的发展也不例外。
数字电视的广播节目包括标清和高清两种类型,标清数字电视的分辨率为0×480(NTSC)和768×576(PAL)、高清数字电视的分辨率为1280×720和1920×1080。
1.数字电视的优缺点
数字电视DTV(Digital TeleVision)广播的主要优点有:
⏹信号好——数字电视的信号更稳定,抗干扰能力强。
⏹频道多——由于一个PAL制式的频道可以传输8~10套压缩后的标准分辨率的DTV信号,所以电视频道数从模拟的几十套到数字的几百套。
⏹功能多——可实现联网和交互性,如浏览网页、VOD(Video-On-Demand视频点播)等。
但当前的数字电视也有若干缺点:
⏹收费高——由于前期设备和线路更新的投入太大,导致每月所收的管理费大增,但当前可免费收看节目的数目和质量并无多大改善。收费频道的比例大,而且收费标准也偏高。由于目前尚处在数字电视的发展初期,高清节目稀少、只有少量的准视频点播、其他信息服务也贫乏。且模拟电视时的按户收费,现在改为数字电视的逐机收费。
⏹需机顶盒——由于国家标准不完善,缺少与数字电视接收机配套的相关标准,必须(购买和)使用有线电视台所指定的机顶盒与智能卡才能收看数字节目,即浪费钱又增加麻烦。不过数字电视的国家配套标准近期就会出台,数字电视一体机最终将会全面代替“电视机+机顶盒”的现行电视接收模式。
2.各国停播模拟电视的时间表
许多国家的为了促进数字电视的使用,都制定了强制性的停播模拟电视的时间表,但一直遭到想保护原有投资的各大电视公司的消极抵制,进展十分缓慢,最近几年才有所改观。如:
⏹美国计划1997年试播(1998年11月已有23个城市正式开播)、2006年停播模拟广播,用9年时间完成模拟到数字广播的转换过程。因为转换过程进展缓慢,美国直到2009年6月12日才停止模拟电视的广播。
⏹日本计划2000年试播、2003年东京开播、2006年全国开播、2000年(后改为2011年7月)停播模拟广播,用十年时间完成模拟到数字广播的转换过程。
⏹中国计划1998年试播、2005年1/4数字化、2015年停止模拟电视广播,用17年时间完成有线电视从模拟到数字广播的转换过程。
6.1.4 高清电视
最开始的电视机只有9或14英寸大,5、6百条扫描线就足够清晰了,可后来电视机越做越大:18、25、39英寸,甚至42、50和63英寸(等离子电视和背投电视),但电视信号却仍然只有5、6百线,观看效果让人难以接受,迫切需要发展高清晰度电视。(其他可供比较的视频信号的扫描线数为:VHR/VCD:200多线、S-VHS:320线、Laser Disc:表6-5 HDTV与普通彩色电视的比较
420线、DVD:576线。)
| 参数 | HDTV | 普通彩色电视 |
| 扫描行数 | 1080/1152 | 525/625 |
| 图幅宽高比 | 16:9或5:3 | 4:3 |
| 最佳观看距离 | 3倍屏幕高 | 5倍屏幕高 |
| 水平视角(°) | 30(电影60) | 10 |
| 隔行比 | - | 2:1 |
| 场频(Hz) | 50 | 60/50 |
| Y带宽(MHz) | 25 | 4.2/5.5 |
| C带宽(MHz) | 6.5 | 1.3 |
| 行频(kHz) | 31.25 | 15.734/15.625 |
| Y取样频率(MHz) | 72 | 13.5 |
| C取样频率(MHz) | 36 | 6.75 |
| Y取样个数/行 | 2,304 | 858/8 |
| Y有效样数/行 | 1,920 | 720 |
| Y有效行数 | 1,152 | 480/576 |
| C有效样数/行 | 960 | 432 |
| C有效行数 | 576 | 240/288 |
| 像素纵横比 | 15:16 | 3:4/15:16 |
| 总码率(Mb/s) | 25 | 8.448 |
| 压缩比 | 26.5:1 | 20:1 |
的扫描线数是普通彩色电视的2倍,信息量(像素)增加到5倍。参见图6-3和表6-5。
1.技术方案
图6-3 HDTV与普通电视的分辨率
最早的HDTV是日本研究与实现的,但主要为模拟系统。后来美国和欧洲相继研究和制定了全数字化的HDTV方案,日本也只好随大流而改用DTV(Digital TV数字电视)。现代的HDTV都采用数字方案。
●日本ISDB
1972年日本广播协会(NHK)研究所提出MUSE(Multi Sub-Nyquist Sampling Encoding多重奈奎斯特取样编码)的HDTV(在日本叫Hi-vision)方案,1980年代开发了全套HDTV设备,1987年试验成功,1988年转播汉城奥运会,1991年开始每天8小时的正式试播。由于MUSE主要采用的是模拟方法,占用的频带宽,与全数字化的发展趋势相悖,所以于1997年3月决定改为数字系统ISDB(Integrated-Services Digital Broad- casting,集成业务数字广播)。
ISDB的主要技术特点是:
⏹信源码与系统码——视频、音频及业务数据位流复用编码,均采用MPEG-2标准。
⏹信道编码调制——地面传输时,信道内码为卷积码、外码为RS,采用OFDM调制。
●美国ATSC
⏹1983年在美国成立了一个自愿研究数字电视标准的非营利国际组织——先进电视系统委员会(ATSC = Advanced Television Systems Committee)。
⏹1987年11月美国的联邦通信委员会(FCC = Federal Communications Commission)成立管理先进电视(ATV = Advanced Television)业务的ACATS(Advisory Committee on ATV Service先进电视业务咨询委员会)。
⏹1988年9月共提出了24种ATV方案,ACATS从其中选出6种。
⏹1990年5月美国GI公司发布全数字传输制式DigiCipher(数字密码),引起轰动。
⏹1993年淘汰了两种模拟方案EDTV和MUSE,只剩下4种全数字方案。
⏹1993年5月FCC成立了由这5个方案的提出者(GI、Zenith、AT&T、Thomson、Sarnoff)参加的HDTV大联盟(GA = Grand Alliance)。
⏹1994年4/12月发表GA HDTV规范1.0/2.0。
⏹1995年4月通过ATSC数字电视标准作为美国ATV广播标准,参见网站http://www.atsc.org。
为了适应消费电子、计算机和网络的发展,ATSC(GA HDTV)中引入了互操作性和可扩展性,使得HDTV成为信息高速公路上的多媒体终端。其主要技术特点有:
⏹数字图像压缩技术——MPEG-2的子集;
⏹传输格式——与ATM兼容;
⏹扫描格式——与计算机兼容(方形像素、逐行扫描、宽高比固定);
⏹传输调制——采用8VSB方式;
⏹伴音——5.1环绕声系统(以Dollby AC-3为备有系统)。
●欧洲DVB
1983年欧洲推出新的电视制式——MAC(Multiplexed Analogue Components多元模拟成分),1986年提出HDTV的HD-MAC,并于1992年冬季奥运会上首次使用。在美国的影响下,1993年9月欧洲制定了全数字的HDTV方案——DVB(Digital Video Broadcasting数字视频广播)。它也是基于MPEG-2标准,采用Musicam环绕声和AC-3环绕声。参见网站http://www.dvb.org。1998年10月1日英国开始DVB广播。
●中国HDTV
⏹1994年中国成立了由11个有关部委组成的数字HDTV研究开发小组。
⏹1996年国家科委将HDTV列入国家重大科技产业工程项目(战略研究、八五攻关、样机研制)。
⏹1997年7/11月CCTV-长城试验成功/建成闭路电视系统。
⏹1998年9月在CCTV试播。
⏹1999年10月CCTV用HDTV实况转播50周年国庆。
⏹2006年元旦CCTV和上海文广传媒集团,同时开始高清晰度电视节目的正式广播。
⏹2006年8月30日公布数字电视地面广播的国家标准。
⏹2008年5月1日CCTV正式开始高清数字电视的地面广播。
⏹2008年8月CCTV实现北京奥运会的高清数字电视全程转播。
2.中国标准
中国的HDTV的信源编码采用的上海交通大学提出的基于MPEG-2的方案(1920×1152,5:3、兼容国际标准的1920×1080和1280×720,16:9)。积极参加研究的单位有:HDTV总体组、CCTV、清华-赛格高技术研究中心、康佳、TCL、海信、夏华-天津大学、创维-华中科技大学等。
中国的数字电视技术标准及其制定单位:
⏹信道传输技术标准:
◆卫星传输(欧洲DVB-C标准);
◆有线传输(浙江大学,采用欧洲DVB-S标准);
◆地面传输(清华大学、上海交通大学)。
⏹信源编码技术标准(AVS工作组)(采用MPEG-2标准):
◆数据与命令格式(系统);
◆视频编码;
◆音频编码。
●用户与安全管理标准(信息产业部第三所):
◆付费管理;
◆加密与解密。
2006年8月18日批准的中国数字电视(包括高清晰电视)的地面广播传输系统标准:GB20600-2006《数字电视地面广播传输系统帧结构、信道编码和调制》,是清华和上海交大的两套方案的“融合”。从技术上来说,清华大学和凌讯科技提出的“多载波方案”,上海交大和上海高清提出的“单载波方案”,属于两种各有优劣但完全不同的工作模式。清华大学方案的优势在于抗多径干扰能力较强,但成本较高,适合在地形复杂或是高楼林立的城市使用;而上海交大的方案则适合大范围的广播,在平原和农村使用。最终的国家地面数字电视标准是清华和上海交大这两套方案的拼凑,同时具备它们两个的(优)缺点,而且结构复杂、实现困难、生产成本高。其中的单载波部分主要用于没有被有线电视覆盖的城郊和广大农村地区的用户,多载波部分则主要应用于移动和网络电视等。
上海电视台已于2001年元旦开始试播数字高清晰度电视节目,北京电视台于2003年9月1日开始试播,广州电视台于2003年8月开始试播,深圳电视台也于2003年10月8日试播高清频道。2006年元旦,电视台和上海文广传媒集团,同时开始高清晰度电视节目的正式(有线)广播。
2008年元旦,电视台在北京开通地面数字电视广播服务。2008年7月1日,电视台正式开始高清数字电视的地面广播(CCTV高清频道)。2008年8月北京奥运会期间,按广电总局的部署,在北京、上海、青岛、天津、沈阳、秦皇岛、广州、深圳等“6+2”城市也开始了(高清)数字电视的地面广播。
3.AVS数字电视
AVS(Audio Video coding Standard,音视频编码标准)是中国自主制订的音视频编码标准,其视频编码部分AVS-P2已于2006年年2月22日成为国家推荐标准。AVS-P2是对H.2/AVC国际标准算法的简化和改进(并回避了大量的国外专利),AVS的压缩比是MPEG-2的2~3倍。有关AVS标准的更多内容,参见本章的6.4.3小节和第11章。
2008年7月,经国家广电总局批准,上海东方明珠广播电视塔试开播的数字电视(标清)地面广播,采用我国数字电视地面传输标准和AVS数字视音频编码标准,具有自主知识产权而且在技术上优于国外现行标准,在一个模拟电视频道上传输16套标准清晰度电视节目(而采用MPEG-2编码的数字电视为8套),解决了有线电视没有覆盖的广大郊区农村用户和城市办公楼无法收看电视的问题。
由于AVS标准的压缩比高,能够节省宝贵的无线频谱资源,同时较之数字电视现行的MPEG-2编码标准有很大的价格优势。目前AVS标准已陆续在上海、杭州、四川、山西太原、河北保定、青岛等地进入大规模商用阶段。全国第一个采用AVS标准的高清电视频道已于2008年4月在广州开播。2008年北京奥运会期间,北京大学有线电视网开通了两个AVS高清试验频道,取得了很好的试验效果。
我国自主创新的AVS视频编码高清电视将于2009年10月国庆60周年之际实现规模化示范,届时多个省市的高清频道将向千家万户直播国庆期间的重大庆祝活动。
6.1.5 超高清电视
1995年日本NHK着手开发4000线(似70mm电影)的超高清电视UHDTV (Ultra High Definition TeleVision),也叫UHDV(Ultra High Definition Video,超高清视频),统称为SUV(Super Hi-Vision,超高视),得到日本100多家公司的支持。
UHDTV具有7680×4320像素(16:9)的画面(3千3百多万像素)、每秒60帧的帧率、22.2声道的伴音(9上+10中+3下+2低音)、21GHz频带(600MHz,500~6600Mbit/s带宽),参见图6-4和5。
图6-4 UHDTV与数字电视和电影的分辨率 图6-5 UHDTV的22.2声道伴音
标清数字电视的画面的分辨率为0×480(NTSC,30多万像素)和768×576(PAL,44万多像素)、高清数字电视的分辨率为1280×720(92万多像素)和1920×1080(207万多像素),UHDTV的分辨率为7680×4320(约3, 318万像素),参见表6-6。
表6-6 数字影视技术的参数比较
| 种类 | 普通电视 | 高清电视 | 数字电影 | 超高清电视 | ||||||||||
| 型号 | NTSC | PAL | 高清 | 全高清 | 2K | 4K | 4000线 | |||||||
| 分辨率(像素) | 0×480 | 768×576 | 1280×720 | 1920×1080 | 2048×1080 | 4096×2160 | 7680×4320 | |||||||
| 像素数 | 30.72万 | 44.24万 | 92.16万 | 207.36万 | 22.12万 | 884.74万 | 3, 317.76万 | |||||||
| 帧率(帧/秒) | 30 | 25 | 24/25/30 | 30 | 30 | |||||||||
| 宽高比 | 4:3 (1.33:1) | 16:9 (1.78:1) | 256:135≈17:9 (1.90:1) | 16:9 (1.78:1) | ||||||||||
| 最佳观距 | 5倍屏高 | 3倍屏高 | 2倍屏高 | 1倍屏高 | ||||||||||
| 水平视角 | 10° | 30° | 60° | 100° | ||||||||||
| 声道数 | 1或2 | 5.1 | 5.1/6.1/7.1 | 22.2 | ||||||||||
图6-6 日本爱知世博会上的UHDTV展示
2005年11月NHK采用光纤网络进行了UHDTV的实况转播。2006年4月NHK的STRL和NTT集团公布了可通过IP网络传输的UHDTV影像系统,并于2006年12月31日进行了UHDTV的IP实况转播。2008年8月19日,在荷兰首都阿姆斯特丹举行的IBC 2008上,日本的NHK与意大利的RAI及英国的BBC等合作,首次实现了UHDTV的(从伦敦到阿姆斯特丹)公开现场直播。NHK计划于2009年将UHDTV付诸商用。并计划与英国广播公司(BBC)合作,在2012年的伦敦奥运会上,采用UHDTV技术进行现场转播。NHK还计划将来推出8000线的UHDTV。
6.1.6 电视显示技术
与计算机的显示器一样,传统的电视机采用的是阴极射线管(CRT)技术。但是,由于其体积大、耗电量大、且存在电子辐射,现在已濒临淘汰。目前的主流电视显示技术是液晶(LCD)和等离子(PDP)等所谓平板电视,其中LCD也是计算机显示器的主流技术。未来最有前途的显示技术则是有机发光二极管(OLED)。
其他显示技术还有很多,如DLP(Digital Light Processing,数字光处理)、LED(Light Emitting Diode,发光二极管)、LCOS(Liquid Crystal On Silicon,硅上液晶)、LTV(Laser TV,激光电视)、FED(field emission display,场发射显示器)和SED (surface-conduction electron-emitter display,表面传导电子发射显示器)等等。
限于篇幅,下面只简介CRT、PDP、LCD和OLED这四种主要显示技术的起源、原理和特点等。
1.CRT
CRT(Cathode ray tube,阴极射线管)俗称显像管。它是利用阴极电子发射电子,在阳极高压的作用下射向萤光屏,使萤光粉发光。同时电子束在偏转磁场的作用下,作上下左右的移动来达到扫描整个屏幕的目的。参见图6-7。
图6-7 CRT的构造
其中:①电子、②电子束、③聚焦线圈、④偏转线圈、⑤阳极连线、
⑥光栅遮罩、⑦磷光涂层、⑧涂有磷光粉的屏幕内侧近视图
早期的CRT技术仅能显示光线的强弱,展现黑白画面。而彩色CRT具有红、绿、蓝三色电子,三支电子同时发射电子打在萤幕玻璃上的三种(色)磷化物上来显示颜色。
阴极射线管最早是由英国物理学家William Crookes(克鲁克斯)等于1875年发明的,所以也叫克鲁克斯管(Crookes tube)。德国物理学家Karl Ferdinand Braun(布劳恩,曾获1909年诺贝尔物理学奖)于17、美籍瑞典电子工程师John B. Johnson(约翰逊)等于1922年,分别对其进行了改进。
虽然CRT画面质量好(颜色鲜艳、对比度大、动态性好)、技术成熟、且价格便宜,但是由于它笨重、耗电,所以在许多领图6-8 等离子显示板的组成
域正在被轻巧、省电的液晶显示器所取代。
2.PDP
PDP(Plasma Display Panel,等离子显示板)是一种平面显示器,光线由两块玻璃之间的离子射向磷质而发出。其发光原理是,在真空玻璃管中注入惰性气体,利用加电压方式,使气体产生等离子效应,利用离子化惰性气体放电所产生紫外线,去个别激发RGB三种不同的萤光体,而产生不同的RGB三原色的可见光,并利用激发时间的长短来控制亮度。 由于它是每个个别的发光体在同一时间(一帧的时间约1/30~1/60秒)一次点亮的,所以显示画面特别清晰鲜明。参见图6-8。
等离子显示板是1966年由美国伊利诺大学(University of Illinois at Urbana- Champaign)的两位教授Donald L. Bitzer和H. Gene Slottow及其研究生Robert Willson共同发明的,原本只可显示单色(通常是橙、绿或黄色)。1983年IBM引入了一款19英寸(48厘米)的橙色等离子显示器(1987年IBM将生产该显示器的工厂转让给了由Bitzer的学生Larry F. Weber等人新成立的Plasmaco公司,该公司又于1997年被日本松下公司购买)、1992年日本富士通公司推出了全球首个21英寸(53厘米)全彩色等离子显示器、1997年富士通有推出了首个42英寸(107厘米)的宽屏(16:9)等离子显示板(分辨率为852×480,逐行扫描)、1997年日本先锋公司开始公开销售等离子电视机。
等离子显示器的亮度大(1000 lm/m2以上)、对比度高、可显颜色丰富、可产生全黑效果、电磁辐射少(只有CRT的1/100~1/1000)、可视角度大,可造大屏(可达150英寸/380厘米以上),特别适用于家庭影院。等离子显示屏的厚度只有6厘米,连同其他电路板,厚度亦只有10厘米。等离子显示器的使用寿命约6万小时(27年,每天6小时),它的亮度会随使用的时间而衰退。等离子显示板的缺点是耗电量大、生热高(散热困难)、长时间显示静止画面后再切换画面时易生残影、不能生产小尺寸屏幕、比液晶屏贵等。
3.LCD
LCD (Liquid Crystal Display,液晶显示器) 是一种平面超薄的显示设备,它由一定数量的彩色或黑白图元(像素)组成,放置于光源或者反射面前方。每个图元由以下几个部分构成:悬浮于两个透明电极(氧化铟锡ITO)间的一列液晶分子层,两边外侧有两个偏振方向互相垂直的偏振过滤片,如果没有电极间的液晶,光通过其中一个过滤片势必被另一个阻挡,通过一个过滤片的光线偏振方向被液晶旋转,从而能够通过另一个。参见图6-9。
目前主流的LCD为TFT-LCD (Thin-Film Transistor LCD,薄膜晶体管液晶显示器),它使用薄膜晶体管技术改善影象品质,晶体管被做在面板里,这样可以减少各像素间的互相干扰并增加画面稳定度。它被广泛应用在平板电视、平面显示器及投影机上。新的AMOLED (主动阵列OLED) 屏幕也内建了TFT层。
图6-9 LCD的构造
①垂直偏振滤光膜、②具有(打开时显示的形状)ITO电极的玻璃基片、③扭曲向列型液晶、④具有公共电极膜(ITO)和水平脊过滤器的玻璃基、⑤具有阻挡/通过水平轴光的偏振过滤膜、⑥返光给观察者的反射表面(在背光LCD中,该层被光源替代)
第一台可操作的LCD基于DSM(Dynamic Scattering Mode,动态散射模式),由美国RCA公司的George H. Heilmeier(海尔曼)带领的小组于19年开发。海尔曼创建了奥普泰公司并开发了一系列基于这种技术的的LCD。1970年12月,液晶的旋转向列场效应在瑞士被Martin Schadt和Wolfgang Helfrich所在的Hoffmann-La Roche实验室注册为专利。1969年,James Fergason在美国俄亥俄州肯特州立大学也发现了液晶的旋转向列场效应,并于1971年2月在美国注册了相同的专利。1971年他的公司(ILIXCO)生产了第一台基于这种特性的LCD,很快取代了性能较差的DSM型LCD。1973年日本的夏普公司首次将它运用于制作电子计算器的数位显示。2003年美国的John Wager发表了使用氧化锌材料制作透明TFT-LCD的方法。
传统的TFT-LCD一般采用CCFL(Cold Cathode Fluorescent Lamp,冷阴极荧光灯)作为背光源,存在机体厚、耗电量大、显示效果差(色彩不鲜艳、对比度小、亮度不均匀、漏光等、响应时间长)、使用寿命短、含有水银等缺点。2004年(由日本Sony公司率先)推出的采用LED背光的LCD一举解决了所有这些问题,是LCD的发展方向。
2007年第4季度LCD的世界销售量首次超过CRT,2008年LCD电视占50%以上的市场份额成为主流。现在,LCD是计算机的主要显示设备,也是平板电视的主流技术。
4.OLED
图6-10 双层OLED示意图
①阴极(-)、②发射层、③光发射、
④传导层、⑤阳极(+)
OLED(Organic Light-Emitting Diode,有机发光二极管)是一种前途无量的新型薄膜显示技术。其基本结构是由一薄而透明具半导体特性之铟锡氧化物(ITO),与电的正极相连,再加上另一个金属阴极,包成如三明治的结构。整个结构层中包括了:电荷传输层、发光层(发射层)和传导层,参见图6-10。当施以适当电压时,正电荷与负电荷就会在发光层中结合,产生光亮,依其配方不同产生红、绿和蓝(RGB)三原色,构成基本色彩。
OLED 现象最初是Kodak 柯达公司 Rochester实验室的邓青云(Ching W Tang)于1979年意外中发现的。1987年,同属柯达公司的汪根样和同事Steven Van Slyke成功地使用类似半导体PN结的双层有机结构第一次作出了低电压、高效率的光发射器,为Kodak生产OLED显示器奠定了基础。
1987年英国剑桥大学博士生Jeremy Burroughes证明大分子的聚合物也有场致发光效应,到了1990年,英国剑桥的实验室也成功研制出高分子有机发光原件,1992年康桥成立的显示技术公司CDT(Cambridge Display Technology),这项发现使得OLED的研究走向了一条与柯达的小分子OLED完全不同的研发之路。
OLED具有自发光性、广视角、高对比、低耗电、高反应速率、全彩化、制程简单、生产成本低等优点。OLED的特色在于其核心可以做得很薄(厚度可小于1毫米),加上OLED为全固态组件,抗震性好,能适应恶劣环境。OLED主要是自体发光的让其几乎没有视角问题,与LCD技术 相比,即使在大的角度观看,显示画面依然清晰可见。OLED的元件为自发光且是依靠电压来调整,反应速度要比液晶元件来得快许多,比较适合当作高画质电视使用,2007年底SONY推出的11英寸OLED电视的反应速度就比LCD快了1000倍。参见图6-11~13。
图6-13 Sony于2007年12月上市的11英寸OLED电视机
图6-11 三星于2005年5月19日推出的40英寸OLED原型机
图6-12 Sony于2008年10月初展出的11英寸0.9mm厚超薄OLED无线电视机
6.2 电影
电影(movie/film)和电视与动画一样,也是利用人的视觉滞留原理工作的。电影是一种综合艺术,用强灯光把拍摄的图象连续放映在银幕上,看起来像实在活动的影象。
本节先介绍传统的模拟电影的基本情况,再给出现代数字电影的发展与标准等。
6.2.1 模拟电影
传统电影都是模拟电影,经历了默片到有声、黑白到彩色、普通银幕到宽银幕等发展过程。还出现了立体电影、超大银幕电影、动感球幕电影和环幕电影等特殊电影类型。
1.电影原理与技术
1)视觉滞留
1829年,比利时著名的物理学家约瑟夫·普拉托发现了“视觉滞留”的原理。然而,到了20世纪60年代,人们发现,将银幕上实际是跳跃且不连贯的图像看成一个统一且完整的连续动作,真正起作用的不是“视觉滞留”,而是“心理认可”。
2)摄影术
1839年,法国人达盖尔发明了“达盖尔照相法”。1878年爱德华·幕布里奇成功运用多架照相机给一匹正在奔跑的马进行连续拍摄,并获得了“拍摄活动物体的方法及装置”的专利权。1882年,法国人马莱利用左轮手的间歇原理,研制了一种可以进行连续拍摄的“摄影”。此后他又发明了“软片式连续摄影机”。终于以一架摄影机开始取代了幕布里奇用一组照相机拍摄活动物体的方法。美国的托马斯·爱迪生和他的机械师狄克为了使胶片在摄影机中以同样间隔进行移动,而发明了在胶片两边打上孔洞的牵引方法,解决了机械传动的技术问题。“活动照相”的“摄影术”得以完成。
3)放映术
1888年,法国人爱米尔·雷诺发明了“光学影戏机”,人们开始可以幕布上看到几分钟的活动影戏,比如“可怜的比埃”。11年5月,美国发明家Thomas Alva Edison(爱迪生)及其员工William Kennedy Laurie Dickson(狄克)发明活动电影放映机(kinetoscope)。15 年卢米埃兄弟向大众展现火车进站的画面时,观众被几乎是活生生的影像吓得惊惶四散。从此,由他们所启动的活动摄影(cinematogrphy)不只在人类纪实工具的发展史上展现了划时代的意义,火车进站的镜头也象征了电影技术的出现。
2.彩色与宽银幕电影
1)彩色电影
1915年,Herbert T. Kalmus建立了特艺色(technicolor,彩色印片/染印法彩色)公司,先后提供了独特的双色处理技术和“三色染印法”,需要用特殊的摄影机分别在三卷影片上同步拍摄图像——分别记录蓝、红、绿色——之后再结合到一卷胶片上以得到更自然的颜色。由于该技术所需设备笨重(摄影机重达500磅),成本极高,只拍摄了几部电影:动画片“花与树”(1932)和“白雪公主”(1937)、故事片“Becky Sharp”(1935)“乱世佳人”(1939)。
1950年代初,柯达公司的单带伊斯曼彩色(Eastman color)胶片处理技术,将三层染色集中在一卷胶片上(还用安全的醋酸片基取代了易燃的片基),结束了特艺色在色彩处理方面的垄断,伊斯曼彩色胶片迅速在全世界得到了广泛的应用。
2)宽银幕电影
早期电影都是普通(标准/窄)银幕电影,电影画面的长宽比是4:3(1.33:1),因为它符合黄金分割比例。
1953年出现了变形画面宽银幕(anamorphic scope)电影,拍摄时附加的摄影物镜将被摄影像进行横向压缩,压缩比为2:1,放映时用变形放映物镜将被压缩的影像复原,这样就能在35毫米胶片上拍摄比普通影片画幅宽1倍的景物。一般变形宽银幕电影的银幕宽高比为2.35:1。变形画面宽银幕的典型代表是20世纪福克斯公司的CinemaScope。
1953年还出现了遮幅宽银幕电影(soft matted flat widescreen,遮幅电影),它是一种非变形宽银幕系统,使用标准35毫米摄影机和常规光学系统进行拍摄,只在摄影机片窗前安装一个一定画幅比例的窗框,以减小画面高度,而不改变宽度。放映时在放映机上加一个与摄影画面宽高比相同的放映片窗,用短焦距放映物镜放映,以扩大银幕上的画面,从而获得宽银幕效果。遮幅宽银幕系统画幅宽高比通常为1.66:1(派拉蒙电影公司)或1.85:1(环球影业公司),其后者被称为学院宽银幕(academy flat)。遮幅宽银幕电影的缺点是胶片有效利用率低、银幕画面清晰度有所降低。但因其制作方便,经济实用,故被广泛采用。
1957年出现了70毫米胶片的Panavision(宽银幕)格式,画幅宽高比为 2.2:1,面积是35毫米遮幅影片画幅面积的4倍以上。因此,放映时放大倍率低,画面质量好,而且都采用立体还音,能给观众较强的临场感。这种电影的代表是1958年推出的美国Todd-AO(American Optical)系统,该系统的特点是用65毫米底片进行拍摄,印片时印到70毫米的正片上。近年来由于彩色胶片的清晰度和颗粒度都大有改善,镜头性能有所提高,用35毫米胶片拍摄原底,通过变形光学系统印片而获得70毫米拷贝的方法也得到应用。Panavision逐渐成为了市场主流,并把CinameScope赶出了舞台。
目前主流的电影格式是35mm的遮幅宽银幕电影和70mm的Panavision宽银幕电影。
3.电影伴音
●有声电影(sound film)
最初(11/15年起)的电影都是无声电影(Silent film,默片),1920年代初出现伴音电影(list of sheet music),1923年4月在纽约放映首部商业有声电影短片、1927年10月发行首篇有声电影爵士歌手(The Jazz Singer)。
●立体声电影(stereo film)
初期的有声电影采用的都是单声道,1937年出现了首部(双声道)立体声(stereo)电影(环球影业公司的音乐喜剧片“一百个男人与一个姑娘”),所用的立体声技术由美国的贝尔实验室与电气研究产品公司共同开发,左右两个声道被混录在一个声轨(soundtrack)中。1938年出现了标准的4声轨电影:1个对话轨、2个音乐轨和1个声效轨。
●环绕声电影(surround sound film)
1940年11月13日美国迪斯尼公司公映的动画片“幻想曲(Fantasia)”采用了左、中、右三个声道;1953年4月25日美国华纳兄弟影业公司推出的立体电影“蜡像馆(House of Wax)”,首次采用了LCRS环绕声:在左、中、右三个前声道之外,另加上一个后环绕声道。
早期的有声电影采用的都是经济实用的光学声轨,信噪比和频响都不高。1950年代出现了音质更好的磁性电影声轨。1953年发明的CinemaScope变形宽银幕电影,采用的就是四声道(LCRS)的磁轨技术。而1958年推出的70毫米普通宽银幕电影系统Todd-AO,采用的则是6声道(在四声道基础上增加了中左CL和中右CR两个声道)的磁轨技术。但是磁轨发行成本高,且不够耐磨,主要用于拷贝的首轮放映。
1976年美国杜比公司研制了将LCRS四声道记录于Lt和Rt两个光轨中的杜比光学立体声系统,采用此系统的首部电影是1977年5月首映的20世纪福克斯公司的“星球大战(Star Wars)”。1980年代末,杜比公司又将其SR降噪技术应用于此系统,信噪比可达60分贝。杜比的模拟光学立体声系统在电影行业中的到了广泛应用。
1992年杜比公司推出了支持5.1声道(L、C、R、SL、SR、LEF)环绕立体声的数字音频系统——Dolby Digital(杜比数字),也叫AC-3,参见图6-14。1992年6月上映的美国华纳兄弟影业公司的“蝙蝠侠归来(Batman Returns)”,是首部使用该技术的电影。2003年1月杜比公司又推出了6.1声道的Dolby Digital Surround EX(杜比数字环绕声扩展)技术,添加了后中(SC)声道(被编入原左右环绕声声道中),参见图6-15。
图6-14 Dolby Digital 5.1声道影院系统 图6-15 Dolby Digital Surround EX 6.1声道影院系统
1993年美国的DTS公司推出了一种新的5.1声道环绕声技术——DTS(Digital Theater System,数字影院系统),采用该技术的电影,将伴音信号记录在CD-ROM上,而胶片只记录用于同步控制的时间信息。放映时,用电影放映机和一台专用CD-ROM放音机一起同步播放。首部使用DTS格式的电影,是1993年6月11日美国环球影业公司推出的“侏罗纪公园(Jurassic Park)”。由于DTS的音质明显优于用胶片记录伴音的传统电影,在电影和DVD中都得到了广泛应用。与杜比类似,DTS后来也推出了6.1声道的DTS-ES (DTS Extended Surround,DTS扩展环绕声)。
1993年日本Sony公司与美国Semetex公司联合开发了一种7.1声道的电影音响系统——SDDS(Sony Dynamic Digital Sound,索尼动态数字声音),参见图6-16。首部使用SDDS格式的电影,是1993年6月17日美国哥伦比亚电影公司(Columbia Pictures)推出的“最后的动作英雄(Last Action Hero)”。
图6-16 SDDS 7.1声道影院系统 图6-17 电影声轨
数字环绕声技术在电影行业取得了巨大成功,模拟电影一般会将多种数字伴音格式连同模拟声轨同时放在同一个拷贝胶片上,具体位置为:SDDS位于胶片的左边缘、杜比数字位于左齿孔之间、模拟声轨位于左齿孔的右边、DTS的时间信息则紧贴着画面格的左边,参见图6-17。
4.特种电影
除了在普通电影院放映的彩色宽银幕电影外,还有许多其他种类的电影。其中常见的有:
●超大银幕电影(IMAX = Image MAXimum,最大影像):采用22米宽×16.1米高~31.6米宽×23米高(七层楼高)或更大的超大银幕(长宽比1.375:1,同窄银幕有声电影)和70毫米(每秒24帧)的电影放映技术。其胶片(垂直排列的)影像尺寸为69.6mm×48.5mm,是传统的(水平排列的)70mm电影面积的三倍多,具有画面稳定、清晰、色彩还原好等特点。银幕上景物真实而恢宏的场面,给人以美的欣赏与动的感受。IMAX由加拿大IMAX公司的Graeme Ferguson、Roman Kroitor和Robert Kerr等人于1967年发明,1973年又推出半球形银幕的IMAX电影——全天域电影(IMax Dome,IMax圆屋顶)。
●立体电影(3D film / stereoscopic film):是一种利用人双眼的视角差和会聚功能制作的可产生立体效果的电影。观众戴上特制的偏光眼镜观看偏光型立体电影,就会感到银幕上的一切景物和大自然一样,存在着远近前后不同距离。立体电影是用两个镜头(如人眼那样)从两个不同方向同时拍摄下景物的像制成电影胶片。在放映时,通过(装有偏振化方向互相垂直的偏振片)两个放映机,把用两个摄影机拍下的两组胶片同步放映,使这略有差别的两幅图像重叠在银幕上。这两束偏振光投射到(金属)银幕上再反射到观众处,偏振光方向不改变。观看时观众戴上偏振轴互为90°、并与放映画面的偏振光相应的偏光眼镜,即可把双影分开获得立体效果(计算机的立体显示器采用的也是相同的原理)。立体(彩色)电影于1922年(1952年)推出。
●动感球幕电影:采用70毫米放映设备,半球形银幕趱直径达18米,观众观看电影时,整个画面布满球体,看不见银幕边缘。透射型的金属银幕,六声道的立体声效果,使观众享受变化万千,栩栩如生的万千气象。影厅内的动感平台,是集液压、电器自动化控制、计算机动画为一体的高科技系统工程,当您坐在平台载体上,整个载体能上下升降,左右倾斜,前后俯仰,即可摸拟航天器去邀游太空,也可摸拟潜水器,饱览海底世界的奇特景象,随着逼真的画面和平台载体的活动,让人不由自主的进入角色,造成十分真实和惊险刺激的特殊感受。
●环幕电影:环幕电影也称360度圆周电影,厅内呈圆形周边是由九块银幕组成一个环形银幕,由九台放映机同时放映,观众观摩时,站在圆周中心位置,前瞻后瞩,左顾右盼,目不暇接,画面景象壮观,气势磅礴,加上多声道立体声效果,一种身临其境的强烈感觉,将呈现在您的面前。
除去上面这些,还有水幕电影和全息电影等等,由于篇幅有限,这里就不再一一介绍了。
6.2.2 数字电影
数字电影(digital cinema)的拍摄、制作、存储和放映都采用了全数字技术,实现了无胶片发行和放映。影片的质量稳定,不会出现磨损和老化现象。数字电影是未来电影技术的发展方向。
1.概述
数字电影(digital cinema),是指以数字技术和设备进行摄制、制作、存储,并通过卫星、光纤、磁盘、光盘等物理媒体传送,将数字信号还原成符合电影技术标准的影像与声音,放映在银幕上的影视作品。
首部数字电影技术的展示,是1998年3月19日日本JVC公司在伦敦放映的流行电影片段集,它采用远程服务器和光线传输。首部数字电影则是由(美)Stefan Avalos和Lance Weiler制作的,于1998年10月23日上映的恐怖片“最后的广播(The Last Broadcast)”。首部高档高预算的数字电影,是2002年5月16日上映的由20世纪福克斯公司制作的“星球大战II:克隆人的进攻(Star Wars Episode II: Attack of the Clones)”,采用的是4K DCI格式。
数字电影实现了无胶片发行、放映,解决了长期以来胶片制作、发行成本偏高的问题。相比传统的胶片电影,数字电影的优势主要体现在:节约了电影制作费用,革新了制作方式,提高了制作水准。通过高清摄像技术,实现了与高清时代的接轨;数字介质存储,永远保持质量稳定,不会出现任何磨损、老化等现象,更不会出现抖动和闪烁;传送发行不需要洗映胶片,发行成本大大降低,传输过程中不会出现质量损失;而如果使用了卫星同步技术,还可附加如直播重大文体活动、远程教育培训等等,这一点是胶片电影所无法企及的。
2.标准
SMPTE(The Society of Motion Picture and Television Engineers,电影与电视工程师协会)于2001年开始与ISO合作,研究数字电影——电子电影系统E-Cinema(Electronic Cinema Systems),并于2008年7月9日和8月20日推出了若干相关标准:
●ISO 228 数字电影(D-电影)发行控制(Digital cinema (D-cinema) distribution master),包括3个部分——第1部分:图像特性(Part 1: Image characteristics)、第2部分:音频特性(Part 2: Audio characteristics)和第3部分:音频通道映射与通道标签(Part 3: Audio channel mapping and channel labeling)。
●ISO 229 数字电影(D-电影)封装(Digital cinema (D-cinema) packaging),已经公布为标准的有4个部分——第3部分:声音和画面轨迹文件(Part 3: Sound and picture track file)、第4部分:MXF JPEG 2000应用(Part 4: MXF JPEG 2000 application)、第6部分:MXF轨迹文件(Part 6: MXF track file essence encryption)和合成节目表(Part 7: Composition playlist),正在制定标准的有3个部分——第8部分:包装单(Part 8: Packing list)、第9部分:资产映射与文件分割(Part 9: Asset mapping and file segmentation)和第10部分:立体图片轨迹文件(Part 10: Stereoscopic picture track file)。
●ISO 230 数字电影(D-电影)操作(Digital cinema (D-cinema) operations),已经公布为标准的有前3个部分——第1部分:密钥分发消息(Part 1: Key delivery message)、第2部分:数字证书(Part 2: Digital certificate)和第3部分:普通附加剧院消息格式(Part 3: Generic extra-theater message format),正在制定的标准的有4个部分——第4部分:日志记录格式规范(Part 4: Log record format specification)、第5部分:安全日志事件等级与约束(Part 5: Packaging -- Security log event class and constraints)、第6部分:影院内部通信的观众安全消息(Part 6: Auditorium security messages for intra-theater communications)和第9部分:密钥分发束(Part 9: Key delivery bundle)。
●ISO 231 数字电影(D-电影)质量(Digital cinema (D-cinema) quality),目前公布标准的只有第1部分:银幕亮度级别、色度和一致性(Part 1: Screen luminance level, chromaticity and uniformity),正在制定标准的只有第2部分:参考放映机与环境(Part 2: Reference projector and environment)。
●ISO 232 数字源处理(Digital source processing),目前只有公布标准的第2部分:数字电影(D-电影)低频效果(LFE)声道的音频特性(Part 2: Digital cinema (D-cinema) low frequency effects (LFE) channel audio characteristics)。
2005年7月20日DCI发布了数字电影系统的DCI规范1.0版、2007年4月12日又发布了1.1版、当前最新版是2008年3月7日发布的1.2版。
2002年8月7日,中国的国家广电总局也印发《数字电影管理暂行规定》和《数字电影技术要求(暂行)》的通知。
3.DCI规范
DCI(Digital Cinema Initiatives,数字电影倡导)是2002年3月由好莱坞的七大制片商(Metro-Goldwyn-Mayer米高梅、Paramount Pictures派拉蒙影业、Sony Pictures Entertainment索尼电影娱乐、20th Century Fox二十世纪福克斯、Universal Studios环球影业、The Walt Disney Company华特迪士尼公司和Warner Bros. Pictures华纳兄弟影业)联合成立的一个数字电影组织,负责建立数字电影系统的标准架构。它于2005年7月20日发布了数字电影系统规范(Digital Cinema System Specification)(简称为DCI规范)的1.0版、2007年4月12日又发布了1.1版、当前最新版是2008年3月7日发布的1.2版。下面简单介绍DCI规范的技术参数、编码方法和系统结构。
在DCI规范中,数字电影采用的画面分辨率为(2K)2048×1080(每秒24帧或48帧)或(4K)4096×2160(每秒24帧)、长宽比为1.9:1、3×12位/像素、XYZ颜色空间,采用5或6级小波分解的JPEG 2000编码。音频使用无压缩的PCM:48 kHz或96 kHz采样、24位量化,最多可达16声道。
每秒24帧的未压缩2K和4K DCI格式数字电影的码率分别为1.911和7.4 Gb/s,而标准规定压缩后的最高码率为250 Mb/s,所以最低压缩比分别为(1.911/0.25=)7.4和(7.4/0.25=)30.576。因此,DCI规范采用了基于离散小波变换的JPEG 2000帧内编码,该算法为国际标准(ISO/IEC 15444-1:2004及其Amd 1:2006)、没有JPEG和MPEG-2的分块效应、具有同时支持2K/4K分辨率的可伸缩性、比H.2/AVC的算法简单且(JPEG 2000标准的第1部分——核心编码系统)免收专利费、没采用帧间编码可避免误差的积累与传播。
图6-18展示的是数字电影的详细系统结构,包括了数字电影的拍摄/获取、制作、存储和放映的全过程及所用的技术。
图6-18 数字电影的系统结构
DI = Digital Intermediate数字中间片、DCP = Digital Cinema Package数字电影数据包、
DCDM = Digital Cinema Distribution Master数字电影发行母板
6.3 视频及其数字化
视频是电视信号的可视部分(另一部分是伴音),为了进行数字电视广播和视频信号处理与利用,必须先将视频信号数字化。
本节先给出视频的基本概念、视频卡与视频处理,再介绍模拟视频信号数字化的具体方法和标准。
6.3.1 视频
本小节先给出视频的基本概念,然后简单介绍视频处理的最基本内容。
●概念
电视指电视广播,包括电视节目的制作、传输和收看。人们所收看的电视内容,实际上包括视频和音频两个部分。这里的视频是指电视画面的图像信息,而不包含电视中伴音。
多媒体所说的视频主要指电视画面的系列图像信息。
●视频信息处理
视频信息处理:采集编辑应用
⏹采集
D/A (压缩)
视频信息——>数字视频信号——>数据存盘
视频捕获卡
⏹编辑
常见的播放和编辑软件有:
◆Microsoft的Video for Windows(AVI播放)、Windows Media Player播放器(AVI/ASF播放)、Windows Media Audio/Video(ASF编码器)
◆Apple的QuikTime(MOV播放/编辑)
◆RealNetwork的RealPlayer(RM播放)、RealProductor(RM生成)
◆Ulead的VideoStudio(业余级)
◆Adobe的Premiere(准专业级)/ After Effects(专业级)
◆Asymetrix的DVP(Digital Video Producter)
⏹应用
视频播放:
◆全屏实时模拟信号源播放
◆全屏数字化视频信号播放
◆窗口数字化视频信号播放
6.3.2 视频信号的数字化
与模拟视频相比,数字视频的优点很多。例如,可直接进行随机存储和检索、复制和传输后不会造成质量下降、很容易进行非线性电视编辑、能够进行数据压缩等等。数字视频是现代(高清晰)数字电视广播、家庭影院(VCD/DVD/EVD/BD/HD-DVD等)和网络流媒体等的基础。
在第3章中已经讲过,通过采样和量化可以将音频信号数字化。类似地,也可以通过采样和量化的方法来将视频信号数字化。不过电视信号在空间上是二维的,而且有三个颜色分量YC1C2。因此,除了时间帧(图像)的采样外,还需要进行帧图像的空间点(像素)采样。而对每个像素点的量化,又涉及到三个颜色分量。所以,视频数字化常用“分量数字化”这个术语,它表示对彩色空间的每一个分量进行数字化。
●数字化的方法
视频数字化常用的方法有两种:
(1) 先从复合彩色视频中分离出彩色分量,然后数字化。通常的做法是首先把模拟的全彩色电视信号分离成YC1C2或RGB彩色空间中的分量信号,然后用三个A/D转换器分别对它们数字化。
(2) 首先用一个高速A/D转换器对彩色全电视信号进行数字化,然后在数字域中进行分离,以获得所希望的YC1C2或RGB分量数据。
●数字化标准
1982年CCIR(International Radio Consultative Committee国际无线电咨询委员会)制定了彩色视频数字化标准,称为CCIR 601标准,现改为ITU-R BT.601标准(601-4:1994.7. / 601-5:1995.10)。该标准规定了彩色视频转换成数字图像时使用的采样频率,RGB和YCbCr两个彩色空间之间的转换关系等。
其中的ITU = International Telecommunication Union(联合国)国际电信联盟,R = Radiocommunication Sector无线电部,BT = Broadcasting service (television)广播服务(电视)。
●彩色空间之间的转换
用8位二进制数表示BT.601的Y'CbCr和R'G'B'的各个颜色分量,而R'G'B'颜色空间使用相同数值范围[0, 219]的分量信号。R'G'B'和Y'CbCr两个彩色空间之间的转换关系,用下式表示:
Y' = 0.299R' + 0.587G' + 0.114B' + 16
Cb = (-0.1687R' - 0.3313G' + 0.500B') + 128
Cr = (0.500R' - 0.4187G' - 0.0813B') + 128
●采样频率
BT.601为NTSC制、PAL制和SECAM制规定了共同的视频采样频率。这个采样频率也用于远程图像通信网络中的视频信号采样。
对PAL制、SECAM制,采样频率fs为
fs = 625×25×N = 15625×N = 13.5 MHz, N = 8
其中,N为每一扫描行上的采样数目。
对NTSC制,采样频率fs为
fs = 525×29.97×N = 15734×N = 13.5 MHz, N = 858
图6-19 ITU-R BT.601的亮度采样结构
其中,N也为每一扫描行上的采样数目。
●有效显示分辨率
对PAL制和SECAM制的亮度信号,每一条扫描行采样8个样本;对NTSC制的亮度信号,每一条扫描行采样858个样本。对所有的制式,每一扫描行的有效样本数均为720 (= 8 – 144 = 858 - 138)个。每一扫描行的采样结构如图6-19所示。
●ITU-R BT.601标准
BT.601用于对隔行扫描视频进行数字化,对NTSC和PAL制彩色电视的采样频率和有效显示分辨率都作了规定。BT.601推荐使用4∶2∶2的彩色视频采样格式。使用这种采样格式时,Y用13.5 MHz的采样频率,Cb和Cr用6.75 MHz的采样频率。采样时,采样频率信号要与场同步和行同步信号同步。
表6-7给出了ITU-R BT.601推荐的采样格式、编码参数和采样频率。
表6-7 彩色电视数字化参数摘要
| 采样格式 | 信号形式 | 采样频率 (MHz) | 样本数/扫描行 | 数字信号取值范围(A/D) | |
| NTSC | PAL | ||||
| 4:2:2 | Y | 13.5 | 858(720) | 8(720) | 220级(16 ~235) |
| Cb | 6.75 | 429(360) | 432(360) | 225级(16 ~240) (128 ± 112) | |
| Cr | 6.75 | 429(360) | 432(360) | ||
| 4:4:4 | Y | 13.5 | 858(720) | 8(720) | 220级(16 ~235) |
| Cb | 13.5 | 858(720) | 8(720) | 225级(16 ~240) (128 ± 112) | |
| Cr | 13.5 | 858(720) | 8(720) | ||
为了既可用625行的视频又可用525行的视频,BT.601规定了CIF(Common Intermediate Format公用中分辨率格式)、QCIF(Quarter-CIF,1/4公用中分辨率格式)和SQCIF(Sub-Quarter Common Intermediate Format,子1/4公用中分辨率格式)格式,具体规格如表6-8所示。
表6-8 CIF、QCIF和SQCIF图像格式参数
格式
| 参数 | CIF | QCIF | SQCIF | |||
| 行数/帧 | 像素/行 | 行数/帧 | 像素/行 | 行数/帧 | 像素/行 | |
| 亮度(Y) | 288 | 360(352) | 144 | 180(176) | 96 | 128 |
| 色度(Cb) | 144 | 180(176) | 72 | 90(88) | 48 | |
| 色度(Cr) | 144 | 180(176) | 72 | 90(88) | 48 | |
⏹视频的空间分辨率为家用录像系统(Video Home System,VHS)的分辨率,即352×288;
⏹使用逐行扫描(non-interlaced scan);
⏹使用NTSC帧速率,视频的最大帧速率为30 000/1001≈29.97幅/秒;
⏹使用1/2的PAL水平分辨率,即288线;
⏹对亮度和两个色差信号(Y、Cb和Cr)分量分别进行编码,它们的取值范围同ITU-R BT.601。即黑色=16,白色=235,色差的最大值等于240,最小值等于16。
●图像子采样
图像子采样(subsampling)是指对图像的色差信号使用的采样频率比对亮度信号使用的采样频率低,可以达到压缩彩色电视信号的目的。它利用了人视觉系统的如下两个特性:
⏹人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;
⏹人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。
试验表明,使用子采样格式后,人的视觉系统对采样前后显示的图像质量没有感到有明显差别。目前使用的子采样格式有如下几种:
⏹4:4:4 这种采样格式不是子采样格式,它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本,这就相当于每个像素用3个样本表示。
⏹4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本,平均每个像素用2个样本表示。
⏹4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。数字电视盒式磁带 (digital video cassette,DVC)上使用这种格式;
⏹4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本,平均每个像素用1.5个样本表示。MPEG-1(H.261/H.263)和MPEG-2都使用这种格式。但是它们的具体实现办法并不相同。参见图6-20。
图6-20 两种不同的4:2:0子采样格式
●视频的数据率
按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时空信号变成离散的时空信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此需要对数字电视信号进行压缩处理。
⏹ITU-R BT.601标准数据率
BT.601标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数据传输率就达到为270 Mb/s(兆比特/秒)!,即
◆亮度(Y):
858样本/行×525行/帧×30帧/秒×10比特/样本≈135兆比特/秒(NTSC)
8样本/行×625行/帧×25帧/秒×10比特/样本≈135兆比特/秒(PAL)
◆Cr (R-Y):
429样本/行×525行/帧×30帧/秒×10比特/样本≈68兆比特/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10比特/样本≈68兆比特/秒(PAL)
◆Cb (B-Y):
429样本/行×525行/帧×30帧/秒×10比特/样本≈68兆比特/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10比特/样本≈68兆比特/秒(PAL)
◆总计:27兆样本/秒×10比特/样本 = 270兆比特/秒
实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高:
◆亮度(Y):
720×480×30×10≈104 Mb/s (NTSC)
720×576×25×10≈104 Mb/s (PAL)
◆色差(Cr,Cb):
2×360×480×30×10≈104 Mb/s (NTSC)
2×360×576×25×10≈104 Mb/s (PAL)
◆总计:≈ 207 Mb/s
如果每个样本的采样精度由10比特降为8比特,彩色数字电视信号的数据传输率就降为166 Mb/s。
⏹VCD视频数据率
如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率最高为1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率要在1.15 Mb/s。显而易见,如果存储166Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15 ≈ 144:1。
MPEG-1视频压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成CIF的数字电视(相当于VHS的质量),于是彩色数字电视的数据传输率就减小到
352×240×30×8×1.5 ≈ 30 Mb/s (NTSC)
352×288×25×8×1.5 ≈ 30 Mb/s (PAL)。
把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 ≈ 26:1。这就是MPEG-1技术所能获得的压缩比。
⏹DVD视频数据率
根据当前成熟的压缩技术,视频的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非专家难于区分视频在压缩前后之间的差别。如果使用DVD-Video存储器来存储数字电视,它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 ≈ 40:1。
如果视频的子采样使用4:2:0格式,每个样本的精度为8比特,数字电视信号的数据传输率就减小到124 Mb/s,即
720×480×30×8×1.5 ≈ 124 Mb/s (NTSC)
720×576×25×8×1.5 ≈ 124 Mb/s (PAL)
使用DVD-Video来存储720×480×30或者720×576×25的数字视频所需要的压缩比为:124/4.1 ≈ 30:1。
6.3.3 视频文件格式
常用的视频文件格式有:
⏹AVI = Audio/Video Interleaved,音频/视频交错(存储),MS&IBM&Intel Win
⏹MOV = Movie电影,Apple MacOS/Win
⏹rm/rv = RealMedia/RealVideo,实媒体/实视频,RealNetworks Win/Unix/Linux
⏹rmvb = RealMedia Variable Bit Rate(VBR,可改变之比特率) ,RealNetworks Win/Unix/Linux
⏹ASF = Advanced Stream Dormat,先进流格式,MS Win
⏹MPG = Motion Picture experts Group,运动图像专家组,ISO&IEC Win/MacOS/Unix/Linux
⏹MKV = MatrosKa Video File,Matroska(俄罗斯套蛋娃娃/海军装)视频文件,是Matroska 多媒体容器(Matroska Multimedia Container,MFC)中的一种,可以封装多种视频编码,也可包含音频和字幕,采用的是EBML (Extensible Binary Meta Language,可扩展二进制元语言)。由Steve Lhomme和Lasse Kärkkäinen等人领导的Matroska开放标准项目,于2002年12月7日发布。Matroska Win/MacOS/Unix/Linux
⏹MP4 = MPEG-4多媒体组合包的标准音视频容器文件格式,ISO&IEC Win/ MacOS/Unix/Linux
⏹AMV:一种广泛用于MP4播放器的私有视频文件格式,容器是AVI的变种,音频格式为ADPCM的变种,视频格式源于运动JPEG,分辨率为96×96~208×176,帧率为12或16 fps。
⏹MTV:另一种广泛用于MP4播放器的私有视频文件格式,有一512字节的文件头,后跟系列无压缩原始图片数据。
6.3.4 长宽比与分辨率
从前面所列出的电视电影资料,以及我们所熟悉的计算机显示器参数,可以得出图6-21所示的各类常见视频画面的长宽比和图6-22所示的各类视频画面和设备的分辨率。
图6-21 各类视频画面的长宽比
图6-22 各类视频画面和设备的分辨率
6.4 视频编码标准
本节介绍视频编码的国际与国家标准,包括计算机与网络领域的MPEG系列、电子与通信领域的H系列与中国的AVS,重点介绍MPEG-1/2/4/7/21和AVS编码标准。
MPEG-1/2/4标准的具体音视频编码方法,将在第9章“MPEG编码”中介绍。H.2/ AVC和AVS的视频编码方法,则在第10章“H.2/AVC编码”和第11章“AVS视频编码”中介绍。
6.4.1 MPEG系列标准
1988年由ISO (International Organization for Standardization国际标准化组织)和IEC (International Electrotechnical Commission国际电工委员会)联合成立了MPEG(Moving Picture Expert Group运动图像专家组),负责开发视频数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准。
到目前为止,已经公布的MPEG标准有MPEG-1/2/4/7/21,其中的MPEG-1、MPEG-2和MPEG-4标准已经得到广泛应用。表6-10是MPEG-1/2/4的典型编码参数。
表6-10 MPEG-1/2/4的典型编码参数
| MPEG-1 | MPEG-2 (基本型) | MPEG-4 | |
| 标准化时间 | 1992年 | 1994年 | 1999/2003年 |
| 主要应用 | VCD、MP3 | HDTV、DVD | MP4、可视电话、视频会议、网络流媒体、移动视频通信 |
| 空间分辨率 | CIF:288 × 360像素 | TV:576 × 720像素 | 可变:QCIF~HDTV,144 × 176 ~ 1080×1920像素 |
| 时间分辨率 | 25 - 30 帧/秒 | 50-60 场/秒 | 可变:25 ~ 60 帧/秒 |
| 位速率 | 1.5 Mbit/s | 4.7 Mbit/s | 可变:Kbit/s ~ 15 Mbit/s |
| 质量 | 相当于VHS | 相当于NTSC/PAL电视 | 可变:1/4 VHS ~ HDTV |
| 压缩率 | 20 ~ 30 | 30 ~ 40 | 30 ~ 120 |
与其他ISO标准文件一样,MPEG标准文件的创建过程分成4个阶段:
(1) 工作草案(Working Draft,WD):工作组(Working Group,WG)准备的工作文件
(2) 委员会草案(Committee Draft,CD):从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式,它由ISO内部正式调查研究和投票表决。
(3) 国际标准草案(Draft International Standard,DIS):投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。
(4) 国际标准(International Standard,IS):由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。
2.MPEG标准系列及其应用
到目前为止已经公布和正在制定的MPEG系列标准有:
●MPEG-1——用于数据速率高达约1.5Mbit/s的数字存储媒体的视频和伴音编码(ISO/IEC 11172:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s),1992年11月成为标准。
⏹功能:低分辨率数字视频编码标准。
⏹编码:DCT +视觉加权量化+熵编码+运动补偿+帧间预测。
⏹格式CIF:25或30帧/秒、288行×360列或240行×352列、8位量化。
⏹音频:I~III层,声道——双-单声道、立体声、联合立体声。
⏹应用:VCD、MP3。
●MPEG-2——运动图像和伴音信息的通用编码(ISO/IEC 13818:1996 Information technology — Generic coding of moving pictures and associated audio information ),1994年11月成为标准。
⏹功能:高分辨率数字视频编码标准。
⏹编码:似MPEG-1。
⏹格式:低——352×288×29.79、主——720×480或576×29.79或25、高-1440——1440×1080或1152×30或25、高——1920×1080或1152×30或25。
⏹音频:AAC——兼容MPEG-1,另支持5.1/7.1声道(AC-3/DTS)。
⏹应用:DVD、HDTV。
●MPEG-4——视听对象编码(ISO/IEC DIS 14496-1:1999 Information technology -- Coding of audio-visual objects),1999年1月成为标准。
⏹功能:分辨率可变的视听对象编码标准。
⏹编码:视音频对象、分块/分级/分层、基于内容和对象的编码。
⏹格式:支持各种不同的分辨率。
⏹音频:支持多种码率——2~kb/s。
⏹应用:可视电话、电视会议、网络流媒体、移动视频通信、IPTV、MP4。
●MPEG-7——多媒体内容描述接口(ISO/IEC 15938-1:2002 Information technology -- Multimedia content description interface),2001年9月成为标准。
⏹功能:多媒体内容描述标准。
⏹应用:基于内容的多媒体信息检索。
●MPEG-21——多媒体框架(ISO/IEC TR 21000-1:2001 Information technology -- Multimedia framework (MPEG-21)),2001年12月成为标准。
⏹功能:多媒体框架标准。
⏹应用:不同多媒体系统的集成和应用。
以上的按数字编号的MPEG标准都已经公布,在本节的后面将逐个进行较为详细的介绍。下面的按字母编号的MPEG标准中的大部分目前还处于开发过程中,本书只在这里做简单的介绍。
●MPEG-A——多媒体应用格式(ISO/IEC 23000--Multimedia application format (MPEG-A)):
⏹第1部分:多媒体应用格式的目的(ISO/IEC TR 23000-1:2007 Part 1: Purpose for Multimedia Application Formats)。
⏹第2部分:MPEG音乐播放器应用格式(ISO/IEC 23000-2:2006/2008 Part 2: MPEG music player application format)。
⏹第3部分:MPEG照片播放器应用格式(ISO/IEC 23000-3:2007 Part 3: MPEG photo player application format)。
⏹第4部分:音乐幻灯播放器应用格式(ISO/IEC 23000-4:2008/2009 Part 4: Musical slide show player application format)。
⏹第5部分:媒体流播放器(ISO/IEC 23000-5:2008 Part 5: Media streaming player)。
⏹第6部分:专业文档应用格式(ISO/IEC CD 23000-6 Part 6: Professionnal archival application format),该部分标准仍在制订过程中。
⏹第7部分:开放访问应用格式(ISO/IEC 23000-7:2008 Part 7: Open access application format)。
⏹第8部分:便携视频应用格式(ISO/IEC 23000-8 Part 8: Portable video application format)。
⏹第9部分:数字多媒体广播应用格式(ISO/IEC 23000-9:2008 Part 9: Digital multimedia broadcasting application format)。
⏹第10部分:视频监视应用格式(ISO/IEC FCD 23000-10 Part 10: Video surveillance application format),该部分标准仍在制订过程中。
⏹第11部分:(MPEG音乐播放器应用格式)立体视频应用格式(ISO/IEC FCD 23000-11 -- MPEG music player application format -- Part 11: Stereoscopic video application format),该部分标准仍在制订过程中。
⏹第12部分:(MPEG音乐播放器应用格式)交互音乐应用格式(ISO/IEC CD 23000-12 -- MPEG music player application format -- Part 12: Interactive music application format),该部分标准仍在制订过程中。
●MPEG-B——MPEG系统技术(ISO/IEC 23001--MPEG systems technologies):
⏹第1部分:针对XML的二进制MPEG格式(Part 1: Binary MPEG format for XML)。
⏹第2部分:片段请求单位(ISO/IEC 23001-2:2008 Part 2: Fragment request units)。
⏹第3部分:XML的IPMP消息(ISO/IEC FCD 23001-3:2008 Part 3: XML IPMP messages)。
⏹第4部分:编解码配置的表示(ISO/IEC 23001-4 Part 4: Codec configuration representation),该部分标准仍在制订过程中。
⏹第5 部分:位流语法描述语言(BSDL)(ISO/IEC 23001-5:2008 Part 5: Bitstream Syntax Description Language (BSDL))。
●MPEG-C——MPEG视频技术(ISO/IEC 23002--MPEG video technologies):
⏹第1部分:实现整数输出的8×8离散余弦反变换的精度要求(ISO/IEC 23002-1:2006 Part 1: Accuracy requirements for implementation of integer-output 8x8 inverse discrete cosine transform)。
⏹第2部分:定点8×8 离散余弦反和离散余弦变换(ISO/IEC FDIS 23002-2:2008 Part 2: Fixed-point 8x8 inverse discrete cosine transform and discrete cosine transform)。
⏹第3部分:辅助视频和补充信息的表示(ISO/IEC 23002-3:2007 Part 3: Representation of auxiliary video and supplemental information)。
⏹第4部分:视频工具库(ISO/IEC FCD 23002-4 Part 4: Video tool library),该部分标准仍在制订过程中。
●MPEG-D——MPEG音频技术(ISO/IEC 23003--MPEG audio technologies):
⏹第1部分:MPEG环绕声(ISO/IEC 23003-1:2007 Part 1: MPEG Surround)。
⏹第2部分:空间音频对象编码(SAOC)(ISO/IEC FCD 23003-2 Part 2: Spatial Audio Object Coding (SAOC)),该部分标准仍在制订过程中。
●MPEG-E——多媒体中间件(ISO/IEC 23004--Multimedia Middleware):
⏹第1部分:体系结构(ISO/IEC 23004-1:2007 Part 1: Architecture)。
⏹第2部分:多媒体应用程序接口(API)(ISO/IEC 23004-2:2007 Part 2: Multimedia application programming interface (API))。
⏹第3部分:组件模型(ISO/IEC 23004-3:2007 Part 3: Component model)。
⏹第4部分:资源与质量管理(ISO/IEC 23004-4:2007 Part 4: Resource and quality management)。
⏹第5部分:组件下载(ISO/IEC 23004-5:2008 Part 5: Component download)。
⏹第6部分:故障管理(ISO/IEC 23004-6:2008 Part 6: Fault management)。
⏹第7部分:系统完整性管理(ISO/IEC 23004-7:2008 Part 7: System integrity management)。
⏹第8部分:参考软件(ISO/IEC FDIS 23004-8 Part 8: Reference software),该部分标准仍在制订过程中。
6.4.2 H.26x系列标准
ITU-T(International Telecommunications Union - Telecommunication Standardization Sector国际电信同盟-电信标准化部门)及其前身CCIR(International Radio Consultative Committee国际无线电咨询委员会)制定了一系列音视频压缩编码和通信技术标准。其中的ITU-T H.26x是与MPEG类似的视频编码系列标准,参见表6-11。
表6-11 ITU-T H.26x视频编码系列标准
| H标准 | H.261 | H.262 | H.263 | H.2 |
| 对应MPEG标准 | ~ MPEG-1 | = MPEG-2 | ~ MPEG-4 | = MPEG-4/AVC |
| 发布时间 | 1993.3 | 1995.7 | 1998.2 | 2003.5 |
| 主要应用 | 可视电话 与视频会议 | HDTV 与DVD | 网络与 移动视频 | DTV、网络与移动视频、蓝光盘 |
⏹CIF格式:288×360、QCIF格式:144×180、29.97帧/秒
⏹编码:DCT+运动补偿+视觉加权量化+熵编码
●H.262——运动图像和伴音信息的通用编码(Information technology - Generic coding of moving pictures and associated audio information: Video),1995年7月通过,与MPEG-2共同作为ISO/IEC 13818标准(HDTV、DVD)
⏹格式:
◆低—352×288
◆主—720×480或576
◆高-1440—1440×1080或1152
◆高—1920×1080或1152
◆25或29.97帧/秒
⏹编码:同H.261
●H.263——低比特率通信的视频编码(Video coding for low bit rate communication),1998年2月制定,为低比特率/可变比特率视频编码标准(PSTN网、无线网、因特网)
⏹格式:
◆CIF与QCIF格式同H.261
◆Sub-QCIF格式:128×96
◆4CIF格式:704×576
◆16CIF格式:1408×1152
⏹编码:H.261+非运动矢量模式+基于语法的算术编码+高级预测+PB帧
●H.2——针对通用音视频服务的先进[高级]视频编码(Advanced video coding for generic audiovisual services),2003年5月批准,H.2是由ISO/IEC的MPEG与ITU-T的VCEG(Video Coding Experts Group视频编码专家组)联合组成的JVT(Joint Video Team联合视频组[队])共同制定的,MPEG的对应标准为MPEG-4的第10部分MPEG-4/AVC。
⏹格式:同H.263
⏹编码:采用AVC(Advanced Video Coding,先进视频编码)= H.263+多参考帧和变块尺寸运动补偿+1/4像素精度的运动估值+基于上下文的二元算数和变长编码+冗余条带+补充增强信息和视频可用信息+辅助图层+图像顺序计数+柔性宏块+排序+整数DCT变换+分层编码+错误约束机制+错误掩盖技术+高效比特流切换技术。
通过引入多种先进的编码技术,使得H.2(MPEG-4/AVC)编码的码率只有H.263(MPEG-4)的一半。当然,提高压缩比的代价,是同时也增加了编解码的复杂性。一般情况下,编码难度增加了2倍,解码难度增加了1倍。
ITU H.2即MPEG-4/AVC标准的详细内容,将在本书的第10章“H.2/AVC编码”中介绍。
与MPEG标准主要用于光存储、广播和流媒体不同,H.26x标准主要用于网络和通信。除了视频编码标准本身之外,H.26x还有配套的系统、音频、控制等相关标准。参见表6-12和图6-23。
表6-12 与H.26x标准配套的其他ITU标准
| 类别 | 系统 | 视频 | 音频 | 混合 | 控制 | 数据 |
| 旧标准 | H.320 | H.261 | G.723 | H.221 | H.241 | 无 |
| 新标准 | H.324 | H.263 | G.723.1 | H.223 | H.246 | T.120 |
图6-23 H.324系统框图
6.4.3 AVS音视频编码标准
AVS(Audio Video coding Standard,音视频编码标准)是中国自主制订的数字电视、IPTV等音视频系统的基础性标准,由数字音视频编解码技术标准工作组(AVS工作组)负责制定。该工作组由国家信息产业部科学技术司于2002年6月批准成立,成员包括国内外从事数字音视频编码技术和产品研究开发的机构和企业。
AVS规定了数字音视频的压缩、解压缩、处理和表示的技术方案,适用于高分辨率和标准分辨率数字电视广播、激光数字存储媒体、互联网宽带流媒体、多媒体通信等应用。
AVS标准包括系统、视频、音频、数字版权管理、移动视频等9个部分,目前已经公布的只有标准的第2 部分“视频”(AVS-P2),该部分规定了多种比特率、分辨率和质量的视频压缩方法,适用于数字电视广播交互式存储媒体、直播卫星视频业务、多媒体邮件、分组网络的多媒体业务、实时通信业务、远程视频监控等应用,并且规定了解码过程。主要针对高清晰度数字电视广播和高密度存储媒体应用。
相比于MPEG-2标准,AVS的编码效率提高2~3倍, 并且实现方案简洁。AVS的算法与H.2/AVC的类似,但是做了很多简化和修订,主要目的是为了规避国外的各种高收费专利和降低生产成本。
AVS国家推荐标准系列(GB/T 20090 -- 信息技术 先进音视频编码):
●第1部分:系统——GB/T 20090.1。
●第2 部分:视频——GB/T 20090.2-2006:《信息技术 先进音视频编码第2 部分:视频》(Information technology-Advanced coding of audio and video-Part 2:Video),已于2006年2月22日公布。
●第3部分:音频——GB/T 20090.3。
●第4部分:一致性测试——GB/T 20090.4。
●第5部分:参考软件——GB/T 20090.5。
●第6部分:数字版权管理——GB/T 20090.6。
●第7部分:移动视频——GB/T 20090.7。
●第8部分:用IP网络传输AVS——GB/T 20090.8。
●第9部分:文件格式——GB/T 20090.9。
AVS标准的第2 部分(视频编码)的详细内容,将在本书的第11章“AVS视频编码”中介绍。
6.5 MPEG编码标准简介
6.5.1 MPEG-1低分辨率数字视频编码
MPEG-1处理的是(与BT.601中CIF类似的)SIF(Standard Interchange format / Source Input Format标准图像交换格式 / 源输入格式)格式的电视信号:
●NTSC制式:352像素×240行/帧×30帧/秒
●PAL制式:352像素×288行/帧×25帧/秒
压缩后的输出速率定义在1.5 Mbit/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视(即VCD)和在网络上传输数字影视。
MPEG-1的标准号为ISO/IEC 11172,标准名称为“信息技术——用于数据速率高达约1.5 Mbit/s的数字存储媒体的视频和伴音编码”(Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s),已于1991年底由ISO/IEC公布,由如下五个部分组成:
(1)系统:ISO/IEC 11172-1:1993 Part 1: Systems。规定视频数据、声音数据及其他相关数据的同步。
(2)视频:ISO/IEC 11172-2:1993 Part 2: Video。规定视频数据的编码和解码。
(3)声音:ISO/IEC 11172-3:1993 Part 3: Audio。规定声音数据的编码和解码。
(4)一致性测试:ISO/IEC 11172-4: 1995 Part 4: Conformance testing。这个标准详细说明如何测试比特数据流(bitstreams)和解码器是否满足MPEG-1前3个部分(Part1、2和3)中所规定的要求。这些测试可由厂商和用户实施。
(5)软件模拟:ISO/IEC TR 11172-5:1998 Part 5: Software simulation。实际上,这部分的内容不是一个标准,而是一个技术报告,给出了用软件执行MPEG-1标准前3个部分的结果。
图6-24为MPEG-1译码器框图。
图6-24 MPEG-1译码器框图
MPEG-1的视频和音频编码方法,将在第9章MPEG编码方法的第1节和第3节中介绍。
6.5.2 MPEG-2高分辨率数字视频编码
MPEG-2是一个直接与(高清晰)数字电视广播(DTV/HDTV)有关的高质量图像和声音编码标准,同时也用于DVD。MPEG-2可以说是MPEG-1的扩充,因为它们的基本编码算法都相同,只是画面的分辨率更高一些(从352×288→1920×1152)。
但是MPEG-2也增加了许多MPEG-1所没有的功能。例如,增加了隔行扫描电视的编码、提供了位速率的可伸缩功能、新增了AAC音频编码、支持环绕立体声等等。
MPEG-2要达到的最基本目标是:速率为4~9 Mbit/s(最高达15 Mbit/s)的电视编码。
●标准的组成
MPEG-2的标准号为ISO/IEC 13818,标准名称为“信息技术—运动图像和伴音信息的通用编码(Information technology -- Generic coding of moving pictures and associated audio information )”。MPEG-2标准包含10个部分:
(1)系统:ISO/IEC 13818-1:1996/2000/2007 Part 1: Systems。规定视频数据、声音数据及其他相关数据的同步。
(2)视频:ISO/IEC 13818-2:1996/2000 Part 2: Video。规定电视数据的编码和解码。
(3)声音:ISO/IEC 13818-3:1995/1998 Part 3: Audio。规定声音数据的编码和解码,是MPEG-1 Audio的扩充,支持多个声道。
(4)一致性测试:ISO/IEC 13818-4:1998/2004 Part 4: Conformance testing。
(5)软件模拟:ISO/IEC TR 13818-5:1997/2005 Part 5: Software simulation。
(6)数字存储媒体命令和控制扩展协议:ISO/IEC DIS 13818-6:1998 Part 6: Extensions for DSM-CC。
(7)先进声音编码(AAC):ISO/IEC 13818-7:1997/2003/2004/2006 Part 7: Advanced Audio Coding (AAC)。为多声道声音编码算法标准。这个标准除后向兼容MPEG-1 Audio标准之外,还有非后向兼容的声音标准。
(8)MPEG-2系统解码器实时接口扩展标准:ISO/IEC 13818-9:1996 Part 9: Extension for real time interface for systems decoders。
(9)DSM-CC的一致性扩展测试:ISO/IEC 13818-10:1999 Part 10: Conformance extensions for Digital Storage Media Command and Control (DSM-CC)。
(10)MPEG-2系统上的IPMP:ISO/IEC 13818-11:2004 Part 11: IPMP on MPEG-2 systems。
需要说明的是,MPEG-2的第8部分原计划用于采样精度为10比特的视频编码,但由于目前工业界对此兴趣不大,因此该部分标准已暂停开发。
●系统模型
MPEG-2的系统模型如图6-25所示,在标准的第1部分中定义。主要是用来将视频数据、声音数据和其他数据,组合成一个或者多个适合于存储或者传输的基本数据流。
图6-25 MPEG-2的系统模型
表6-13 MPEG-2视频的等级与档次
MPEG-2中的数据流有两种形式,一种称为程序数据流(Program Stream,PS),另一种称为传输数据流(Transport Stream,TS)。程序数据流是组合一个或者多个规格化的即包化基本数据流(Packetised Elementary Streams,PES)而生成的一种数据流,用在出现错误相对比较少的环境下,适合使用软件处理的应用;传输数据流也是组合一个或者多个PES而生成的一种数据流,它用在出现错误相对比较多的环境下,例如在有损失或者有噪声的传输系统中。
●MPEG-2的档次和等级
| 等级 | 扫描参数↓ 档次→ | SP | MP | SNR | SSP | HP | MVP | 4:2:2 |
| HL | 1920×1080×30 (16:9) 1920×1152×25 (5:3) | √ | √ | |||||
| H1440 | 1440×1080×30 (4:3) 1440×1152×25 (5:4) | √ | √ | √ | ||||
| ML | 720×480×29.79 (3:2) 720×576×25 (5:4) | √ | √ | √ | √ | √ | √ | |
| LL | 352×288×29.79 (11:9) | √ | √ |
H1440 = High-1440 level 高级1400 ML = Main level主级
LL = Low level 低级 SP = Simple profile简化型
MP = Main profile主型 SNR = SNR scalable profile信噪比可变型
SSP = Spatial scalable profile空间分辨率可变型
HP = High profile高级型 MVP = Multiview profile多视角型
为了适应各种应用,在MPEG-2标准的第2部分定义了视频的各种规格,分为4个等级(level)和6个档次(profile),如表6-13所示。表中的“√”符号表示不同级别的MPEG-2所支持的档次。
有些人认为使用4:2:0子采样格式的图像质量还不够好,因此在1996年的修订标准中增加了4:2:2子采样格式的图像。MVP也是后来附加的档次。
在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比伸缩性(Signal-to-Noise Ratio Scalability),空间可伸缩性(Spatial Scalability)和时间可伸缩性(Temporal Scalability)。
信噪比伸缩性(SNR scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间可伸缩性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间可伸缩性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似。
在MPEG-2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比伸缩性(Signal-to-Noise Ratio Scalability),空间可伸缩性(Spatial Scalability)和时间可伸缩性(Temporal Scalability)。
| 档次(Profile) | 算法(Algorithms) |
| High(高档) | 支持由空间可伸缩档次提供的所有功能和其他规定功能 子采样格式:YUV 4:2:0/4:2:2 用于进一步提高图像质量 |
| Spatial scalable (空间可伸缩) | 支持信噪比伸缩档次提供的所有功能和空间可伸缩算法 子采样格式:YUV:4:2:0 |
| SNR scalable (信噪比可伸缩) | 支持主档次提供的所有功能和信噪比可伸缩编码算法 子采样格式:YUV:4:2:0 |
| Main(主) | 非可变速率编码算法支持随机存取,B图像预测方式 子采样格式:YUV:4:2:0 |
| Simple(简化) | 除不支持主档次提供的B图像预测功能外,主档次的其他所有功能都支持 子采样格式:YUV:4:2:0 |
| 等级 (Level) | 参数 (Parameters) |
| High(高级) 16:9或5:3 | 1920 samples/line (样本/行) |
| 1080或1152 lines/frame (行/帧) | |
| 60 frames/s (帧/秒) | |
| 80 Mb/s (兆比特/秒) | |
| High 1440 (高级1440) 4:3或5:4 | 1440 samples/line (样本/行) |
| 1080或1152 lines/frame (行/帧) | |
| 60 frames/s (帧/秒) | |
| 60 Mb/s (兆比特/秒) | |
| Main(主级) 3:2或5:4 | 720 samples/line (样本/行) |
| 480或576 lines/frame (行/帧) | |
| 30 frames/s (帧/秒) | |
| 15 Mb/s (兆比特/秒) | |
| Low(低级) 11:9 | 352 samples/line (样本/行) |
| 288 lines/frame (行/帧) | |
| 30 frames/s (帧/秒) | |
| 4 Mb/s (兆比特/秒) |
表6-14 MPEG-2的档次
信噪比伸缩性(SNR scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间可伸缩性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间可伸缩性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似。
MPEG-2为此引入了“档次(Profiles)”和参数“等级(Levels)”的概念。每种档次定义一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG-2规定的档次规格如表6-14所示。
MPEG-2的等级规格如表6-15所示:
由档次(profile)和等级(level)组合起来的MPEG-2所支持的各种电视规格如表6-16所示。前者定义质量的可伸缩性(scalability)和彩色空间分辨率的句法子集,后者定义图像分辨率和每种档次的最大位速率的参数集。
例如,当前使用得最普遍的描述符是MP@ML (Main Profile, Main Level),可译成“主档次@主级电视”或者“主句法子集@主参数级”,它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子采样格式为4:2:0,位速率达15 Mb/s。MPEG-2标准期待大多数MPEG-2设备都能够支持这种视频,主要用于标清DTV和普通DVD。又如,MP@HL (Main Profile, High Level)描述符指的是帧速率为30帧/秒、分辨率为1920×1152×60、子采样格式为4:2:0、位速率达80 Mb/s的HDTV制电视。MP@LL(主档次@低级)目前在中国主要用于所谓的压缩DVD盘(HDVD),它采用DVD介质和MPEG-2格式存储VCD分辨率的视频,可在DVD机上播放。
表6-16 MPEG-2档次和等级
Profile档次
| Level等级 | Simple (简化型) | Main (主型) | SRN Scalability (信噪比可伸缩型) | Spatial Scalability (空间可伸缩型) | High (高档型) |
| High (高级) | 4:2:0 1920×1152×60 80 Mb/s I, P, B | 4:2:0, 4:2:2 1920×1152×60 80 Mb/s I, P, B | |||
| High-1440 (高级1440) | 4:2:0 1440×1152×60 60 Mb/s I, P, B | 4:2:0 1440×1152×60 60 Mb/s I, P, B | 4:2:0, 4:2:2 1440×1152×60 60 Mb/s I, P, B | ||
| Main (主级) | 4:2:0 720×576×30 15 Mb/s I, P | 4:2:0 720×576×30 15 Mb/s I, P, B | 4:2:0 720×576×30 15 Mb/s I, P, B | 4:2:0 720×576×30 20 Mb/s I, P, B | |
| Low (低级) | 4:2:0 352×288×30 4 Mb/s I, P, B | 4:2:0 352×288×30 4 Mb/s I, P, B |
下面以美国ATSC的HDTV标准为例,说明HDTV与MPEG-2的关系。模拟电视格式再加上HDTV的电视格式(包括计算机显示格式)归纳在图6-26中。ATSC的电视扫描格式见表6-17。
图6-26 数字电视格式(以及与PC显式分辨率的比较)
其中:ATV = advanced television高级电视,在ATSC中指1280×720格式
HDTV = high definition television高清晰度电视,在ATSC中指1920×1080格式
表6-17 ATSC的电视扫描格式
| 水平方向像素 | 垂直方向行数 | 长宽比 | 图像速率 |
| 1920 | 1080 | 16:9 | 60I 30P 24P |
| 1280 | 720 | 16:9 | 60P 30P 24P |
| 704 | 480 | 16:9 | 60I 60P 30P 24P |
| 0 | 480 | 4:3 | 60I 60P 30P 24P |
P表示逐行扫描(non-interlaced scanning / progressive scanning)
支持整数和非整数帧速率(60, 59.94;30, 29.97;24, 23.98)
ATSC的视频压缩以MPEG-2 Video标准为基础,采样主档次(Main Profile),等级从主级(Main Level)到高级(High Level)。声音压缩以AC-3系统为基础,采样频率为48 kHz,支持5.1声道的环绕声。
●DSM-CC与RTI
MPEG-2的第6部分是一个称为DSM-CC(Digital Storage Media Command and Control数字存储媒体命令和控制)的扩展协议,用于管理MPEG-1和MPEG-2的数据流,使数据流既可在单机上运行,又可在异构网络环境下运行。在DSM-CC模型中,服务器和客户机都被认为是DSM-CC网络的用户。在DSM-CC中定义了一个称为SRM(Session and Resource Manager会话和资源管理)的实体,用来集中管理网络中的会话和资源,如图6-27所示。
MPEG-2的第9部分是传输数据流(Transport Stream)的实时接口(real-time interface,RTI)标准,它可以用来适应来自网络的传输数据流,如图6-28所示。
图6-27 DSM-CC参考模型
图6-28 实时接口参考模型
6.5.3 MPEG-4视听对象编码
MPEG-1主要是为VCD设计的,MPEG-2最初是为HDTV设计的,后来也用于DVD。但是它们都不太适合于网络传输,特别是在低码率和异构网络环境下的音视频信号通信。MPEG-4的目标就是为视听(audio-visual)数据的编码和交互播放开发算法和工具,最初是一个数据速率很低的多媒体通信标准,后来的目标是要在异构网络环境下能够高度可靠地工作(传输的码率可变、图像的分辨率可变、画面的内容可选),并且具有很强的交互功能。
为了达到低码率的目标,必须大幅度提高视频数据的压缩比,而MPEG-1/2所采用的基于像素的的压缩方法,在压缩40到50倍后就几乎达到算法的极限,必须另辟晰迳。为此,MPEG-4引入了基于对象表达(object-based representation)的概念,用来表达视听对象(audio/visual objects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/ Natural Hybrid Coding,SNHC)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4系统构造和接收端的构造部件如图6-29~30所示。
图6-29 MPEG-4系统示意图
图6-30 MPEG-4接收端的主要部件
图6-31 DMIF覆盖的三种主要技术
MPEG-4中制定了一个称为传输多媒体集成框架(Delivery Multimedia Integration Framework,DMIF)的会话协议,它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似,其差别是:FTP返回的是数据,而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术:广播技术,交互网络技术和光盘技术,如图6-31所示。
MPEG-4将应用在移动通信和公用电话交换网(public switched telephone network,PSTN)上,并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。
MPEG-4的标准名是Information technology -- Coding of audio-visual objects (信息技术--视听对象编码),标准编号为ISO/IEC 14496。1999年1月开始成为国际标准,MPEG-4包含有24个部分,它们依次是:(其中的第10部分与H.2等价)
(1)系统:ISO/IEC 14496-1:1999/2001/2004 Part 1: Systems。
(2)视觉:ISO/IEC 14496-2:1999/2001/2004 Part 2: Visual。
(3)音频:ISO/IEC DIS 14496-3:1999/2001/2005 Part 3: Audio。
(4)一致性测试:ISO/IEC 14496-4:2000/2004 Part 4: Conformance testing。
(5)参考软件:ISO/IEC 14496-5:2000/2001 Part 5: Reference software。
(6)传输多媒体集成框架(DMIF):ISO/IEC DIS 14496-6:1999/2000 Part 6: Delivery Multimedia Integration Framework (DMIF)。
(7)视听对象编码的优化参考软件:ISO/IEC TR 14496-7:2002/2004 Part 7: Optimized reference software for coding of audio-visual objects。
(8)IP网上的ISO/IEC 14496内容传输:ISO/IEC 14496-8:2004 Part 8: Carriage of ISO/IEC 14496 contents over IP networks。
(9)参考硬件描述:ISO/IEC TR 14496-9: 2004/2008/2009 Part 9: Reference hardware description。
(10)先进视频编码:ISO/IEC 14496-10:2003/2004/2005/2008 Part 10: Advanced Video Coding。
(11)场景描述与应用引擎:ISO/IEC 14496-11:2005 Part 11: Scene description and application engine。
(12)ISO基媒体文件格式:ISO/IEC 14496-12: 2004/2005/2008 Part 12: ISO base media file format。
(13)智能产权管理与保护(IPMP)扩展:ISO/IEC 14496-13:2004 Part 13: Intellectual Property Management and Protection (IPMP) extensions。
(14)MP4文件格式:ISO/IEC 14496-14:2003 Part 14: MP4 file format。
(15)先进视频编码(AVC)文件格式:ISO/IEC 14496-15:2004 Part 15: Advanced Video Coding (AVC) file format。
(16)动画框架扩展(AFX):ISO/IEC 14496-16:2004/2006 Part 16: Animation Framework eXtension (AFX)。
(17)流文本格式:ISO/IEC 14496-17:2006 Part 17: Streaming text format。
(18)字体压缩与流动:ISO/IEC 14496-18: 2004 Part 18: Font compression and streaming。
(19)合成纹理流:ISO/IEC 14496-19:2004 Part 19: Synthesized texture stream。
(20)轻量应用场景表示(LASeR)和简单聚集格式(SAF):ISO/IEC 14496-20:2006/2008 Part 20: Lightweight Application Scene Representation (LASeR) and Simple Aggregation Format (SAF)。
(21)MPEG-J的图形框架扩展(GFX):ISO/IEC 14496-21:2006 Part 21: MPEG-J Graphics Framework eXtensions (GFX)。
(22)开放字体格式:ISO/IEC 14496-22:2007 Part 22: Open Font Format。
(23)符号音乐表示:ISO/IEC 14496-23:2008 Part 23: Symbolic Music Representation。
(24)音频与系统交互:ISO/IEC TR 14496-24: 2008 Part 24: Audio and systems interaction。
除了这24个主要部分之外,MPEG-4标准还有120个辅助部分,由于篇幅有限,这里就不一一列出了。
6.5.4 MPEG-7多媒体内容描述接口
1.概述
MPEG-7的工作于1996年启动,名称叫做多媒体内容描述接口(Multimedia Content Description Interface) ,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。
与其他的MPEG标准一样,MPEG-7是为满足特定需求而制定的视听信息标准。MPEG-7标准也是建筑在其他的标准之上的,例如PCM、MPEG-1、MPEG-2和MPEG-4等等。MPEG-4中使用的形状描述符、MPEG-1和MPEG-2中使用的移动矢量(motion vector)等都可能在MPEG-7中用到。
1)范围
图6-32 MPEG-7的处理范围
图6-32表示了MPEG-7的处理链(processing chain),这是高度抽象的方框图。在这个处理链中包含有三个方框:特征抽取(feature extraction)、标准描述(standard description)和检索工具(search engine)。特征的自动分析和抽取对MPEG-7是至关重要的,抽象程度越高,自动抽取也越困难,而且不是都能够自动抽取的,因此开发自动的和交互式半自动抽取的算法和工具都是很有用的。尽管如此,特征抽取和检索工具都不包含在MPEG-7标准中,而是留给大家去竞争,以便得到最好的算法和工具。
2)主要特点与意义
MPEG-7致力于视听数据信息编码的表达(表达内容的信息,而不是内容本身)。这一点与目标集中在视频/音频数据的压缩与编码的MPEG-1/2/4不同,MPEG-7所表达的不是内容/信息本身,而是表示信息的信息。
MPEG-7聚焦于多媒体材料的通用接口的标准化,关注数据资源的交互性与全球化、数据管理的灵活性。MPEG-7只关心描述本身,而将描述的生成、特征的提取、索引的处理等都排除在标准之外。
MPEG-7提供了可视内容的标准结构和联接机制、以及对可视内容表述的标准化,为实现基于内容的检索提供了应用框架,并使对多媒体数据的创建、交换、检索和重用更加有效。
3)标准系列
MPEG-7标准的名称为“信息技术——多媒体内容描述接口(Information technology -- Multimedia content description interface)”,标准的编号为ISO/IEC 15938,从2002年起陆续公布。
MPEG-7标准包含如下12个部分:
(1)系统:ISO/IEC 15938-1:2002 -- Part 1: Systems
(2)描述定义语言(DDL):ISO/IEC 15938-2:2002 Part 2: Description definition language
(3)视觉:ISO/IEC 15938-3:2002 Part 3: Visual
(4)音频:ISO/IEC 15938-4:2002 Part 4: Audio
(5)多媒体描述方案:ISO/IEC 15938-5:2003 Part 5: Multimedia description schemes
(6)参考软件:ISO/IEC 15938-6:2003 Part 6: Reference software
(7)一致性测试:ISO/IEC 15938-7:2003 Part 7: Conformance testing
(8)MPEG-7描述的提取和使用:ISO/IEC TR 15938-8:2002 Part 8: Extraction and use of MPEG-7 descriptions
(9)档次与级别:ISO/IEC 15938-9:2005 Part 9: Profiles and levels
(10)模式定义:ISO/IEC 15938-10:2005 Part 10: Schema definition
(11)MPEG-7档次模式:ISO/IEC TR 15938-11:2005 Part 11: MPEG-7 profile schemas
(12)查询格式:ISO/IEC 15938-12:2008 Part 12: Query format
2.主要内容
下面简单介绍MPEG-7的系统、DDL、音视频和多媒体描述方案等主要内容。
1)系统
系统是MPEG-7标准的第1部分,目前它定义了终端体系结构和标准化接口。
图6-33 MPEG-7的终端体系结构
(其中:BiM = Binary format for MPEG-7 data = MPEG-7数据的二进制格式)
MPEG-7的终端体系结构如图6-33所示,最底层为传输/存储介质,用来将复用码流发送到传送层;被传送的MPEG-7数据可以用在各种传输系统上,如MPEG-2传输流或MPEG-4文件或码流;传送层主要实现同步、成帧(framing)和内容复用;MPEG-7内容可以单独或与描述信息同时传送;传送层向压缩层提供MPEG-7基本流;基本流有一些连续的最小数据实体——存取单元(access unit)构成。
MPEG-7数据,可以根据实际应用需要,采用文本或二进制格式表示,也可以用两者的混合格式表示。
文本格式的语法在标准的第二部分——描述定义语言DDL中刻画,而二进制格式的语法则在本部分——系统中定义。
MPEG-7对应于这两种数据格式的两个标准接口如图6-34所示。
MPEG-7的标准化接口还包括标准的验证处理(参见图6-35)。
图6-34 MPEG-7的标准化接口 图6-35 验证处理
2)描述定义语言DDL
描述定义语言(DDL=description definition language)、描述方案(DS=description schemes)和描述符(D=descriptor)是实现MPEG-7描述的主要工具,其中的描述定义语言是MPEG-7的核心部分,它为描述提供了坚实的基础。用户还可以生成和定义自己的描述方案和描述符,参见图6-36。
图6-36 不同MPEG-7元素之间关系
描述定义语言DDL的基础为XML Schema,所以DDL被划分为如下(与XML Schema相对应的)三个逻辑标准:
⏹XML规则结构语言组件
⏹XML规则数据类型
⏹MPEG-7的特定扩展
3)音频
MPEG-7的音频(audio)包含如下六个部分:音频描述框架(又包括可缩放音列、低级描述符和统一静音片断)、乐器音色(timbre)描述工具、声音识别工具、语音内容描述工具和旋律(melody)描述工具。
4)视觉
MPEG-7的视觉(visual)描述工具由覆盖基本可视特性的基本结构和描述符组成。基本可视特性有:颜色、纹理、形状、运动、定位和其他,每一类都有基本和复杂描述符。
有五种与视觉相关的基本结构:网格布局、时间序列、多视、空间二维坐标和时空插值。
视觉描述符有:颜色描述符、纹理描述符、形状描述符、运动描述符、区域定位符、时空描述符和面部识别描述符。
MPEG-7的视觉描述工具主要包括图形、静止图像、3D造型、动画和视频等方面的可视信息,它们在多媒体信息中占有重要位置。
5)多媒体描述方案
图6-37 MPEG-7的多媒体描述方案
MPEG-7描述符用于描述下列类型的信息:诸如颜色、纹理、运动、声音能量等等低级视听特征;语义对象、事件和抽象概念等高级特征;内容管理过程;关于存储介质等的信息。参见图6-37。
大多数对应于低级特征的描述符可被自动提取,然而生成高级描述符则需要人工干预。
MPEG-7的描述方案DS是在描述符的基础上,通过组合单个描述符以及内有更复杂结构的其他DS,并通过定义组成描述符与DS之间的关系,而扩充而成。参见图6-38。
图6-38 概念方面描述的工具
MPEG-7的DS被划分为两类:
●与特定的音频或视频领域相关的DS,如颜色、纹理、形状和音调等;
●与一般多媒体描述相关的DS,如与创建、生成、使用和管理多媒体有关的不可变媒体数据;以及描述直接位于多个级别的内容,包括信号结构、特性、模型和语义。
3.应用领域
MPEG-7的应用领域包括:数字图书馆(Digital library),例如图像目录、音乐词典等;多媒体目录服务(multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等。参见图6-39。
图6-40~43是若干MPEG-7应用的例子。
图6-39 MPEG-7可能应用的抽象表示 图6-40 具有静态区域的图像描述例子
图6-41 片段关系图的视频段和区域例子 图6-42 上例所对应的片段关系图
图6-43 足球视频的分层摘要例子
6.5.5 MPEG-21多媒体框架
1.标准
由于多媒体标准层出不穷,但各个标准之间还存在缺漏,不能真正做到配套衔接,还需要一个综合性标准来协调;随着网络技术和应用的发展,基于多媒体的电子商务需要一个结构可以理解的共享模式——多媒体框架的支持。
有鉴于此,MPEG于1996年10月提出制定多媒体框架标准的设想,2000年6月正式批准制定MPEG-21标准的计划,2001年起陆续公布各个具体标准。MPEG-21的标准编号为ISO/IEC 21000,名称为“信息技术——多媒体框架(MPEG-21)(Information technology -- Multimedia framework (MPEG-21))”。
下面是MPEG-21标准系列,共分成18个部分(但是其中的第13部分已经被取消):
(1)视觉、技术与策略:ISO/IEC TR 21000-1:2001/2004 Part 1: Vision, Technologies and Strategy
(2)数字项声明:ISO/IEC 21000-2:2003/2005 Part 2: Digital Item Declaration
(3)数字项识别:ISO/IEC 21000-3:2003 Part 3: Digital Item Identification
(4)知识产权管理和保护:ISO/IEC 21000-4:2006 Part 4: Intellectual Property Management and Protection Components
(5)版权表示语言:ISO/IEC 21000-5:2004 Part 5: Rights Expression Language
(6)版权数据词典:ISO/IEC 21000-6:2004 Part 6: Rights Data Dictionary
(7)数字项适应:ISO/IEC 21000-7:2004/2007 Part 7: Digital Item Adaptation
(8)参考软件:ISO/IEC 21000-8:2006/2008 Part 8: Reference Software
(9)文件格式:ISO/IEC 21000-9:2005 Part 9: File Format
(10)数字项处理:ISO/IEC 21000-10:2006 Part 10: Digital Item Processing
(11)持久结合技术的演化方法:ISO/IEC TR 21000-11:2004 Part 11: Evaluation Tools for Persistent Association Technologies
(12)MPEG-21资源传送的测试床:ISO/IEC TR 21000-12:2005 Part 12: Test Bed for MPEG-21 Resource Delivery
(13)“可伸缩视频编码”——已经被取消,改成MPEG-4标准的第10部分之第1辅助部分(14496-10/AMD1)
(14)一致性测试:ISO/IEC 21000-14:2007 Part 14: Conformance Testing
(15)事件报告:ISO/IEC 21000-15:2006 Part 15: Event Reporting
(16)二进制格式:ISO/IEC 21000-16:2005 Part 16: Binary Format
(17)MPEG资源的片段标识:ISO/IEC 21000-17:2006 Part 17: Fragment Identification of MPEG Resources
(18)数据项流:ISO/IEC 21000-18:2007 Part 18: Digital Item Streaming
2.要素
多媒体的结构化框架有如下8个要素:
(1)数字项声明
(2)内容的识别和描述
(3)内容的管理和使用
(4)内容的创建、发布和表示
(5)用户隐私权
(6)知识产权管理和保护
(7)终端和网络资源
(8)事件报告
多媒体框架的结构参见图6-44。
图6-44 多媒体框架
3.用户与用户需求
MPEG-21中的用户是一个广义的概念,可以是个人、团体、组织、公司、、以及其他标准化组织与主体。从技术上讲,MPEG-21认为内容的提供者和消费者同样都是MPEG-21的用户。
用户可以以各种方式使用内容,包括对内容进行发布、传送和消费。参见图6-45。
图6-45 用户定义示意图
MPEG-21为用户之间进行以数字信息为目标的相互作用提供了一个多媒体框架。这里的相互作用是指对内容的使用,包括内容的创建、提供、存档、定级、增强、传递、聚集、传输、发表、零售、消费、提交、管制和交易的简化等。
通常,MPEG-21包括如下用户需求:
⏹安全的内容传送与价值交换
⏹容易理解所使用的项目
⏹内容的个性化
⏹在价值链中执行商业和有用的规则
⏹允许在PMEG-21中操作与之兼容的实体
⏹允许在PMEG-21中引入其他多媒体框架,两者之间可以互操作
⏹平衡和支持MPEG之外的已经存在的和未来的标准
⏹有必要遵从通常的规则并体现社会要素
⏹对MPEG-21的功能以及各个部分的通信性能都要给出计量
⏹在价值链中可以增强媒体数据
⏹保护用户的隐私
⏹保证数据项的完整性
⏹内容和交易的跟踪
⏹可为AdHoc提供商业处理过程的视图,或通过电子方法建立的商业伙伴
⏹提供一个通用的标准商业内容处理库
⏹在保证长期投资时,允许商业处理与发展
⏹用户保护,包括服务的可靠性、债务与保险、损失与破坏、交付处理与危机消除等
⏹规范允许新商业的建立与使用
4.关键问题
多媒体框架的关键问题有:
(1)网络传输
(2)服务质量和灵活性
(3)内容的展示质量
(4)内容的艺术质量
(5)服务和设备的易用性
(6)物理媒体格式的互操作性
(7)付费/订购模型
(8)多平台的解码和绘制
(9)内容的搜索、过滤、定位、检索和存储
(10)消费者的信息发布
(11)消费者的使用权限
(12)消费者的隐私保护
5.数据项
数据项(digital item)是MPEG-21的基本和核心概念,关系到什么和谁在多媒体框架中。数据项是一种结构化的数字对象,它在MPEG-21框架内具有标准的表示、标识和元数据。参见图6-46。
图6-46 数字项例子
(UoW = University of Wollongong,[澳大利亚]伍伦贡大学)
1)数据项声明
数据项声明的目的是,建立数据项的统一且灵活的摘要,和数字项的可互操作方案。因为对于同一内容会有许多描述方法,需要有一个强有力的、方便的数字项模型来表示无数种形式中的数字项描述。但是,到目前为止,还没有通用的数字项标准模型和表示方法,也没有一个统一的方法将媒体资源与媒体描述信息联系在一起。
MPEG-21将充分利用MPEG-4/7的有关内容,但同时也涵盖其他媒体资源和描述的声明格式。
数字项声明的需求如下:
⏹数字项是开放和可扩展的,可以扩展到其他所有媒体资源和描述方案中
⏹在不损失子项的结构与特点的前提下,可以将项目组合成新的项目
⏹多个组合项可以共享单元元素
⏹数字项中的单个元素可能被多个地方引用
⏹应用中可以操作数字项,也可以使数字项生效
⏹对数字项及其组件的标识和修正,应该采用开放与可扩展的方式
⏹明确定义元素与相应描述符之间的关系
⏹描述符可以是简单的描述,也可以是整个媒体组件
⏹描述符也可以由其他描述符来描述
⏹定位符必须是可声明的,允许描述符与媒体资源的一个范围或指定点相关,允许描述符通过定位符与媒体资源反向联系
参见图6-47。
图6-47 某些数字项声明 图6-48 数字项声明(金色框)与
模型元素及其关系 数字项标识(粉红框)部分之间的关系
2)数字项标识
MPEG-21的数字项标识(digital item identification)提供如下功能:
⏹精确、可靠和地标识
⏹不考虑属性、类型和尺寸的情况下,实现实体的无缝标识
⏹相关数字项的稳定与有效的标识方法
⏹数字项的ID和描述,在任何操作和修改下都能够保证其安全与完整性
⏹自动处理授权交易、内容定位、内容检索和内容采集
参见图6-48~49。
图6-49 数字项匹配体系结构
复习思考题
1.电视广播经历了那几个发展阶段?
2.给出电视显示技术的发展过程。
3.世界上现行的模拟彩色电视制式有哪些?它们分别是什么国家在什么时候制定的?使用范围怎样?
4.给出各种彩色电视制式的扫描参数。
5.为什么模拟电视要隔行扫描?为什么它们的扫描行数必须是奇数?
6.彩色电视采用的是什么颜色表示法?有什么优点?
7.数字电视有哪些好处?
8.给出HDTV的英文原文和中文译文。
9.HDTV与普通彩电的主要区别有哪些?(HDTV定义)
10.HDTV的扫描线数是普通彩色电视的多少倍?总信息量(像素数)又是多少倍?
11.HDTV一定是数字的吗(举例说明之)?
12.给出日美欧及中国的DTV方案的名称与实施转换时间。
13.现行的各种HDTV方案有一个什么共同点?(源编码)
14.中国HDTV标准的最高图像分辨率与宽高比是多少?哪个部分的DTV传输标准是最后标准化的?
15.UHDTV是谁制定的?其画面分辨率是多少?其声道数又是多少?
16.给出普通电视、HDTV、UHDTV和数字电影的水平视角和最佳观看距离。
17.主要的电视显示技术有哪些?它们的工作原理是什么?它们各有什么优缺点?
18.宽银幕电影有哪些规格?采用多少毫米的胶片?它们画面的宽高比各是多少?
19.数字电影的事实标准是谁制定的?有哪几种画面分辨率?
20.DCI采用的是什么压缩算法?为什么?
21.视频与电视有什么区别?
22.视频卡有哪些功能?如何分类?
23.视频信息处理主要包括哪些部分?
24.数字视频有哪些优点?
25.模拟彩电的数字化标准及其代号是什么?解释其中字母缩写的含义。
26.该标准采用的是什么颜色空间?各个分量的含义是什么?
27.该标准推荐的子采样是什么格式?MPEG-1/2的子采样格式有什么相同和不同?
28.该标准的数字化参数(有效扫描参数)是多少?
29.给出CIF的中英文含义与扫描参数。QCIF及SQCIF与它是什么关系?
30.标准的采样数据率是多少?有效的采样数据率又是多少?
31.MPEG-1(VCD)的扫描参数与采样数据率是多少?数据传输率与压缩比各是多少?
32.MPEG-2(DVD)的扫描参数与采样数据率是多少?数据传输率与压缩比各是多少?
33.常见的视频文件格式有哪些?
34.给出AVI的中英文含义与用处。
35.AMV和MTV是什么格式?用在什么地方?与MPEG标准比有哪些特点?
36.MP5播放器与MP4播放器有哪些不同?
37.MPEG的含义是什么?它是由哪两个组织联合成立的?
38.已经公布的MPEG标准主要有哪些?给出它们的含义与主要应用领域。
39.除了MPEG标准外,还有什么视频编码的国际标准?它们之间有关系吗?
40.给出AVC的英文原文与中文译文,它对应的标准是什么?
41.给出AVS的英文原文与中文译文。AVS是一个怎样的标准?它与AVC标准是什么关系?为什么要制定它?
42.MPEG-1的视频图像采用的是什么格式?其扫描参数是多少?
43.MPEG-1/2有什么区别与联系?主要应用各是什么?
44.MPEG-1/2/4标准有哪些同名的组成部分?
45.为什么MPEG-2的组成部分比MPEG-1的要多很多?
46.给出MPEG-2中的档次(Profiles)和等级(Levels)的含义,有哪些具体的档次和等级?
47.MPEG-2的11个有效的档次和等级组合中,哪几个最重要?
48.MPEG-4与MPEG-1/2的主要区别在哪里?
49.MPEG-4的传输多媒体集成框架DMIF覆盖了哪三种主要技术?
50.MPEG-7/21与MPEG-1/2/4的主要区别是什么?MPEG-7与21有关系吗?
51.MPEG-7有哪些主要特点与意义?
52.MPEG-7有哪两种数据格式?
53.给出DDL、DS和D的中英文含义。
54.DDL是基于什么语言标准的?它被分成几个逻辑部分?
55.DS被划分为哪两类?举例说明之。
56.MPEG-7有哪些应用?
57.为什么需要制定MPEG-21标准?
58.多媒体结构化框架有哪些要素和关键问题?
59.MPEG-21中的用户指什么?用户之间以数字信息为目标的相互作用的含义是什么?
60.数据项是什么?它有标准模型和表示方法吗?
61.数据项声明的目的是什么?
作业
●平时作业8(选做):实现无压缩AVI文件的手工解码和播放。
●大作业选题9:MPEG-4/7/21、MPEG-A~E、H.2/AVC、AVS或/和DCI标准的研究与探讨。
