最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

多媒体计算机技术综述

来源:动视网 责编:小OO 时间:2025-09-29 18:16:19
文档

多媒体计算机技术综述

多媒体计算机技术综述多媒体计算机技术内容摘要:多媒体技术是基于计算机技术的综合技术。它包括数字信号处理技术、音频和视频技术、计算机软件和硬件技术、人工智能和模式识别技术、通信和图像处理技术等,是一门不断发展的跨学科的高新技术。关键字:计算机硬件、音频信息、视频信号、压缩编码技术、人机交互技术一、多媒体技术概述1、多媒体技术的基本概念。所谓媒体就是人与人之间为达到交流的目的所利用的介质,是指人们用于存储和传递各种信息的载体,同时也是是信息表示和传输的载体。媒体分为感觉媒体(指的是能直接作用于人们
推荐度:
导读多媒体计算机技术综述多媒体计算机技术内容摘要:多媒体技术是基于计算机技术的综合技术。它包括数字信号处理技术、音频和视频技术、计算机软件和硬件技术、人工智能和模式识别技术、通信和图像处理技术等,是一门不断发展的跨学科的高新技术。关键字:计算机硬件、音频信息、视频信号、压缩编码技术、人机交互技术一、多媒体技术概述1、多媒体技术的基本概念。所谓媒体就是人与人之间为达到交流的目的所利用的介质,是指人们用于存储和传递各种信息的载体,同时也是是信息表示和传输的载体。媒体分为感觉媒体(指的是能直接作用于人们


多媒体计算机技术综述

                        

                        

                                

多媒体计算机技术

内容摘要:多媒体技术是基于计算机技术的综合技术。它包括数字信号处理技术、音频和视频技术、计算机软件和硬件技术、人工智能和模式识别技术、通信和图像处理技术等,是一门不断发展的跨学科的高新技术。

关键字:计算机硬件、音频信息、视频信号、压缩编码技术、人机交互技术

一、多媒体技术概述

1、多媒体技术的基本概念。

所谓媒体就是人与人之间为达到交流的目的所利用的介质,是指人们用于存储和传递各种信息的载体,同时也是是信息表示和传输的载体。媒体分为感觉媒体(指的是能直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。如文字、数据、声音、图形、图像等)、表示媒体(指的是为了传输感觉媒体而人为研究出来的媒体,借助于此种媒体,能有效地存储感觉媒体或将感觉媒体从一个地方传送到另一个地方。如语言编码、电报码、条形码等)、显示媒体(指的是用于通信中使电信号和感觉媒体之间产生转换用的媒体。如输入、输出设备,包括键盘、鼠标器、显示器、打印机等)、存储媒体(指的是用于存放表示媒体的媒体。如纸张、磁带、磁盘、光盘等)、传输媒体(指的用于传输某种媒体的物理媒体。如双绞线、电缆、光纤等)。多媒体数据的特点是数据量达、数据类型繁多、相关性强、同步性高、动态性。

2、多媒体计算机系统。 

多媒体计算机系统是指能把视、听和计算机交互式控制结合起来,对音频信号、视频信号的获取、生成、存储、处理、回收和传输综合数字化所组成的一个完整的计算机系统。一个多媒体计算机系统一般由四个部分构成:多媒体硬件平台(包括计算机硬件、声像等多种媒体的输入输出设备和装置);多媒体操作系统;图形用户接口;支持多媒体数据开发的应用工具软件。

3、多媒体技术的发展                                

多媒体技术最早起源于20世纪80年代中期。1985年,微软公司推出了界面友好的多窗口图形操作环境——Windows操作系统;1987年,美国RCA公司推出交互式数字视频系统(digital video interactive,DVI)。从20世纪90年代开始,多媒体技术逐渐走向成熟。由于多媒体技术涉及的领域和行业广泛,技术交叉与共享问题十分突出,制定一系列标准来规范和推进多媒体技术的发展与应用迫在眉睫。标准化成为这一阶段的主要特征。目前的多媒体计算机系统主要有两种:一种是Apple公司的PowerMac系统,功能强、性能高,价格也相对较高,主要占领多媒体处理性能较强的高端市场;另一种是以Windows系列操作系统为平台的MPC,是应用最为广泛的多媒体个人计算机系统。

4、多媒体系统的关键技术

多媒体的信息表示是指CCIT定义的5种媒体中,感觉媒体必须通过表示媒体才能被存储和传输。多媒体的输入输出技术包括变换技术、媒体识别技术、媒体理解技术和媒体综合技术。多媒体专用芯片技术分为固定功能的芯片和可编程数字信号处理器DSP芯片。多媒体系统软件技术主要包括多媒体操作系统、多媒体编辑系统、多媒体数据库管理技术、多媒体信息的混合与重叠技术等。多媒体传输技术中一个十分重要的内容就是数字视频网络传输。

5、多媒体技术的应用前景。 

多媒体技术可以在近阶段应用于工作领域、家庭领域、通信领域、教育领域、医疗领域和军事领域。其应用领域很广,覆盖面很大。

二、多媒体计算机硬件

1、多媒体存储设备。

多媒体的存储设备有磁存储设备、光存储设备以及网络存储等。

2、USB设备。

USB设备的优点有:使用方便、速度快、连接灵活、供电、支持多媒体、低成本。USB系统采用级联星形拓扑结构,在USB系统中,只能有一台主机,USB和主机的接口称为主控制器。集线器(Hub)用来提供附加连接点,和主控制器相连的集线器称为根集线器(Root Hub)。一个USB系统中只能有一个根集线器,一般位于主机箱的后面或侧面。USB系统有3个基本组件:主控制器驱动程序(HCD)、USB驱动程序(USBD)、USB客户软件。USB主机可以检测连接和移除USB设备,管理主机和USB设备间的数据流,连接USB状态和活动统计,控制主控制器和USB设备间的电器接口,包括限量能量供应。USB的数据流传输有4种不同的传输方式分别是:同步传输方式、中断传输方式、控制传输方式、批处理方式。USB是一个使计算机周边设备连接标准化、单一化的接口,其规格是由Intel、NEC、Compaq、DEC、IBM、Microsoft、Northern Telecom联系制定的。一个USB接口理论上可以支持127个装置,但是目前还无法达到这个数字。其实,对于一台计算机,所接的周边外设很少有超过10个的,因此这个数字是足够我们使用的。USB还有一个显著优点就是支持热插拔,也就是说在开机的情况下,你也可以安全地连接或断开USB设备,达到真正的即插即用。不过,并非所有的Windows系统都支持USB。目前,Windows系统中有许多不同的版本,在这些版本中,只有Windows98以上版本的系统对USB的支持较好,而其他的Windows版本并不能完整支持USB。例如Windows95的零售版是不支持USB的,只有后来与PC捆绑销售的Windows95版本才支持USB。UCB的典型产品有Inter930USB控制器。

3、图形图像信息输入设备。

扫描仪是一种可将静态图像输入到计算机里的图像采集设备。按其原理可分成CCD为核心的平板扫描仪、手持式扫描仪和以光电倍增管为核心的滚筒式扫描仪。按操作方式分为手持式、台式和滚筒式。扫描仪的主要性能指标是分辨率、色彩位数、灰度、速度和描仪支持的幅面大小。数码相机带有基于软件的特性和功能。 此类特性很有用,但通常不如硬件特性重要。其性能指标是数码相机特有的和与传统相机的指标类似,如镜头形式、快门速度、光圈大小以及闪光灯工作模式等。数码摄像机的特点有清晰度高(模拟摄像机记录本提模拟信号,所以影像清晰度(也称之为解析度、解像度或分辨率)不高,如VHS摄像机的水平清晰主著240线、最好提Hi8机型也只有400线。而DV记录的则是数字信号,其水平清晰度已经达到了500~540线,可以和专业摄像机相媲美。)、色彩更加纯正(DV的色度和亮度信号带宽差不多是模拟摄像机的6倍,而色度和亮度带宽是决定影像质量的最重要因素之一,因而DV拍摄的影像的色彩就更加纯正和绚丽,也达到了专业摄像机的水平。)、体积小重量轻。

4、视频信息采集与显示。

视频采集卡也叫视频卡,是将模拟摄像机、录像机、LD视盘机、电视机输出的视频信号等输出的视频数据或者视频音频的混合数据输入电脑,并转换成电脑可辨别的数字数据,存储在电脑中,成为可编辑处理的视频数据文件。按照其用途可以分为广播级视频采集卡,专业级视频采集卡,民用级视频采集卡。摄像头(CAMERA)又称为电脑相机电脑眼、等,是一种视频输入设备,被广泛的运用于视频会议,远程医疗及实时监控等方面。普通的人也可以彼此通过摄像头在网络进行有影像、有声音的交谈和沟通。另外,人们还可以将其用于当前各种流行的数码影像,影音处理。多媒体投影仪已经应用于社会的各个领域,军事指挥、企业生产管理、交通调度、会议中心、商业博览、多媒体教室以及娱乐场所等。

5、其他多媒体设备。

打印机(Printer) 是计算机的输出设备之一,用于将计算机处理结果打印在相关介质上。衡量打印机好坏的指标有三项:打印分辨率,打印速度和噪声。打印机的种类很多,按打印元件对纸是否有击打动作,分击打式打印机与非击打式打印机。按打印字符结构,分全形字打印机和点阵字符打印机。按一行字在纸上形成的方式,分串式打印机与行式打印机。按所采用的技术,分柱形、球形、喷墨式、热敏式、激光式、静电式、磁式、发光二极管式等打印机。触控屏(Touch panel)又称为触控面板,是个可接收触头等输入讯号的感应式液晶显示装置,当接触了屏幕上的图形按钮时,屏幕上的触觉反馈系统可根据预先编程的程式驱动各种连结装置,可用以取代机械式的按钮面板,并借由液晶显示画面制造出生动的影音效果。为了操作上的方便,人们用触摸屏来代替鼠标或键盘。工作时,我们必须首先用手指或其它物体触摸安装在显示器前端的触摸屏,然后系统根据手指触摸的图标或菜单位置来定位选择信息输入。触摸屏由触摸检测部件和触摸屏控制器组成;触摸检测部件安装在显示器屏幕前面,用于检测用户触摸位置,接受后送触摸屏控制器;而触摸屏控制器的主要作用是从触摸点检测装置上接收触摸信息,并将它转换成触点坐标,再送给CPU,它同时能接收CPU发来的命令并加以执行。从技术原理来区别触摸屏,可分为五个基本种类:矢量压力传感技术触摸屏、电阻技术触摸屏、电容技术触摸屏、红外线技术触摸屏、表面声波技术触摸屏。一种电脑游戏机的控制器,通过操纵其按钮等,实现对电脑上模拟角色等的控制。采用的就是家用游戏机式的手柄设计,左侧为方向键、右侧有4~6个功能键,根据需要还可能在别的部位加入更多的功能键,实现不同的功能。采用手柄比较适于进行模拟器类游戏,特别是一些滚屏类游戏。一般在FC (红白机),电脑模拟器,PS(PLAY STATION)等上使用。手柄也是一种机械配件方便工人操作机械。数字机顶盒的基本功能是接收数字电视广播节目,同时具有所有广播和交互式多媒体应用 功能,如:电子节目指南、高速数据广播、软件在线升级、因特网接入和电子邮件和有条件接收。

三、音频信息的获取与处理

1、信号处理的基本术语。

采样和量化,是把连续的图像转换为数字图像的两个步骤。也可以叫数字化一副连续图像吧。数字化,在百度百科中查了一下,是讲把连续的信号转换为离散的数据,以便可以用数字来进行度量好表示,也可以粗略的理解为离散化。采样(Sampling),是数字化图像坐标;量化(Quantization),是数字化幅度值(灰度值,亮度值)。获得一副图像,首先要把他的坐标系进行离散化,每一个小区域表示为表示图像最小单位——像素。每个像素绝对意义上讲,应该是有大小的,但是由于被单位化为1了,所以像素的大小为1。采样的过程中,每一个像素大小的区域,需要获得表示这个区域的幅值,这个幅值一般意义上应该是这个单位区域的平均幅值。虽然是平均幅值,其仍然是连续的。所以下一步需要对幅值进行离散化(量化)。量化也可以看作是归一化的一种形式。量化级别称为灰度级。小波分析是当前应用数学和工程学科中一个迅速发展的新领域,经过近10年的探索研究,重要的数学形式化体系已经建立,理论基础更加扎实。与Fourier变换相比,小波变换是空间(时间)和频率的局部变换,因而能有效地从信号中提取信息。通过伸缩和平移等运算功能可对函数或信号进行多尺度的细化分析,解决了Fourier变换不能解决的许多困难问题。小波变换联系了应用数学、物理学、计算机科学、信号与信息处理、图像处理、地震勘探等多个学科。数学家认为,小波分析是一个新的数学分支,它是泛函分析、Fourier分析、样调分析、数值分析的完美结晶;信号和信息处理专家认为,小波分析是时间—尺度分析和多分辨分析的一种新技术,它在信号分析、语音合成、图像识别、计算机视觉、数据压缩、地震勘探、大气与海洋波分析等方面的研究都取得了有科学意义和应用价值的成果。

2、数字音频基础。

数字音频是一种利用数字化手段对声音进行录制、存放、编辑、压缩或播放的技术,它是随着数字信号处理技术、计算机技术、多媒体技术的发展而形成的一种全新的声音处理手段。数字音频的文件格式主要有:WAVE,扩展名为WAV;MP3,扩展名MP3;Real Audio,扩展名RA;CD Audio音乐CD,扩展名CDA;MIDI,扩展名MID等。音频信号的特点有:音频信号是时间依赖的连续媒体;由于人接收声音有两个通道(左耳、右耳),因此为使计算机模拟自然声音,也应有两个声道,即理想的合成声音应是立体声;由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理,不仅是信号处理问题,还要抽取语意等其它信息。

3、声卡的组成与工作原理。

声卡 (Sound Card)也叫音频卡(港台称之为声效卡):声卡是多媒体技术中最基本的组成部分,是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字接口(MIDI)使乐器发出美妙的声音。声卡是计算机进行声音处理的适配器。它有三个基本功能:一是音乐合成发音功能;二是混音器(Mixer)功能和数字声音效果处理器(DSP)功能;三是模拟声音信号的输入和输出功能。声卡处理的声音信息在计算机中以文件的形式存储。声卡工作应有相应的软件支持,包括驱动程序、混频程序(mixer)和CD播放程序等。声卡发展至今,主要分为板卡式、集成式和外置式三种接口类型,以适用不同用户的需求,三种类型的产品各有优缺点。声卡由各种电子器件和连接器组成。电子器件用来完成各种特定的功能。连接器一般有插座和园形插孔两种,用来连接输入输出信号。麦克风和喇叭所用的都是模拟信号,而电脑所能处理的都是数字信号,两者不能混用,声卡的作用就是实现两者的转换。从结构上分,声卡可分为模数转换电路和数模转换电路两部分,模数转换电路负责将麦克风等声音输入设备采到的模拟声音信号转换为电脑能处理的数字信号;而数模转换电路负责将电脑使用的数字声音信号转换为喇叭等设备能使用的模拟信号。

4、音频编码基础和标准。

声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行采样。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。光有频率信息是不够的,我们还必须获得该频率的能量值并量化,用于表示信号强度。量化电平数为2的整数次幂,我们常见的CD位16bit的采样大小,即2的16次方。采样大小相对采样率更难理解,因为要显得抽象点,举个简单例子:假设对一个波进行8次采样,采样点分别对应的能量值分别为A1-A8,但我们只使用2bit的采样大小,结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小,则刚好记录下8个点的所有信息。采样率和采样大小的值越大,记录的波形更接近原始信号。音乐的编码技术主要有自适应变换编码(频域编码)、心理声学模型和熵编码等技术。自适应变换编码:利用正交变换,把时域音频信号变换到另一个域,由于去相关的结果,变换域系数的能量集中在一个较小的范围,所以对变换域系数最佳量化后,可以实现码率的压缩。理论上的最佳量化很难达到,通常采用自适应比特分配和自适应量化技术来对频域数据进行量化。在MPEGlayer3和AAC标准及DolbyAC-3标准中都使用了改进的余弦变换(MDCT);在ITUG.722.1标准中则用的是重叠调制变换(MLT)。本质上它们都是余弦变换的改进。心理声学模型:其基本思想是对信息量加以压缩,同时使失真尽可能不被觉察出来,利用人耳的掩蔽效应就可以达到此目的,即较弱的声音会被同时存在的较强的声音所掩盖,使得人耳无法听到。在音频压缩编码中利用掩蔽效应,就可以通过给不同频率处的信号分量分配以不同的量化比特数的方法来控制量化噪声,使得噪声的能量低于掩蔽阈值,从而使得人耳感觉不到量化过程的存在。在MPEGlayer2、3和AAC标准及AC-3标准中都采用了心理声学模型,在目前的高质量音频标准中,心理声学模型是一个最有效的算法模型。熵编码:根据信息论的原理,可以找到最佳数据压缩编码的方法,数据压缩的理论极限是信息熵。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编码叫熵编码,它是根据信息出现概率的分布特性而进行的,是一种无损数据压缩编码。常用的有霍夫曼编码和算术编码。在MPEGlayer1、2、3和AAC标准及ITUG.722.1标准中都使用了霍夫曼编码;在MPEG4BSAC工具中则使用了效率更高的算术编码。 

5、音乐合成和MIDI规范。

MIDI(Musical Instrument Digital Interface)乐器数字接口 ,是20 世纪80 年代初为解决电声乐器之间的通信问题而提出的。MIDI 传输的不是声音信号, 而是音符、控制参数等指令, 它指示MIDI 设备要做什么,怎么做, 如演奏哪个音符、多大音量等。它们被统一表示成MIDI 消息(MIDI Message) 。传输时采用异步串行通信, 标准通信波特率为31.25×( 1±0.01) K Baud。MIDI仅仅是一个通信标准,它是由电子乐器制造商们建立起来的,用以确定电脑音乐程序、合成器和其他电子音响的设备互相交换信息与控制信号的方法。MIDI系统实际就是一个作曲、配器、电子模拟的演奏系统。从一个MIDI设备转送到另一个MIDI设备上去的数据就是MIDI信息。MIDI数据不是数字的音频波形,而是音乐代码或称电子乐谱。

6、语音识别。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

四、视频信号的获取与处理

1、彩色空间表示及其转换。

颜色是通过眼、脑和我们的生活经验所产生的一种对光的视觉效应。人对颜色的感觉不仅仅由光的物理性质所决定,比如人类对颜色的感觉往往受到周围颜色的影响。有时人们也将物质产生不同颜色的物理特性直接称为颜色。

电磁波的波长和强度可以有很大的区别,在人可以感受的波长范围内(约380纳米至740纳米),它被称为可见光,有时也被简称为光。假如我们将一个光源各个波长的强度列在一起,我们就可以获得这个光源的光谱。一个物体的光谱决定这个物体的光学特性,包括它的颜色。不同的光谱可以被人接收为同一个颜色。虽然我们可以将一个颜色定义为所有这些光谱的总和,但是不同的动物所看到的颜色是不同的,不同的人所感受到的颜色也是不同的,因此这个定义是相当主观的。

一个弥散地反射所有波长的光的表面是白色的,而一个吸收所有波长的光的表面是黑色的。

颜色是人对光的感知,那么黑色就是人对无光的感知,可以说黑色不算是一种真正的颜色。 

一个虹所表现的每个颜色只包含一个波长的光。我们称这样的颜色为单色的。虹的光谱实际上是连续的,但一般人们将它分为七种颜色:红、橙、黄、绿、蓝、靛、紫,但每个人的分法总是稍稍不同的。单色光的强度也会影响人对一个波长的光的颜色的感受,比如暗的橙黄被感受为褐色,而暗的黄绿被感受为橄榄绿,等等。

2、视频信息获取技术

视频采集卡(Video Capture card)也叫视频卡,是将模拟摄像机、录像机、LD视盘机、电视机输出的视频信号等输出的视频数据或者视频音频的混合数据输入电脑,并转换成电脑可辨别的数字数据,存储在电脑中,成为可编辑处理的视频数据文件。按照其用途可以分为广播级视频采集卡,专业级视频采集卡,民用级视频采集卡。

视频采集就是将视频源的模拟信号通过处理转变成 数字信号(即0和1),并将这些数字信息存储在电脑硬盘上的过程。这种模拟/数字转变是通过视频采集卡上的采集芯片进行的。

在电脑上通过视频采集卡可以接收来自视频输入端的模拟视频信号,对该信号进行采集、量化成数字信号,然后压缩编码成数字视频。大多数视频卡都具备硬件压缩的功能,在采集视频信号时首先在卡上对视频信号进行压缩,然后再通过PCI接口把压缩的视频数据传送到主机上。一般的PC视频采集卡采用帧内压缩的算法把数字化的视频存储成AVI文件,高档一些的视频采集卡还能直接把采集到的数字视频数据实时压缩成MPEG-1格式的文件。

由于模拟视频输入端可以提供不间断的信息源,频集卡要采集模拟视频序列中的每帧图像,并在采集下一帧图像之前把这些数据传入PC系统。因此,实现实时采集的关键是每一帧所需的处理时间。如果每帧视频图像的处理时间超过相邻两帧之间的相隔时间,则要出现数据的丢失,也即丢帧现象。采集卡都是把获取的视频序列先进行压缩处理,然后再存入硬盘,也就是说视频序列的获取和压缩是在一起完成的,免除了再次进行压缩处理的不便。不同档次的采集卡具有不同质量的采集压缩性能。

视频(Video)是多幅静止图像(图像帧)与连续的音频信息在时间轴上同步运动的混合媒体,多帧图像随时间变化而产生运动感,因此视频也被称为运动图像。按照视频的存储与处理方式不同,可分为模拟视频和数字视频两种.在高清视频采集录制方面,VGA图像采集卡是数字信息化行业快速发展,很多领域对VGA信号采集的要求提高出现的一种高端产品。现在在不论是在工业行业上机器视觉系统应用,还是在教学上,都应用十分广泛,它综合许多计算机软硬件技术,更涉及到图像处理、人工智能等多个领域。而视频图像采集卡是机器视觉系统的重要组成部分,其主要功能是对相机所输出的视频数据进行实时的采集,并提供与PC的高速接口.

视频采集卡是我们进行视频处理必不可少的硬件设备,是视频数字化合数字化视频编辑后期制作中必不可少的硬件设备。

通过视频采集卡,我们就可以把摄像机拍摄的视频信号从摄像带上转存到计算机中,利用相关的视频编辑软件,  对数字化的视频信号进行后期编辑处理,比如剪切画面,添加滤镱,字幕和音效,设置转场效果以及加入各种视频特效等等,最后将编辑完成的视频信号转换成标准的VCD,DVD以及网上流媒体等格式,方便传播和保存。

3、图像文件格式及其转换

常见的静态文件格式有: 

(1)BMP(Bitmap)格式

BMP(位图格式)是DOS和WindowS兼容计算机系统的标准WindowS图像格式。BMP格式支持RGB、索引颜色、灰度和位图颜色模式,但不支持Alpha通道。BMP格式支持1、4、24、32位的RGB位图。

(2)TIFF(TagImageFileFormat)格式

TIFF(标记图像文件格式)用于在应用程序之间和计算机平台之间交换文件。TIFF是一种灵活的图像格式,被所有绘画、图像编辑和页面排版应用程序支持。几乎所有的桌面扫描仪都可以生成TIFF图像。而且TIFF格式还可加入作者、版权、备注以及自定义信息,存放多幅图像。

(3)GIF(GraphicInterehangeFormat)格式

GIF(图像交换格式)是一种LZw压缩格式,用来最小化文件大小和电子传递时间。在WorldWideWeb和其它网上服务的HTML(超文本标记语言)文档中,GIF文件格式普遍用于现实索引颜色和图像。GIF还支持灰度模式。

(4)JPEG(JointPhotographieExpertsGroup)格式

JPEG(联合图片专家组)是目前所有格式中压缩率最高的格式。目前大多数彩色和灰度图像都使用JPEG格式压缩图像,压缩比很大而且支持多种压缩级别的格式,当对图像的精度要求不高而存储空间又有限时,JPEG是一种理想的压缩方式。在WorldWideweb和其它网上服务的HTML文档中,JPEG用于显示图片和其它连续

       色调的图像文档。JPEG支持CMYK、RGB和灰度颜色模式。JPEG格式保留RGB图像中的所有颜色信息,通过选择性地去掉数据来压缩文件。

(5)PDF(PortableDoCumentFormat)格式

        PDF(可移植文档格式)用于AdobeAerobat,AdobeAerobat是Adobe公司用完Windows、UNIX和DOS系统的一种电子出版软件,目前十分流行。与Postseript页面一样,PDF可以包含矢量和位图图形,还可以包含电子文档查找和导航功能。应视具体情况来决定究竟采用哪种格式,一般来说,Windows下的位图文件BMP格式是目前使用的最广泛的文件格式之一。在应用程序设计中,应着重考虑图像的质量、图像的灵活性、图像的存储效率以及应用程序是否支持这种图像格式等几个方面。由于BMP图像格式结构清晰,操作方便,所以本课题采用BMP图像文件格式进行相应处理。

五、多媒体数据压缩编码技术

1、多媒体数据压缩编码的重要性和分类

在多媒体计算系统中,信息从单一媒体转到多种媒体;若要表示,传输和处理大量数字化了的声音/图片/影像视频信息等,数据量是非常大的。例如,一幅具有中等分辨率(0*480像素)真彩色图像(24位/像素),它的数据量约为每帧7.37Mb。若要达到每秒25帧的全动态显示要求,每秒所需的数据量为184Mb,而且要求系统的数据传输速率必须达到184Mb/s,这在目前是无法达到的。对于声音也是如此。若用16位/样值的PCM编码,采样速率选为44.1kHz,则双声道立体声声音每秒将有176KB的数据量。由此可见音频、视频的数据量之大。如果不进行处理,计算机系统几乎无法对它进行存取和交换。因此,在多媒体计算机系统中,为了达到令人满意的图像、视频画面质量和听觉效果,必须解决视频、图像、音频信号数据的大容量存储和实时传输问题。解决的方法,除了提高计算机本身的性能及通信信道的带宽外,更重要的是对多媒体进行有效的压缩。

多媒体数据之所以能够压缩,是因为视频、图像、声音这些媒体具有很大的压缩力。以目前常用的位图格式的图像存储方式为例,在这种形式的图像数据中,像素与像素之间无论在行方向还是在列方向都具有很大的相关性,因而整体上数据的冗余度很大;在允许一定限度失真的前提下,能对图像数据进行很大程度的压缩。

根据解码后数据与原始数据是否完全一致进行分类,压缩方法可被分为有失真编码和无失真编码两大类。

根据编码原理进行分类,大致有编码、变换编码、统计编码、分析-合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其他编码方法基本上都是有失真的编码。

2、常用的编码方法

信息熵编码、词典编码、预测编码、变换编码、模型编码和混合编码。

3、多媒体数据压缩的国际标准

音频信号是多媒体信息的重要组成部分.音频信号可分为电话质量的语言、调幅广播质量的音频信号和高保真立体声信号(如调频广播信号、激光唱片音盘信号等)

数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩和调频广播及CD音质的宽带音频压缩3种。    

静态图像压缩技术主要是对空间信息进行压缩,而对动态图像来说,除对空间信息进行压缩外,还要对时间信息进行压缩。目前已形成三种压缩标准:JPEG(Joint Photographic Experts Group)标准、h.261标准。

MPEG—是1988年成立的一个专家组,它的标准名称为动态图象及伴音编码。MPEG采用有损和不对称压缩编码算法,在多种视频压缩算法中MPEG是可提供低数据率和高质量的最好算法,其高压缩比可达20:1。MPEG-1是专家组于1991年制定的国际标准。它采用不同的编码参数得到的音视频数据质量也是不一样的。我们所熟悉的VCD就是其中的一种编码。专家组又于1993年制定MPEG-2国际标准,DVD就是采用了这种标准。

六、多媒体系统的人机交互技术

1、人机界面概述

人机界面(Human-Computer Interface,简写HCI,又称用户界面或使用者界面):是人与计算机之间传递、交换信息的媒介和对话接口,是计算机系统的重要组成部分。它实现信息的内部形式与人类可以接受形式之间的转换。凡参与人机信息交流的领域都存在着人机界面。

人机交互是指人与机器的交互,本质上是人与计算机的交互。或者从更广泛的角度理解:人机交互是指人与含有计算机的机器的交互。具体来说,人机交互用户与含有计算机机器之间的双向通信,以一定的符号和动作来实现,如击键,移动鼠标,显示屏幕上的符号/图形等。这个过程包括几个子过程:识别交互对象-理解交互对象-把握对象情态-信息适应与反馈等;而人机界面是指用户与含有计算机的机器系统之间的通信媒体或手段,是人机双向信息交互的支持软件和硬件。这里界面定义为通信的媒体或手段,它的物化体现是有关的支持软件和硬件,如带有鼠标的图形显示终端等。 

交互是人与机-环境作用关系/状况的一种描述。界面是人与机-环境发生交互关系的具体表达形式。交互是实现信息传达的情境刻画,而界面是实现交互的手段。在交互设计子系统中,交互是内容/灵魂,界面是形式/肉体;然而在大的产品设计系统中,交互和界面,都只是解决人机关系的一种手段,不是最终目的,其最终目的是解决和满足人的需求。 

交互设计是从属于产品系统的,是对成功的产品设计的一种强有力的支持与完善。 

如果利用系统论的观点,交互设计是从属于产品设计系统的子系统。

2、多通道用户界面

多通道用户界面(Multi—model User Interface)丰富了信息表现形式,发挥了用户感知信息的效率,拓宽了计算机到用户的通信带宽。而用户到计算机的通信带宽却仍停留在图形用户界面(WIMP/GUI)阶段的键盘和鼠标器,从而成为当今人机交互技术的瓶颈。20世纪80年代后期以来,多通道用户界面成为人机交互技术研究的崭新领域,成为一个非常热门的研究领域。多通道用户界面的研究正是为了消除当前WlMP/GUl、多媒体用户界面通信带宽不平衡的瓶颈,综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以自然、并行、协作的方式进行人机对话,通过整合来自多个通道的精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性“4『。目前的研究方向除了上述内容外还涉及键盘、鼠标器之外的输入通道,主要是语音和自然语言、手势、书写和眼动方面,并以具体系统研究为主。

3、三维人机交互技术

三维交互设备最基本的特点是具有六个自由度。目前,三维交互设备还处于探索阶段,还没有一种输入装置能像二维图形界面中的鼠标那样处于主流地位。现有的被广泛应用的三维输入设备主要有以下几种:  

浮动鼠标(Flying Mouse) 类似于标准的计算机鼠标,但当它离开桌面后就成为一个六自由度探测器,大多数浮动鼠标器的内部都装有电磁探测器。Logitech 3D浮动鼠标利用内构式超声波接受器和具有发射器的固定基座来测量鼠标离开桌面后的位置和方向。这种接收器还可用于虚拟现实系统的声音输入。

手持式操纵器(Wand) 手持式操纵器包含一个位置跟踪探测器和几个按钮,专门适于手中使用。它类似于浮动鼠标,但没有鼠标球,因此,不能在桌面上滚动。

力矩球,也称空间球(Space Ball) 手持式操纵器和浮动鼠标的问题之一是用户必须将设备拿在手中,而力矩球是一种可提供六自由度的桌面设备,它安装在一个小型的固定平台上,可以扭转、压下、拉出和来回摇摆等。力矩球通常使用发光二极管和光接收器进行测量数据手套(Data Glove) 数据手套可以捕捉手指和手腕的相对运动,提供各种手势信号。它也包括一个六自由度探测器,用以跟踪手的实际位置和方向。数据手套被广泛应用于虚拟现实系统中。在虚拟环境中,操作者通过数据手套可以用手去抓或推动虚拟物体,做出各种手势命令。

4、视频点播和交互电视

交互电视ITV(Interactive TV)系统是近年来新出现的一种新的信息服务形式,它为普通的电视机添加了交互能力,使人们可以按照自己的需求获取各种网络服务,包括视频服务、数字图书馆服务、多媒体信息服务等。   与此同时,视频点播VOD(Video on Demand)的名字在媒体上出现得越来越多。对于视频点播,下面的解释具有一定的代表性:“把用户选择的节目,通过通信网的传输,分发到用户终端设备上。”虽然,这种服务看上去似曾相识,可以解释为通过通信网络分发信息,但却潜藏着很多深刻的疑问 “视频点播可以描述为一种娱乐服务,具有交互性。既然ITV与VOD都具有交互性,那么ITV与VOD之间到底是一种什么样的联系呢?目前电信部门和广播部门都在致力于即将出现的交互视频服务的开发,按常规来说,电信部门拥有双向高带宽的光纤信道,而广播部门已经经营视频业务很长时间,并且有大量的单向高带宽的有线视频线路。电信部门的优势是现有的光纤信道,但用户接入线路仍为双绞线,带宽不够,处理的方案是用非对称的数字用户线路ADSL,广播电视部门作为传统视频的提供者,优势是同轴线路已铺设到用户家中,可以提供高带宽用户接入,但单向通路须要改造。从提供视频服务方面来看,电信部门和广电部门既是合作者,又是竞争对手。这种竞争局面造成了交互视频服务的两种系统名称的产生。从广播电视的角度看,把交互视频服务看成是一种电视系统,称为交互电视ITV,用户的终端是电视机,再加上一种交互设备,称为机顶盒。如果从电信角度看,把交互视频服务看成是一种业务,称为视频点播VOD,用户终端既可以是电视机加机顶盒,也可以是一台个人计算机。   

不论是交互电视还是视频点播,它们都是为用户提供交互的视频服务的。他们一个强调用户端,另一个强调系统服务端。值得一提的是这两种名称经常混用。   VOD的体系结构如图1所示。VOD系统由视频服务提供商、传送网络和用户终端组成。视频服务提供商提供视频资料源及其视频服务系统的管理,其设备一般由视频服务器、辅助存储服务器、记账计算机和节目选择计算机组成,如图2所示。视频服务器存储在线的视频源,辅助存储服务器存储后备的大容量视频库。当用户的点播视频资料不在视频服务器中时,须要把后备视频从辅助存储服务器中转移到在线视频服务器中。节目计算机和记账计算机可以是一台计算机,在小型VOD/ITV系统中也可以与视频服务器合用一台计算机,它们承担视频服务器与用户之间的会话管理和VOD/ITV系统的服务管理。用户终端是VOD/ITV向用户提供服务的接口,典型的用户终端设备是机顶盒或个人计算机。传送网络提供下行视频流、上行命令和选择请求的传送。用户接入网常用的形式是运用 双绞线接入的ADSL用户线、同轴电缆接入的MODEM、光纤同轴电缆混合HFC接入或光纤用户环路FTTC(FTTB)接入。  

5、虚拟现实

虚拟现实(Virtual Reality,简称VR;又译作灵境、幻真)是近年来出现的高新技术,也称灵境技术或人工环境。虚拟现实是利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉、听觉、触觉等感官的模拟,让使用者如同身历其境一般,可以及时、没有地观察三度空间内的事物

虚拟现实的基本特征:多感知性(Multi-Sensory)——所谓多感知是指除了一般计算机技术所具有的视觉感知之外,还有听觉感知、力觉感知、触觉感知、运动感知,甚至包括味觉感知、嗅觉感知等。理想的虚拟现实技术应该具有一切人所具有的感知功能。由于相关技术,特别是传感技术的,目前虚拟现实技术所具有的感知功能仅限于视觉、听觉、力觉、触觉、运动等几种。

浸没感(Immersion)——又称临场感,指用户感到作为主角存在于模拟环境中的真实程度。理想的模拟环境应该使用户难以分辨真假,使用户全身心地投入到计算机创建的三维虚拟环境中,该环境中的一切看上去是真的,听上去是真的,动起来是真的,甚至闻起来、尝起来等一切感觉都是真的,如同在现实世界中的感觉一样。

交互性(Interactivity)——指用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度(包括实时性)。例如,用户可以用手去直接抓取模拟环境中虚拟的物体,这时手有握着东西的感觉,并可以感觉物体的重量,视野中被抓的物体也能立刻随着手的移动而移动。

构想性(Imagination)——强调虚拟现实技术应具有广阔的可想像空间,可拓宽人类认知范围,不仅可再现真实存在的环境,也可以随意构想客观不存在的甚至是不可能发生的环境。

由于浸没感、交互性和构想性三个特性的英文单词的第一个字母均为I,所以这三个特性又通常被统称为3I特性。

一般来说,一个完整的虚拟现实系统由虚拟环境、以高性能计算机为核心的虚拟环境处理器、以头盔显示器为核心的视觉系统、以语音识别、声音合成与声音定位为核心的听觉系统、以方位、数据手套和数据衣为主体的身体方位姿态跟踪设备,以及味觉、嗅觉、触觉与力觉反馈系统等功能单元构成。

作品设计思路

一、Photoshop 作品

当你在观看F1赛事有一辆跑车从你的视线飞奔而过的时候,你会有风驰电掣的感觉。基于这个生活场景,我用photo shop制作了一辆跑车飞奔时的画面。

下图就是制作以前的样图。                            

通过添加图层

         再利用动感模糊

就做成了下图的效果

二、Flash作品

由于人类社会的快速发展,大量消耗了自然资源,与此同时也向大气排入了大量温室气体,进而导致全球气候变暖。

两级的冰川也在逐渐融化。基于此我构思了一只海狮趴在即将融化的冰雪上。

先插入一些图层

在库中创建一些声音、图形等

经过整合,最终就做成了如下效果

三、VB作品

听说通过VB可以做成一个简单的计算器,很想尝试一下,通过找了一些资料做成了右图的计算器。

          程序代码如下:

      Public op1 As Byte

Public ops1&, ops2&

Public res As Boolean

Private Sub clear_Click(Index As Integer)

dataout.Caption = ""

End Sub

Private Sub Form_Load()

  res = False

End Sub

Private Sub number_Click(i1 As Integer)

  If Not res Then

    dataout.Caption = dataout.Caption & i1

  Else

    dataout.Caption = i1

    res = False

  End If

End Sub

Private Sub operator_Click(i2 As Integer)

  ops1 = dataout.Caption

  op1 = i2

  dataout.Caption = ""

End Sub

Private Sub result_Click(Index As Integer)

 ops2 = dataout.Caption

  Select Case op1

  Case 0

    dataout.Caption = ops1 + ops2

  Case 1

    dataout.Caption = ops1 - ops2

  Case 2

    dataout.Caption = ops1 * ops2

  Case 3

    dataout.Caption = ops1 / ops2

  End Select

  res = True

End Sub

小结:随着计算机科学与技术的飞速发展,计算机的应用已经渗透到国民经济与人们生活的各个角落,正在日益改变着传统的人类工作方式和生活方式。作为当代的大学生掌握基础的多媒体计算机技术是非常有必要的,通过学习Potoshop、Flash和VB,使我掌握了很多新的知识。在今后我还会不断的学习多媒体知识,完善自己、充实自己!

文档

多媒体计算机技术综述

多媒体计算机技术综述多媒体计算机技术内容摘要:多媒体技术是基于计算机技术的综合技术。它包括数字信号处理技术、音频和视频技术、计算机软件和硬件技术、人工智能和模式识别技术、通信和图像处理技术等,是一门不断发展的跨学科的高新技术。关键字:计算机硬件、音频信息、视频信号、压缩编码技术、人机交互技术一、多媒体技术概述1、多媒体技术的基本概念。所谓媒体就是人与人之间为达到交流的目的所利用的介质,是指人们用于存储和传递各种信息的载体,同时也是是信息表示和传输的载体。媒体分为感觉媒体(指的是能直接作用于人们
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top