
| 题 目 | 半结构化数据的结构化映射研究 | |||||
| 学生姓名 | 唐炜强 | 班级学号 | B070703 B07070327 | 专业 | 数字媒体技术 | |
| 提纲(开题报告2000字以上): 1. 对指导教师下达的课题任务的学习与理解 2. 阅读文献资料进行调研的综述 3. 根据任务书的任务及文献调研结果,初步拟定的执行(实施)方案(含具体进度计划) 1. 对指导教师下达的课题任务的学习与理解 随着Internet 日益普及,网络数据不断增长,Internet已经成为人们的主要信息来源之一。网络信息资源的动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困难。 Internet上拥有的大量数据,按照结构可以将Web数据分为三种,一种是结构化数据,如关系数据库中的数据;一种是无结构的数据,如声音、图像等数据;还有一种是介于这两种情况之间的数据,称为半结构化数据(semi-structured data)。据统计,全世界有80%以上的数据是以半结构化数据形式存在的。 如何对网络信息资源进行合理的描述,组织、管理网络信息资源,提高信息利用率,是目前的研究热点。而要解决这个问题,就需要实现半结构化数据到结构化数据之间的映射。本课题就是研究这方面问题的,并且主要按照实用和有效的原则,研究网站半结构化数据的结构化映射,实现半结构化数据的结构化转换。 按照本课题的研究方向,本人要先认真研究半结构化数据的相关知识,调研目前同类网站应用中对半结构化数据结构化处理的现状,着重研究Web包装器(Wrapper)方面的知识。然后,在分析现有技术的基础上,结合自己的设计特色提出一套可行的实现“网站应用中的半结构化数据的结构化映射”的解决方案,并设计出一种基于预定义模式的Web网页结构化数据抽取包装器软件,进而设计完成本课题要求的原型软件系统,实现从非结构化的、不包括任何语义的HTML文档中抽取结构化语义数据的功能。最后,选取几个Web页面进行了数据抽取验证和抽取结果分析,验证该软件的容错性和实用性,确保达到一定的性能要求。 2. 阅读文献资料进行调研的综述 半结构化数据(semi-structured data)介于模式固定的结构化数据(如关系库中的表/元组和对象库中的类型/对象)和完全没有模式的无序数据(如正文、声音、图象)之间。 Serge Abiteboul在《Querying semi-structured data》中定义半结构化数据为:半结构化数据是指那些既不是完全无结构的,也不是传统数据库系统中那样有严格结构的数据。 李庆华和刘昊在《用待确定的上下文无关文法分析半结构化数据》中给出的数据以及半结构化数据的定义如下: 定义1(数据):数据可以看作是一个有序的流a1a2...an,对数据的一个有序划分是指对a1a2...an的一个划分Δ1,Δ2,…,Δm,它满足Δ1Δ2…Δm→a1a2... an。 定义2(半结构化数据):如果数据的结构所对应的语言无法用全局一致的上下文无关文法描述但是存在数据的一个有序划分,对分割出来的每个分划,利用前i个分划的语义信息,可以得到第i+1个分划的局部一致的上下文无关文法,则称之为半结构化数据。 半结构化数据主要来源有三个方面: 1)在WWW等对存储数据无严格模式的情形下,常见的有HTML、XML和SGML文件; 2)在电子邮件、电子商务、文献检索和病历处理中,存在着大量结构和内容均不固定的数据; 3)异构信息源集成情形下,由于信息源上的互操作要存取的信息源范围很广,包括各类数据库、知识库、电子图书馆和文件系统等。 半结构化数据的特点是数据的结构不规则或不完整。这种缺乏严格、完整结构的特点决定了半结构化数据既包含内容信息又包含属性特征之间层次结构关系的特性。其结构可能是隐含的、不完整的,甚至可能是需要不断修改的。 由于半结构化数据具有这些特点,其数据模型的描述能力就显得十分重要了。要对它进行有效存储、查询和数据分析,就要根据需求设计结构合理的数据模型对半结构化数据的结构和数据内容进行描述。目前已提出的半结构化数据模型主要有三类:基于关系的数据模型及扩展、面向对象的数据模型以及基于有向图的数据模型。 在对半结构化数据的模式研究方面,目前主要分为基于逻辑的描述和基于图的描述两种描述形式。对于模式的研究重点主要集中在模式的抽取上,即给定一个数据实例,在没有任何先验知识的情况下,自动地计算数据的相应模式;如果存在多个可能的模式,选择能最好描述给定数据的模式。典型的模式抽取技术包括基于逻辑规则的抽取,面向图模式的抽取和基于数据挖掘方法的抽取。 在半结构化数据挖掘方面,主要有两个研究方向:一是半结构化数据特征的提取方法研究;二是根据半结构化数据的特点,基于所抽取出的数据特征进行分类和聚类等知识发现研究。 Internet上拥有的大量数据,按照结构可以将Web数据分为三种,一种是结构化数据,如关系数据库中的数据;一种是无结构的数据,如声音、图像等数据;还有一种是介于这两种情况之间的数据,称为半结构化数据。据统计,全世界有80%以上的数据是以半结构化数据形式存在的。网络上的SGML文档、Web数据和XML数据等都是半结构化数据。尤其以XML为代表的半结构化数据模型,以其自身良好的可扩展性、自描述性和动态可变性等特点,成为了数据存储、数据交换方面的首选类型。 XML(eXtensible Markup Language)是标准的通用标记语言SGML[ISO8879]的一个子集,用于支持Intemet上有结构文档的交换。和HTML(Hypertext Markup Language)相比,XML是面向内容的,它具有更多样化的结构和更丰富的语义,并具有可扩展性良好、易于掌握和自描述等特点,适用于Web上的数据交换。XML数据模型与半结构数据模型有着很多的相似性,它既为半结构数据的研究提供了广阔的应用前景,同时也推动了半结构化数据研究的发展。 随着Internet 日益普及,网络数据不断增长,Internet已经成为人们的主要信息来源之一。网络信息资源的动态性、分布性、多元性和无序性等特点,使信息的查找和检索变得越来越困难。对于21世纪的信息用户和信息管理者来说,困扰他们的不是信息太少,而是信息过多的问题。 因此,如何对网络信息资源进行合理的描述,组织、管理网络信息资源,提高信息利用率,是目前的研究热点。而要解决这个问题,就需要解决半结构化数据如何与结构化数据之间建立某种关联的问题。本课题就是研究这方面问题的,并且主要按照实用和有效的原则,研究网站半结构化数据的结构化映射,实现半结构化数据的结构化转换。 针对Internet上的数据半结构化的特点,寻找一个半结构化的数据模型则成为了解决上述问题的关键之一。此外,要解决这些问题还要研究网站设计与Web应用开发技术,以及与网站方面有联系的数据库技术、数据仓库技术和信息抽取技术等。结合本课题的研究方向,这里主要了解下信息抽取技术的有关情况。 信息抽取可以理解为一个从待处理文本中抽取信息,并依次填入输出模板(Template)相应的槽(Slot)中的过程。输出模板是由多个槽组成,它是信息抽取系统结构化的输出结果。运用完全(深层)句法分析(Full Syntactic Analysis)或浅层句法分析(Shallow Syntactic Analysis)的信息抽取系统的结构会有一些不同,但是它们的主要结构都可以由图1所示的结构表示。 图1 通用信息抽取系统结构图 这个通用的信息抽取系统结构是由C. Cardie在《Empirical methods in information extraction》中提出的。该结构由五个步骤组成:①符号化和标注(Tokenization and Tagging)。输入文档首先经过分段、分句后进行词性标注,有些系统还会加入语义标注。对于中文文档而言,在文档完成了分句后还要进行自动分词的处理。由于汉语本身的特点,该步骤的处理对于中文信息抽取系统的性能起着比较关键的作用。②句法分析(Sentence Analysis)。信息抽取系统将识别待处理文本的名词短语、动词短语等各种语法结构,并选择一步或多步策略进行句法分析,以识别与抽取任务相关的各类命名实体(NE)。③抽取(Extraction)。系统利用与领域相关的抽取模式来识别待处理文本中各个命名实体间的关系,根据抽取任务将需要抽取的信息抽取出来,并填入到输出模板的槽中。④指代合并(Merging)。它主要解决待处理文本中命名实体的指代重复问题(Coreference Resolution)。系统如果发现两个指代都指向同一个命名实体,则将两个指代合并。让信息抽取系统识别待处理文本中相同命名实体的不同表达式,并将它们合并是一项比较艰巨的任务。这个问题解决的好坏直接影响着信息抽取系统的性能。⑤模板生成(Template Generation)。这一步主要完成推理和新模板生成的工作。推理是根据抽取任务并结合领域知识来对待处理文本进行推断以得出抽取信息。当待处理文档中包含多个事件(Event)时,则需要生成多个模板分别对这些事件进行信息抽取。 针对网站应用中的半结构化数据的结构化映射可以看作是一种信息抽取的过程。具体在针对Web网页的结构化数据抽取中,Web包装器(Wrapper)是系统的关键部分。Web包装器软件的任务就是负责抽取HTML格式的数据并转化为结构化的数据。基于Web包装器的应用程序能以访问数据库中信息的方式来访问Web数据。 Web包装器是根据特定的抽取规则从特定的Web数据源执行数据抽取的程序。Web包装器的核心是抽取规则。抽取规则是用于从每个HTML文档中抽取相关信息。抽取规则是基于HTML文档格式的。对于HTML文档,有两种看待方式:一种是将文档看作字符流;另一种是将文档看作树结构。相应地,抽取规则也可以分为基于分界符(或界标符)的规则和基于树路径的规则。 然而,对不同格式的HTML文档的抽取需要使用不同的抽取规则,因而Web包装器是与数据源的格式相关的。这样,每个数据源都需要有各自的Web包装器。如果这些Web包装器都由手工编写,则工作量非常大,而且当数据源增加或删除时的维护代价很大。因此,目前在Web包装器生成方法方面有了很多的研究。Web包装器的生成方法可以分为三类:Wrapper程序语言方法,机器学习的方法,受指导的交互式Wrapper生成方法。 Web包装器建立之后,就有了Web包装器维护方面的问题。由于Web包装器与页面格式相关,当Web数据源的页面格式发生变化时,原来生成的Web包装器就会失效。为了保证连续而正确的Web数据抽取,就需要对Web包装器进行维护。 一般情况下,Web包装器的生命周期包括“生成、运行、失效后维护、再生成、运行”这样一个循环往复的过程。维护的步骤首先要进行Web包装器的验证,然后,进入维护过程。当页面发生变化时,Web包装器所抽取的数据就可能不正确或抽取不到数据,这样就触发了维护例程。首先,系统尽可能利用已存信息自动地进行维护。维护实际上是使Web包装器能适应新的页面格式并能够正确抽取数据。页面的格式发生变化,则原有Web包装器所依据的抽取规则已经无法适应新页面的格式。这样,问题转化到抽取规则的修复上,也就是重新获取抽取规则的过程。而依照Web包装器生成过程,抽取规则一般是从已经标记的例子中获得。手工的方法是Wrapper程序员用特定的程序语言来实现抽取规则;机器学习的方法是从大量的用户已经标记的例子中不断学习并得到抽取规则;受指导的交互方法是通过与用户的交互获得抽取规则。这样,维护在本质上是在新页面中重新得到用户需要的数据及其标记,根据这些数据在页面中的格式重新建立抽取规则,从而完成Web包装器的自动修复过程。如果在上述过程中,系统根据已有的信息无法重新得到用户所需要的数据,或者得到数据后无法自动地生成抽取规则,那么系统就应该发出警告,然后由维护人员来亲自参与维护过程。 参考文献: [1] 吴伟敏.网站设计与Web应用开发技术[M].北京:清华大学出版社,2009. [2] 王红卫,马红,张素智,赵宇.基于预定义模式的Web网页结构化数据抽取[J].郑州轻工业学院学报(自然科学版),2008,23(6):1-3. [3] 胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3): 65-69. [4] 冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. [5] 许学标,顾宁,施伯乐.半结构化数据模型及查询语言[J].计算机研究与发展,1998,35(10): 6-901. [6] Florescu D. Database Techniques for the World-Wide Web: A Survey. ACMSIGMOD Record. 1998,27(3):59~74. [7] Papakonstantinou Y,Garcia-Molina H,Widom J.Object Exchange Across Heterogeneous Information Sources. Proc. Of ICDE. Taipei,1995,251-260. [8] Thomas Connolly.数据库系统——设计、实现与管理(第三版).北京:电子工业出版社,2004. [9] Inmon WH.数据仓库[M].王志海等译.北京:机械工业出版社,2000. [10] 刘迁,焦慧,贾惠波.信息抽取技术的发展现状及构建方法的研究[J].计算机应用研究,2007,24(7):6. [11] Serge Abiteboul. Querying semi-structured data. In:Foto Afrati, Phokion Kolaities ed. Lecture Notes in Computer Science 1186, Database Theory-ICDT’97.New York, Springer-Verlag, 1997, 1-18. [12] 李庆华,刘昊.用待确定的上下文无关文法分析半结构化数据[J].华中理工大学学报,1999,27(5):60. [13] CARDIE C.Empirical methods in information extraction [ J].A I Magazine,1997,18(4): 65-78. [14] 贺令亚,柳佳刚.基于Web的包装器技术的现状与发展[J].电脑开发与应用,2007,20(6):27-29. [15] 孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,11:32-36. 3. 根据任务书的任务及文献调研结果,初步拟定的执行(实施)方案(含具体进度计划) 第一阶段:文献调研及相关理论知识学习阶段(2~3周) 阅读相关书籍、文献资料,掌握理论基础,并完成开题报告和外文翻译。其中,书籍包括《网站设计与Web应用开发技术》 、《数据库系统——设计、实现与管理》和《数据仓库》等。 第二阶段:实践探索阶段(约2周) 熟悉相关知识,深入研究课题的设计内容,特别是掌握Web包装器(Wrapper)设计方面的知识要点。 第三阶段:方案构思阶段(2~3周) 进一步深入研究,查阅相关资料,在分析现有技术的基础上,结合自己的设计思路,设计一套可行的解决方案。
第四阶段:初步成果的形成(约2周) 根据解决方案,完成基本模型框架的建立,设计出一种基于预定义模式的Web网页结构化数据抽取包装器软件,并进一步建立起初步的软件系统。 第五阶段:改进优化阶段(约2周) 进行相关测试,发现存在问题,进一步优化,实现符合要求的原型软件系统。 第六阶段:整理总结阶段(约2周) 整理材料,撰写论文,准备参加答辩。 | ||||||
| 指导教师批阅意见 | 指导教师(签名): 2011年3 月 24 日 | |||||
