
在人类社会发展的过程中,从原始社会到农业社会,再到工业社会,最终走向信息社会,人工智能成为了信息时代的核心目标。人与语言的关系紧密,语言不仅是思维的工具,更是人类智慧的体现。因此,自然语言处理作为模拟人类语言智能的重要研究方向,受到了广泛关注。
然而,自然语言处理中最大的挑战在于语义处理。自然语言的语义存在不确定性,且形式化困难,这使得语义处理成为瓶颈。基于大规模标注语料库的语义处理已成为发展趋势。语料标注本质上是语言知识(包括语义)的形式化过程。现有的句法标注模型主要包括基于短语结构语法(PSG)和基于依存语法(DG)的模型,但这些模型在实际应用中仍存在局限性。
为此,本文基于现有句法标注模型,并结合认知语法(CG)的理论,提出了改进思路,以探索新的句法标注模型。句法标注模型的核心在于理解语言与认识的关系。语言的意义是人对主客观世界的认知结果,而主客观世界的复杂性决定了语言的复杂性。语言不仅是人的认知的一部分,也是认知活动的一种表现。
认识过程可以分为四个基本因素:认识主体、认识工具、认识方法和认识对象。这些因素共同作用,决定了最终的认识结果。认识结果并非简单地还原认识对象,而是对对象的选择性反映,具有主观能动性。因此,认识过程本质上是一种建模过程,即建立认识对象的心理模型、数学模型和物理模型。
在语言处理中,数学模型尤为重要。传统的建模方法主要用于建立数学和物理模型,而在语言处理中,数学模型的应用更为广泛,特别是在统计语言模型(如统计语言模型)的应用中。然而,统计语言模型的性能依赖于训练语料的规模和质量。目前,随着语料库的不断积累和计算机技术的进步,语料库的语言知识的规模和质量成为了关键。
计算机语言知识的获得主要依赖于人的标注。经过标注的语料可以用于语言学研究、语言教学、语言测试、词典编撰等领域。因此,语料标注(corpus tagging)变得尤为重要。语料标注主要包括词汇标注(lexical tagging)、句法标注(syntax tagging)和语篇标注(discourse tagging)等内容。
句法标注是语料标注中的瓶颈问题。现有的句法标注模型难以统一描述句法结构,特别是语义结构,这导致标注主观性大,自动标注准确率低。因此,研究新的句法标注模型显得尤为迫切。语料库语言学作为一门新兴学科,其基础理论是句法标注模型,与语言学的句法理论密切相关。通过借鉴现有句法理论,并从语料库语言学的角度研究句法,有望提出新的句法标注模型。