语料库语言学术语集
来源:动视网
责编:小OO
时间:2025-09-24 12:16:49
语料库语言学术语集
Absolutefrequency绝对频数Alignment(ofparalleltexts)(平行或对应)语料的对齐Alphanumeric字母数字类的Annotate标注(动词)Annotation标注(名词)Annotationscheme标注方案ANSI/AmericanNationalStandardsInstitute美国国家标准学会ASCII/AmericanStandardCodeforInformationExchange美国信息交换标准码Associate(ofkeywor
导读Absolutefrequency绝对频数Alignment(ofparalleltexts)(平行或对应)语料的对齐Alphanumeric字母数字类的Annotate标注(动词)Annotation标注(名词)Annotationscheme标注方案ANSI/AmericanNationalStandardsInstitute美国国家标准学会ASCII/AmericanStandardCodeforInformationExchange美国信息交换标准码Associate(ofkeywor
| Absolute frequency | 绝对频数 |
| Alignment (of parallel texts) | (平行或对应)语料的对齐 |
| Alphanumeric | 字母数字类的 |
| Annotate | 标注(动词) |
| Annotation | 标注(名词) |
| Annotation scheme | 标注方案 |
| ANSI/American National Standards Institute | 美国国家标准学会 |
| ASCII/American Standard Code for Information Exchange | 美国信息交换标准码 |
| Associate (of keywords) | (主题词的)联想词 |
| AWL/Academic word list | 学术词表 |
| Balanced corpus | 平衡语料库 |
| Base list | 底表、基础词表 |
| Bigram | 二元组、二元序列、二元结构 |
| Bi-hapax | 两次词 |
| Bilingual corpus | 双语语料库 |
| CA/Contrastive Analysis | 对比分析 |
| Case-sensitive | 大小写敏感、区分大小写 |
| Chi-square (χ2) test | 卡方检验 |
| Chunk | 词块 |
| CIA/Contrastive Interlanguage Analysis | 中介语对比分析 |
| CLAWS/Constituent Likelihood Automatic Word-tagging System | CLAWS词性赋码系统 |
| Clean text policy | 干净文本原则 |
| Cluster | 词簇、词丛 |
| Colligation | 类联接、类连接、类联结 |
| Collocate n./v. | 搭配词;搭配 |
| Collocability | 搭配强度、搭配力 |
| Collocation | 搭配、词语搭配 |
| Collocational strength | 搭配强度 |
| Collocational framework/frame | 搭配框架 |
| Comparable corpora | 类比语料库、可比语料库 |
| ConcGram | 同现词列、框合结构 |
| Concordance (line) | 索引(行) |
| Concordance plot | (索引)词图 |
| Concordancer | 索引工具 |
| Concordancing | 索引生成、索引分析 |
| Context | 语境、上下文 |
| Context word | 语境词 |
| Contingency table | 连列表、联列表、列连表、列联表 |
| Co-occurrence/Co-occurring | 共现 |
| Corpora | 语料库(复数) |
| Corpus Linguistics | 语料库语言学 |
| Corpus | 语料库 |
| Corpus-based | 基于语料库的 |
| Corpus-driven | 语料库驱动的 |
| Corpus-informed | 语料库指导的、参考了语料库的 |
| Co-select/Co-selection/Co-selectiveness | 共选(机制) |
| Co-text | 共文 |
| DDL/Data Driven Learning | 数据驱动学习 |
| Diachronic corpus | 历时语料库 |
| Discourse | 话语、语篇 |
| Discourse prosody | 话语韵律 |
| Documentation | 备检文件、文检报告 |
| EAGLES/Expert Advisory Groups on Language Engineering Standards | EAGLES文本规格 |
| Empirical Linguistics | 实证语言学 |
| Empiricism | 经验主义 |
| Encoding | 字符编码 |
| Error-tagging | 错误标注、错误赋码 |
| Extended unit of meaning | 扩展意义单位 |
| File-based search/concordancing | 批量检索 |
| Formulaic sequence | 程式化序列 |
| Frequency | 频数、频率 |
| General (purpose) corpus | 通用语料库 |
| Granularity | 颗粒度 |
| Hapax legomenon/hapax | 一次词 |
| Header/Text head | 文本头、头标、头文件 |
| HMM/Hidden Markov Model | 隐马尔科夫模型 |
| Idiom Principle | 习语原则 |
| Index/Indexing | (建)索引 |
| In-line annotation | 文内标注、行内标注 |
| Key keyword | 关键主题词 |
| Keyness | 主题性、关键性 |
| Keyword | 主题词 |
| KWIC/Key Word in Context | 语境中的关键词、语境共现(方式) |
| Learner corpus | 学习者语料库 |
| Lemma | 词目、原形词、词元 |
| Lemma list | 词形还原对应表 |
| Lemmata | 词目、原形词、词元(复数) |
| Lemmatization | 词形还原、词元化 |
| Lemmatizer | 词形还原(词元化)工具 |
| Lexical bundle | 词束 |
| Lexical density | 词汇密度 |
| Lexical item | 词项、词语项目 |
| Lexical priming | 词汇触发理论 |
| Lexical richness | 词汇丰富度 |
| Lexico-grammar/Lexical grammar | 词汇语法 |
| Lexis | 词语、词项 |
| LL/Log likelihood (ratio) | 对数似然比、对数似然率 |
| Longitudinal/Developmental corpus | 跟踪语料库、发展语料库、历时语料库 |
| Machine-readable | 机读的 |
| Markup | 标记、置标 |
| MDA/Multi-dimensional approach | 度分析法 |
| Metadata | 元信息 |
| Meta-metadata | 元元信息 |
| MF/MD (Multi-feature/Multi-dimensional) approach | 多特征/度分析法 |
| Mini-text | 微型文本 |
| Misuse | 误用 |
| Monitor corpus | (动态)监察语料库 |
| Monolingual corpus | 单语语料库 |
| Multilingual corpus | 多语语料库 |
| Multimodal corpus | 多模态语料库 |
| MWU/Multiword unit | 多词单位 |
| MWE/Multiword expression | 多词单位 |
| MI/Mutual information | 互信息、互现信息 |
| N-gram | N元组、N元序列、N元结构、N元词、多词序列 |
| NLP/Natural Language Processing | 自然语言处理 |
| Node | 节点(词) |
| Normalization | 标准化 |
| Normalized frequency | 标准化频率、标称频率、归一频率 |
| Observed corpus | 观察语料库 |
| Ontology | 知识本体、本体 |
| Open Choice Principle | 开放选择原则 |
| Overuse | 超用、过多使用、使用过度、过度使用 |
| Paradigmatic | 纵聚合(关系)的 |
| Parallel corpus | 平行语料库、对应语料库 |
| Parole linguistics | 言语语言学 |
| Parsed corpus | 句法标注的语料库 |
| Parser | 句法分析器 |
| Parsing | 句法分析 |
| Pattern/patterning | 型式 |
| Pattern grammar | 型式语法 |
| Pedagogic corpus | 教学语料库 |
| Phraseology | 短语、短语学 |
| POSgram | 赋码序列、码串 |
| POS tagging/Part-of-Speech tagging | 词性赋码、词性标注、词性附码 |
| POS tagger | 词性赋码器、词性赋码工具 |
| Prefab | 预制语块 |
| Probabilistic | (基于)概率的、概率性的、盖然的 |
| Probability | 概率 |
| Rationalism | 理性主义 |
| Raw text/Raw corpus | 生文本(语料) |
| Reference corpus | 参照语料库 |
| Regex/RE/RegExp/Regular Expressions | 正则表达式 |
| Register variation | 语域变异 |
| Relative frequency | 相对频率 |
| Representative/Representativeness | 代表性(的) |
| Rule-based | 基于规则的 |
| Sample n./v. | 样本;取样、采样、抽样 |
| Sampling | 取样、采样、抽样 |
| Search term | 检索项 |
| Search word | 检索词 |
| Segmentation | 切分、分词 |
| Semantic preference | 语义倾向 |
| Semantic prosody | 语义韵 |
| SGML/Standard Generalized Markup Language | 标准通用标记语言 |
| Skipgram | 跨词序列、跨词结构 |
| Span | 跨距 |
| Special purpose corpus | 专用语料库、专门用途语料库、专题语料库 |
| Specialized corpus | 专用语料库 |
| Standardized TTR/Standardized type-token ratio | 标准化类符/形符比、标准化类/形比、标准化型次比 |
| Stand-off annotation | 分离式标注 |
| Stop list | 停用词表、过滤词表 |
| Stop word | 停用词、过滤词 |
| Synchronic corpus | 共时语料库 |
| Syntagmatic | 横组合(关系)的 |
| Tag | 标记、码、标注码 |
| Tagger | 赋码器、赋码工具、标注工具 |
| Tagging | 赋码、标注、附码 |
| Tag sequence | 赋码序列、码串 |
| Tagset | 赋码集、码集 |
| Text | 文本 |
| TEI/Text Encoding Initiative | 文本编码计划 |
| The Lexical Approach | 词汇中心教学法 |
| The Lexical Syllabus | 词汇大纲 |
| Token | 形符、词次 |
| Token definition | 形符界定、单词界定 |
| Tokenization | 分词 |
| Tokenizer | 分词工具 |
| Transcription | 转写 |
| Translational corpus | 翻译语料库 |
| Treebank | 树库 |
| Trigram | 三元组、三元序列、三元结构 |
| T-score | T值 |
| Type | 类符、词型 |
| TTR/Type-token ratio | 类符/形符比、类/形比、型次比 |
| Underuse | 少用、使用不足 |
| Unicode | 通用码 |
| Unit of meaning | 意义单位 |
| WaC/Web as Corpus | 网络语料库 |
| Wildcard | 通配符 |
| Word definition | 单词界定 |
| Word form | 词形 |
| Word family | 词族 |
| Word list | 词表 |
| XML/EXtensible Markup Language | 可扩展标记语言 |
| Zipf's Law | 齐夫定律 |
| Z-score | Z值 |
语料库语言学术语集
Absolutefrequency绝对频数Alignment(ofparalleltexts)(平行或对应)语料的对齐Alphanumeric字母数字类的Annotate标注(动词)Annotation标注(名词)Annotationscheme标注方案ANSI/AmericanNationalStandardsInstitute美国国家标准学会ASCII/AmericanStandardCodeforInformationExchange美国信息交换标准码Associate(ofkeywor