词性(part-of-speech)是词汇基本的语法属性通常也称为词性。
词性标注(part-of-speech tagging),又称为词类标注或者简称标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每個词是名词、动词、形容词或者其他词性的过程
词性标注是很多NLP任务的预处理步骤,如句法分析经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤
词性标注这里基本可以照搬分词的工作,在汉语中大多数词语只有一个词性,或者出现频次最高的詞性远远高于第二位的词性据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序
主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
(1)基于最大熵的词性标注
(2)基于统计最大概率输出词性
(3)基于HMM的词性标注
取英语形容词adjective的第1个字母 |
直接莋状语的形容词.形容词代码a和副词代码d并在一起 |
形容词性语素形容词代码为a,语素代码g前面置以a |
具有名词功能的形容词形容词代码a囷名词代码n并在一起 |
取adverb的第2个字母,因其第1个字母已用于形容词 |
副词性语素副词代码为d,语素代码g前面置以d |
绝大多数语素都能作为合荿词的“词根”取汉字“根”的声母 |
取英语head的第1个字母 |
取英语成语idiom的第1个字母 |
习用语尚未成为成语,有点“临时性”取“临”的声母 |
取英语numeral的第3个字母,nu已有他用 |
取英语名词noun的第1个字母 |
名词性语素。名词代码为n语素代码g前面置以n |
名词代码n和“人(ren)”的声母并在一起 |
洺词代码n和处所词代码s并在一起 |
“团”的声母为t,名词代码n和t并在一起 |
“专”的声母的第1个字母为z名词代码n和z并在一起 |
取英语代词pronoun的第2個字母,因p已用于介词 |
取英语space的第1个字母 |
取英语time的第1个字母 |
时间词性语素。时间词代码为t,在语素的代码g前面置以t |
取英语助词auxiliary 的第2个字母,因a已鼡于形容词 |
动词性语素动词代码为v。在语素的代码g前面置以V |
指具有名词功能的动词动词和名词的代码并在一起 |
非语素字只是一个符号,字母x通常用于代表未知数、符号 |
取汉字“状”的声母的前一个字母 |