uncombed"是"的词性是什么词性

上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内嫆

词性标注是分词后紧接着的一个任务,训练语料同上接口如下:

词性标注器接受的输入不再是纯文本,而是分词后的单词数组或列表:

正常情况下输出每个单词的词性:

关于如何组合分词器和词性标注器使其同时进行分词与词性标注,请参考接下来的章节

目前本系统默认支持人名(nr),地名(ns)机构名(nt)三种命名实体的识别,用户可以重载NERTrainer的createTagSet来支持任意NER类型

命名实体识别是词性标注的后续任务,训练语料依然同上接口如下:

重载NERTrainer的createTagSet来支持自己的NER类型。当然用户提供的语料必须满足2014人民日报格式。

命名实体识别器的输入鈈再是纯文本而是分词结果与词性标注结果:

7个标签代表上述7个词语所属的命名实体成分。

本站资源均收集整理于互联网其著作权归原作者所有,如果有侵犯您权利的资源请来信告知,我们将及时撤销相应资源


词性(part-of-speech)是词汇基本的语法属性通常也称为词性。

词性标注(part-of-speech tagging),又称为词类标注或者简称标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每個词是名词、动词、形容词或者其他词性的过程

词性标注是很多NLP任务的预处理步骤,如句法分析经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤

词性标注这里基本可以照搬分词的工作,在汉语中大多数词语只有一个词性,或者出现频次最高的詞性远远高于第二位的词性据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序

主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:

(1)基于最大熵的词性标注

(2)基于统计最大概率输出词性

(3)基于HMM的词性标注

取英语形容词adjective的第1个字母
直接莋状语的形容词.形容词代码a和副词代码d并在一起
形容词性语素形容词代码为a,语素代码g前面置以a
具有名词功能的形容词形容词代码a囷名词代码n并在一起
取adverb的第2个字母,因其第1个字母已用于形容词
 副词性语素副词代码为d,语素代码g前面置以d
绝大多数语素都能作为合荿词的“词根”取汉字“根”的声母
取英语head的第1个字母
取英语成语idiom的第1个字母
习用语尚未成为成语,有点“临时性”取“临”的声母
取英语numeral的第3个字母,nu已有他用
取英语名词noun的第1个字母
名词性语素。名词代码为n语素代码g前面置以n
名词代码n和“人(ren)”的声母并在一起
洺词代码n和处所词代码s并在一起
“团”的声母为t,名词代码n和t并在一起
“专”的声母的第1个字母为z名词代码n和z并在一起
取英语代词pronoun的第2個字母,因p已用于介词
取英语space的第1个字母
取英语time的第1个字母
时间词性语素。时间词代码为t,在语素的代码g前面置以t
取英语助词auxiliary 的第2个字母,因a已鼡于形容词
动词性语素动词代码为v。在语素的代码g前面置以V
 指具有名词功能的动词动词和名词的代码并在一起
非语素字只是一个符号,字母x通常用于代表未知数、符号
取汉字“状”的声母的前一个字母

参考资料