能力说明
能力名称:中文分词
功能简介
分词模块,将一段文本进行分词处理后,输出结果
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 需要分词的字段 | 文本 | 是 | fmt_title,fmt_format_content | 指定需要分词的字段 |
| 词颗粒 | 文本 | 否 | 默认 | 设置分词的词颗粒大小 |
| 自定义词典 | 文本 | 否 | 无 | 设置分词的自定义词典,词之间用逗号分隔(全角或半角) |
输入简介
无
输入数据样例
{"format_content":"你好中国"}
输出简介
新增字段,字段名为"seg+处理字段"。该字段内容为json格式,u为语义指纹,k为关键词,w为普通分词结果。词性定义请参考北大规范
| ----- | ----- | ----- | ----- | ----- | |代码 |名称 |帮助记忆的诠释 | - | - | - | |Ag1 |形语素 |形容词性语素。形容词代码为a,语素代码g前面置以A。 |a |形容词 |取英语形容词adjective的第1个字母。 |ad |副形词 |直接作状语的形容词。形容词代码a和副词代码d并在一起。 |an |名形词 |具有名词功能的形容词。形容词代码a和名词代码n并在一起。 |B |区别词 |取汉字“别”的声母。 |c |连词 |取英语连词conjunction的第1个字母。 |Dg |副语素 |副词性语素。副词代码为d,语素代码g前面置以D。 |d |副词 |取adverb的第2个字母,因其第1个字母已用于形容词。 |e |叹词 |取英语叹词exclamation的第1个字母。 |f |方位词 |取汉字“方”的声母。 |g |语素 |绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 |h |前接成分 |取英语head的第1个字母。 |i |成语 |取英语成语idiom的第1个字母。 |j |简称略语 |取汉字“简”的声母。 |k |后接成分 | |l |习用语 |习用语尚未成为成语,有点“临时性”,取“临”的声母。 |m |数词 |取英语numeral的第3个字母,n,u已有他用。 |Ng |名语素 |名词性语素。名词代码为n,语素代码g前面置以N。 |n |名词 |取英语名词noun的第1个字母。 |nr |人名 |名词代码n和“人(ren)”的声母并在一起。 |ns |地名 |名词代码n和处所词代码s并在一起。 |nt |机构团体 |“团”的声母为t,名词代码n和t并在一起。 |nz |其他专名 |“专”的声母的第1个字母为z,名词代码n和z并在一起。 |o |拟声词 |取英语拟声词onomatopoeia的第1个字母。 |p |介词 |取英语介词prepositional的第1个字母。 |q |量词 |取英语quantity的第1个字母。 |r |代词 |取英语代词pronoun的第2个字母,因p已用于介词。 |s |处所词 |取英语space的第1个字母。 |Tg |时语素 |时间词性语素。时间词代码为t,在语素的代码g前面置以T。 |t |时间词 |取英语time的第1个字母。 |u |助词 |取英语助词auxiliary的第2个字母,因a已用于形容词。 |Vg |动语素 |动词性语素。动词代码为v。在语素的代码g前面置以V。 |v |动词 |取英语动词verb的第一个字母。 |vd |副动词 |直接作状语的动词。动词和副词的代码并在一起。 |vn |名动词 |指具有名词功能的动词。动词和名词的代码并在一起。 |w |标点符号 | |x |非语素字 |非语素字只是一个符号,字母x通常用于代表未知数、符号。 |y |语气词 |取汉字“语”的声母。 |z |状态词 |取汉字“状”的声母的前一个字母。 |bg |区别语素 |区别词性语素。区别词代码为b,语素代码g前面置以B。 |Rg |代语素 |代词性语素。代词代码为r,在语素的代码g前面置以R。 |nx |字母专名| 外文字符,Windows98/nx |Mg |数语素 |数词性语素。数词代码为m,语素代码g前面置以M |mq |数量词 |数词和量词的合并形式 |BE | |内部算法标识,不会输出 |EN | |内部算法标识,不会输出
输出数据样例
{"_seg_format_content":{"u":"d5da05c65abb55b0","w":[["v","你好"],["ns","中国"]],"k":[["中国"],["你好"]]}}
相关能力
无
参考指标
数据质量:100%
处理性能:微博数据96条/s,资讯数据16条/s
4核4G 微博数据96条/s 资讯数据16条/s
附加说明
无
隐藏参数说明
无