能力说明

能力名称:中文分词

功能简介

分词模块,将一段文本进行分词处理后,输出结果

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
需要分词的字段 文本 fmt_title,fmt_format_content 指定需要分词的字段
词颗粒 文本 默认 设置分词的词颗粒大小
自定义词典 文本 设置分词的自定义词典,词之间用逗号分隔(全角或半角)

输入简介

输入数据样例

{"format_content":"你好中国"}

输出简介

新增字段,字段名为"seg+处理字段"。该字段内容为json格式,u为语义指纹,k为关键词,w为普通分词结果。词性定义请参考北大规范

| ----- | ----- | ----- | ----- | ----- | |代码 |名称 |帮助记忆的诠释 | - | - | - | |Ag1 |形语素 |形容词性语素。形容词代码为a,语素代码g前面置以A。 |a |形容词 |取英语形容词adjective的第1个字母。 |ad |副形词 |直接作状语的形容词。形容词代码a和副词代码d并在一起。 |an |名形词 |具有名词功能的形容词。形容词代码a和名词代码n并在一起。 |B |区别词 |取汉字“别”的声母。 |c |连词 |取英语连词conjunction的第1个字母。 |Dg |副语素 |副词性语素。副词代码为d,语素代码g前面置以D。 |d |副词 |取adverb的第2个字母,因其第1个字母已用于形容词。 |e |叹词 |取英语叹词exclamation的第1个字母。 |f |方位词 |取汉字“方”的声母。 |g |语素 |绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 |h |前接成分 |取英语head的第1个字母。 |i |成语 |取英语成语idiom的第1个字母。 |j |简称略语 |取汉字“简”的声母。 |k |后接成分 |  |l |习用语 |习用语尚未成为成语,有点“临时性”,取“临”的声母。 |m |数词 |取英语numeral的第3个字母,n,u已有他用。 |Ng |名语素 |名词性语素。名词代码为n,语素代码g前面置以N。 |n |名词 |取英语名词noun的第1个字母。 |nr |人名 |名词代码n和“人(ren)”的声母并在一起。 |ns |地名 |名词代码n和处所词代码s并在一起。 |nt |机构团体 |“团”的声母为t,名词代码n和t并在一起。 |nz |其他专名 |“专”的声母的第1个字母为z,名词代码n和z并在一起。 |o |拟声词 |取英语拟声词onomatopoeia的第1个字母。 |p |介词 |取英语介词prepositional的第1个字母。 |q |量词 |取英语quantity的第1个字母。 |r |代词 |取英语代词pronoun的第2个字母,因p已用于介词。 |s |处所词 |取英语space的第1个字母。 |Tg |时语素 |时间词性语素。时间词代码为t,在语素的代码g前面置以T。 |t |时间词 |取英语time的第1个字母。 |u |助词 |取英语助词auxiliary的第2个字母,因a已用于形容词。 |Vg |动语素 |动词性语素。动词代码为v。在语素的代码g前面置以V。 |v |动词 |取英语动词verb的第一个字母。 |vd |副动词 |直接作状语的动词。动词和副词的代码并在一起。 |vn |名动词 |指具有名词功能的动词。动词和名词的代码并在一起。 |w |标点符号 |  |x |非语素字 |非语素字只是一个符号,字母x通常用于代表未知数、符号。 |y |语气词 |取汉字“语”的声母。 |z |状态词 |取汉字“状”的声母的前一个字母。 |bg |区别语素 |区别词性语素。区别词代码为b,语素代码g前面置以B。 |Rg |代语素 |代词性语素。代词代码为r,在语素的代码g前面置以R。 |nx |字母专名| 外文字符,Windows98/nx |Mg |数语素 |数词性语素。数词代码为m,语素代码g前面置以M |mq |数量词 |数词和量词的合并形式  |BE | |内部算法标识,不会输出 |EN | |内部算法标识,不会输出

输出数据样例

{"_seg_format_content":{"u":"d5da05c65abb55b0","w":[["v","你好"],["ns","中国"]],"k":[["中国"],["你好"]]}}

相关能力

参考指标

  • 数据质量:100%

  • 处理性能:微博数据96条/s,资讯数据16条/s

4核4G 微博数据96条/s 资讯数据16条/s

附加说明

隐藏参数说明

results matching ""

    No results matching ""