能力说明

能力名称：中文分词

功能简介

分词模块，将一段文本进行分词处理后，输出结果

配置参数

参数名称	参数类型	是否必填	默认值	参数说明
需要分词的字段	文本	是	fmt_title,fmt_format_content	指定需要分词的字段
词颗粒	文本	否	默认	设置分词的词颗粒大小
自定义词典	文本	否	无	设置分词的自定义词典，词之间用逗号分隔（全角或半角）

输入简介

无

输入数据样例

{"format_content":"你好中国"}

输出简介

新增字段，字段名为"seg+处理字段"。该字段内容为json格式，u为语义指纹，k为关键词，w为普通分词结果。词性定义请参考北大规范

| ----- | ----- | ----- |代码 |名称 | - | - | - | |Ag1 |形语素 |a |形容词 |ad |副形词 |an |名形词 |B |区别词 |c |连词 |Dg |副语素 |d |副词 |e |叹词 |f |方位词 |g |语素 |h |前接成分 |i |成语 |j |简称略语 |k |后接成分 |l |习用语 |m |数词 |Ng |名语素 |n |名词 |nr |人名 |ns |地名 |nt |机构团体 |nz |其他专名 |o |拟声词 |p |介词 |q |量词 |r |代词 |s |处所词 |Tg |时语素 |t |时间词 |u |助词 |Vg |动语素 |v |动词 |vd |副动词 |vn |名动词 |w |标点符号 |x |非语素字 |y |语气词 |z |状态词 |bg |区别语素 |Rg |代语素 |nx |字母专名| |Mg |数语素 |mq |数量词 |BE | |内部&# |EN | |内部&# | ----- | ----- | |帮助记忆的诠释 |形容词性语素。形容词代码为a，语素代码ｇ前面置以A。 |取英语形容词adjective的第1个字母。 |直接作状语的形容词。形容词代码a和副词代码d并在一起。 |具有名词功能的形容词。形容词代码a和名词代码n并在一起。 |取汉字“别”的声母。 |取英语连词conjunction的第1个字母。 |副词性语素。副词代码为d，语素代码ｇ前面置以D。 |取adverb的第2个字母，因其第1个字母已用于形容词。 |取英语叹词exclamation的第1个字母。 |取汉字“方”的声母。 |绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。 |取英语head的第1个字母。 |取英语成语idiom的第1个字母。 |取汉字“简”的声母。 |　 |习用语尚未成为成语，有点“临时性”，取“临”的声母。 |取英语numeral的第3个字母，n，u已有他用。 |名词性语素。名词代码为n，语素代码ｇ前面置以N。 |取英语名词noun的第1个字母。 |名词代码n和“人(ren)”的声母并在一起。 |名词代码n和处所词代码s并在一起。 |“团”的声母为t，名词代码n和t并在一起。 |“专”的声母的第1个字母为z，名词代码n和z并在一起。 |取英语拟声词onomatopoeia的第1个字母。 |取英语介词prepositional的第1个字母。 |取英语quantity的第1个字母。 |取英语代词pronoun的第2个字母,因p已用于介词。 |取英语space的第1个字母。 |时间词性语素。时间词代码为t,在语素的代码g前面置以T。 |取英语time的第1个字母。 |取英语助词auxiliary的第2个字母,因a已用于形容词。 |动词性语素。动词代码为v。在语素的代码g前面置以V。 |取英语动词verb的第一个字母。 |直接作状语的动词。动词和副词的代码并在一起。 |指具有名词功能的动词。动词和名词的代码并在一起。 |　 |非语素字只是一个符号，字母x通常用于代表未知数、符号。 |取汉字“语”的声母。 |取汉字“状”的声母的前一个字母。 |区别词性语素。区别词代码为b，语素代码ｇ前面置以B。 |代词性语素。代词代码为r,在语素的代码g前面置以R。外文字符，Windows98/nx |数词性语素。数词代码为m，语素代码ｇ前面置以M |数词和量词的合并形式　 x7B97;法标识，不会输出 x7B97;法标识，不会输出

输出数据样例

{"_seg_format_content":{"u":"d5da05c65abb55b0","w":[["v","你好"],["ns","中国"]],"k":[["中国"],["你好"]]}}

参考指标

数据质量：100%
处理性能：微博数据96条/s，资讯数据16条/s

4核4G 微博数据96条/s 资讯数据16条/s

附加说明

无

隐藏参数说明

无

海量中文分词