能力说明
能力名称:关键词提取
功能简介
根据选定的字段使用分词技术获取该字段的关键词
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| field | 文本 | 是 | fmt_format_content | 分析字段名(如需多个字段提取,字段间以逗号分隔) |
| outField | 文本 | 是 | keyword | 生成字段名称 |
| keyword_max_size | 文本 | 否 | 10 | 输出关键词个数 |
| delimiter | 文本 | 否 | 关键词分隔符 | |
| outputTag | 文本 | 否 | 输出关键词类型,此类型指自定义词典类型。如果设置,则关键词只输出指定类型的词。如果设置多个类型,以","分隔 | |
| uploadFile | 文本 | 否 | 自定义词典文件 |
输入简介
预处理后的数据
输入数据样例
{"fmt_format_content":"实时水电费"}
输出简介
增加了关键词的数据
输出数据样例
{"fmt_format_content":"实时水电费","keyword":"水电费 实时"}
相关能力
无
参考指标
数据质量:准确率:95% 召回率:95%
处理性能:300~2000/s
4核4线程, 根据不同数据不同 数据长度越长, 越慢
附加说明
用户自定义词典格式如下:
a)用户自定义词典采用文本格式,utf-8编码,每行一个词
b)第一列为词,后面可添加词标签。中间以Tab分隔
例如:
中文分词系统 专有名词