能力说明
能力名称:分词词频统计
功能简介
统计多篇文章中的分词或关键词的总词频,单字不统计.分词统计结束能力自动停止。
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 处理字段名 | 文本 | 是 | fmt_format_content | 需要统计的字段名,如果统计多个计算,以逗号分隔 |
| 统计类型 | 文本 | 是 | 分词 | 需要统计的类型,分词,关键词,分词和关键词 |
| 终止处理数据时间间隔 | 文本 | 是 | 10 | 输入队列为空时,统计结果的等待时间,以秒为单位 |
| 词频过滤数 | 文本 | 是 | 0 | 词频小于多少的可以不做统计 |
输入简介
无
输入数据样例
{"fmt_title":"中国", "fmt_format_content":"你好中国"}
输出简介
输出数据类型包括:处理数据,统计结果 其中处理数据是指经过词频统计能力处理的数据 统计结果是指词频统计能力最终输出的分词结果
输出数据样例
统计结果按照分词结果,会输出多条数据。针对上面一条数据的统计结果,如下所示
{"type":"segword", "word":"中国", "count":"2"}
{"type":"segword", "word":"你好", "count":"1"}
"中国"在标题和正文中各出现一次,"你好"在正文中出现一次。“segword”表示该词是分词结果。“keyword”表示该词是关键词。
相关能力
需前置中文分词能力,进行分词和关键词提取,再使用词频统计能力对分词和关键词结果进行统计
模型序号
无
远程group url
无
初始化配置
无
参考指标
- 数据质量:100%
- 处理性能:400条/s
参考环境
新闻数据400条/s
附加说明
无
版本迭代记录
无
隐藏参数说明
无