能力说明
能力名称:关键词统计
功能简介
用于统计关键词在任务中出现次数
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 批量提交数量 | 数字 | 是 | 1000 | 处理指定数据量后提交,小于等于0时关闭此功能 |
| 延迟等待限制(秒) | 数字 | 是 | 60 | 若上游流无数据,则等待多久就提交(小于3则关闭此功能) |
| field | 文本 | 是 | keyword | 设置需要统计数据所在的字段名 |
| 输出前多少 | 数字 | 是 | 200 | 输出统计值的前多少位 |
| 输出类型 | 文本 | 是 | 按条输出 | 按条输出:统计结果分多条输出.按组输出:统计结果成组放入一条数据输出 |
| 清空缓存类型 | 文本 | 是 | 停止后清空 | 统计后清空:每次统计后和停止后均清空缓存,重新统计;停止后清空:能力停止后清空缓存,启动能力时重新统计 |
输入简介
需要由关键词提取模块提取的关键词 形式 "词1 词2 词3"
输入数据样例
{"keyword":"昨天 今天 明天"}
输出简介
会定时依照设定输出前N的统计结果, 每个结果一条数据
输出数据样例
{"hit_word":"昨天","hit_count":"3"}
相关能力
需要依赖【关键词提取】能力
参考指标
数据质量:100%
处理性能:300~2000/s
根据不同数据不同 数据长度越长, 越慢
附加说明
该能力运行后的表现是不停的读取上游数据,但不输出结果,只有满足下述条件时才输出统计结果:
1.读取队列中的最后一条,同时上游能力处于停止状态时,输出一次统计结果;
2.读取数据量达到【批量提交数量】时,输出一次统计结果;
3.读取数据后,上游没有新数据的时间超过【延迟等待限制】时,输出一次统计结果。
输出统计结果后,会根据【清空缓存类型】的设置,决定是否清空内部缓存,清空后,程序将忘掉之前读取的数据,从头开始计数统计
隐藏参数说明
无