能力说明

能力名称:分词词频统计

功能简介

统计多篇文章中的分词或关键词的总词频,单字不统计.分词统计结束能力自动停止。

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
处理字段名 文本 fmt_format_content 需要统计的字段名,如果统计多个计算,以逗号分隔
统计类型 文本 分词 需要统计的类型,分词,关键词,分词和关键词
终止处理数据时间间隔 文本 10 输入队列为空时,统计结果的等待时间,以秒为单位
词频过滤数 文本 0 词频小于多少的可以不做统计

输入简介

输入数据样例

{"fmt_title":"中国", "fmt_format_content":"你好中国"}

输出简介

输出数据类型包括:处理数据,统计结果 其中处理数据是指经过词频统计能力处理的数据 统计结果是指词频统计能力最终输出的分词结果

输出数据样例

统计结果按照分词结果,会输出多条数据。针对上面一条数据的统计结果,如下所示

{"type":"segword", "word":"中国", "count":"2"}
{"type":"segword", "word":"你好", "count":"1"}

"中国"在标题和正文中各出现一次,"你好"在正文中出现一次。“segword”表示该词是分词结果。“keyword”表示该词是关键词。

相关能力

需前置中文分词能力,进行分词和关键词提取,再使用词频统计能力对分词和关键词结果进行统计

模型序号

远程group url

初始化配置

参考指标

  • 数据质量:100%
  • 处理性能:400条/s

参考环境

新闻数据400条/s

附加说明

版本迭代记录

隐藏参数说明

results matching ""

    No results matching ""