能力说明

能力名称:博客主贴互动数

功能简介

博客互动数能力可以分别选择一次性采集或周期性采集两种采集方式

(1)选择一次性时,根据博客链接一次性采集该博客下的互动数

(2)选择周期性时,根据博客链接按照设置的周期采集该博客下的互动数数据,48小时之内,根据设置的周期采集,48小时后停止采集

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
任务执行编号 数字 0 0-99任意自然数,能力会根据任务编号来判断是否继续执行上一次任务,数字不变则继续执行,反之则重采
请输入链接 文本 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在10000以内;当能力接收上层数据流时可不填
选择历史还是实时任务 文本 选择是一次性任务/周期性任务,一次性任务即历史任务,采集一次终止,周期任务即实时任务,即需要设置采集周期,每隔多长时间采集一次
采集频度 数字 240 选择周期性任务时填写采集的频度(即采集周期,单位:分钟),默认240分钟,可下拉列表选择,48小时之内,根据设置的周期采集,48小时后停止采集
流入此能力的json中提取的key 文本 url 上游能力流过来的json流中提取key名称作为本能力的输入

输入简介

输入需要采集互动数的博客链接,多个以回车换行分隔

支持如下两种上游流入格式:

第一种字符串:["http://xxx.xxx.xxx"]
第二种json传:{"url","http://xxx.xxx.xxx"}

输入数据样例

http://blog.sina.com.cn/u/6bc054d40102xcja
http://blog.sina.com.cn/u/16532590e0102xry7

输出简介

输出为博客相对应的博客互动数数据

输出数据样例

部分输出字段简介:

1.comment_count:评论数

2.click_count:点击数

3.url:主贴链接

输出详细字段信息举例如下:

{
    "click_count":"10",
    "comment_count":"0",
    "reidx_uid":"",
    "rel_type":"m",
    "download_date":"2018-01-18 10:44:05",
    "source_type":"3",
    "url":"http://blog.sina.com.cn/u/164058e270102x30i",
    "from_flag":"comment_dpt"
}

相关能力

参考指标

  • 数据质量:准确率:95%

  • 处理性能:100条/min

CPU:4 内存:4G

附加说明

隐藏参数说明

results matching ""

    No results matching ""