能力说明
能力名称:论坛评论
功能简介
论坛评论能力可以分别选择一次性采集或周期性采集两种采集方式
(1)选择一次性时,根据论坛链接一次性采集该论坛下的所有评论
(2)选择周期性时,根据论坛链接按照设置的周期采集该论坛下的评论数据,48小时之内,根据设置的周期采集,48小时后停止采集
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 任务执行编号 | 数字 | 是 | 0 | 0-99任意自然数,能力会根据任务编号来判断是否继续执行上一次任务,数字不变则继续执行,反之则重采 |
| 请输入链接 | 文本 | 否 | 无 | 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在10000以内;当能力接收上层数据流时可不填 |
| 选择历史还是实时任务 | 文本 | 是 | 无 | 选择是一次性任务/周期性任务,一次性任务即历史任务,采集一次终止,周期任务即实时任务,即需要设置采集周期,每隔多长时间采集一次 |
| 采集频度 | 数字 | 否 | 240 | 选择周期性任务时填写采集的频度(即采集周期,单位:分钟),默认240分钟,可下拉列表选择,48小时之内,根据设置的周期采集,48小时后停止采集 |
| 流入此能力的json中提取的key | 文本 | 是 | url | 上游能力流过来的json流中提取key名称作为本能力的输入 |
输入简介
输入需要采集评论的论坛链接,多个以回车换行分隔
输入数据样例
http://www.babytree.com/community/hospital39840/topic_78611228.html
http://zhidao.baidu.com/question/2121814868561235507.html
支持如下两种上游流入格式:
第一种字符串:["http://xxx.xxx.xxx"]
第二种json传:{"url","http://xxx.xxx.xxx"}
输出简介
输出为论坛相对应的论坛评论数据
输出数据样例
部分输出字段简介:
1.author:评论人
2.format_content:评论内容
3.release_date:评论发布时间
输出详细字段信息举例如下:
{
"author":"我不吃胡萝卜v",
"title":"有。。我在师桥",
"profile_url":"http://home.babytree.com/u139181304063",
"refer_url":"http://www.babytree.com/community/hospital39840/topic_78611228.html#1510885175364",
"floor":"1楼",
"location":"浙江 宁波",
"c_url":"http://www.babytree.com/community/hospital39840/topic_78611228.html",
"rel_type":"c",
"release_date":"2017-09-23 13:42:50",
"source_type":"1",
"download_date":"2017-11-17 10:19:35",
"baby_age":"已有宝宝2个月23天",
"url":"http://www.babytree.com/community/hospital39840/topic_78611228.html#585583863",
"format_content":"有。。我在师桥",
"from_flag":"comment_info"
}
相关能力
无
参考指标
数据质量:准确率:95%
处理性能:100条/min
CPU:4 内存:4G
附加说明
无
隐藏参数说明
无