能力说明
能力名称:微博_评论
功能简介
根据新浪用户微博链接一次性采集该条微博下的所有评论数据(网页上给的评论的数跟实际展示的评论的数量对不上,给的评论本身就比网页显示的数少,以网页真实的评论数量为准,详情见输出简介)
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 请输入微博链接 | 文本 | 否 | 无 | 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在100以内;当能力接收上层数据流时可不填 |
| 流入此能力的json中提取的key | 文本 | 是 | url | 上游能力流过来的json流中提取key名称作为本能力的输入 |
| 请设置翻页上限 | 文本 | 是 | -1 | 可以设置转发页面的获取上限值,防止长时间采集某个特别火爆的评论。(-1为默认,不设置上限) |
输入简介
输入新浪微博链接,多个以换行分隔(换行操作:shift+回车),建议部署上限在100以内
可从该能力配置中进行填写,也可用通过上游能力输入。通过上游能力输入时,建议使用 采集格式转换 能力对输入的数据进行格式规整。
输入数据样例
输入新浪微博链接输入示例如下,部署时请参照以下两种格式:
http://weibo.com/2453133954/FptqAxh2M
https://weibo.com/6049346849/FvrhztDaS
注:输入非微博的链接会输出至失败队列,每100条输出一次,提示输出简介链接不符,非该网址链接 输出新浪用户微博下对应的微博评论,为json格式
支持如下两种上游流入格式:
第一种字符串:["http://xxx.xxx.xxx"]
第二种json传:{"url","http://xxx.xxx.xxx"}
输出简介
部分输出字段简介:
1.c_url:被评论的源微博链接
2.author:评论作者
3.user_url:评论作者微博链接
4.release_date:发布时间
5.content:评论内容
输出数据样例
输出详细字段信息举例如下:
{
"uid":"5666811389",
"f_authoruid":"1310558230",
"reidx_uid":"7fd62c38-015e-1000-8dca-418b1bd0eac0",
"c_user_url":"http://weibo.com/u/",
"taskid":"1756",
"source_type":"4",
"mainauthoruid":"1310558230",
"w_idstr":"4180642399313565",
"type":"c",
"url_crc":"3481759222",
"author":"0寻鸭0",
"title":"也就是个官方支持,没有官方支持哪里会有孔家的千年传承,早就不知道消失在历史的哪个角落了",
"authorimg":"http://tvax4.sinaimg.cn/crop.0.0.996.996.50/006bvmvHly8fkxsn5hsjmj30ro0rpwh2.jpg",
"task_serial":"192.168.253.54-7fd62c38-015e-1000-8dca-418b1bd0eac0",
"isforward":"1",
"url_dup":"http://weibo.com/1310558230/FxP373uyW#4180642399313565#7fd62c38-015e-1000-8dca-418b1bd0eac0",
"forward_url":"http://weibo.com/1310558230/FxP373uyW",
"w_id":"4180642399313565",
"media_url":"weibo.com",
"download_date":"2017-12-05 13:23:29",
"user_url":"http://weibo.com/u/5666811389",
"from_flag":"sina_weibo1.3",
"format_content":"也就是个官方支持,没有官方支持哪里会有孔家的千年传承,早就不知道消失在历史的哪个角落了",
"url":"http://weibo.com/1310558230/FxP373uyW#4180642399313565",
"with_comment":"1",
"content":"也就是个官方支持,没有官方支持哪里会有孔家的千年传承,早就不知道消失在历史的哪个角落了",
"w_mid":"4180642399313565",
"refer_url":"http://weibo.com/1310558230/FxP373uyW?type=comment#_rnd1512451396172",
"PubFlag":"0",
"c_url":"http://weibo.com/1310558230/FxP373uyW",
"rel_type":"c",
"release_date":"2017-12-02 22:51:00",
"media_name":"新浪微博",
"mainurluuid":"3481759222",
"c_id":"4180642399313565",
"c_w_id":"4180642399313565"
}
字段明细表
相关能力
无
参考指标
数据质量:准确率:95%
处理性能:7200条/小时
CPU:4 内存:4G
附加说明
- 采全率:80%以上
注:1)评论显示不稳定,会出现下载时某一页评论全部为空,刷新后又能正常显示的情况。
2)采全率指能力的整体采全率,不保证单条评论的采全率一定在80%以上 3) 新浪微博上给的互动数与实际展示的评论数量不一定一致,互动数会多于实际显示条数。以真实显示的评论条数为准 - 准确率:95%以上
采集速度:2 任务/秒;7200 任务/小时
任务量= 主帖量 * 评论页数
- 改版后响应速度:工作时间4小时内;非工作时间一天内。
隐藏参数说明
无

