能力说明
能力名称:微博_单条采集
功能简介
根据新浪用户微博链接采集该微博的数据,可将该结果保存到HBase。
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 请输入微博链接 | 文本 | 否 | 无 | 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在100以内;当能力接收上层数据流时可不填 |
| 流入此能力的json中提取的key | 文本 | 是 | url | 上游能力流过来的json流中提取key名称作为本能力的输入 |
| 保存到HBase | 文本 | 否 | 否 | 将结果保存到HBase, 否:不保存; 是:保存; 默认不保存 |
输入简介
输入新浪用户微博链接,多个以换行分隔(换行操作:shift+回车),建议部署上限在100以内
输入数据样例
输入新浪微博链接示例:
https://weibo.com/1644729004/FxtdUuFk8
https://weibo.com/2145291155/Fsu0Q9oeq
注:输入非微博的链接会输出至失败队列,每100条输出一次,提示输出简介链接不符,非该网址链接
支持如下两种上游流入格式:
第一种字符串:["http://xxx.xxx.xxx"]
第二种json传:{"url","http://xxx.xxx.xxx"}
输出简介
输出所部署新浪用户微博链接对应的微博数据,为json格式
输出数据样例
部分输出字段简介:
1.uid:用户id
2.author:作者
3.content:微博内容
4.release_date:发布时间
5.url:用户微博链接
输出详细字段信息举例如下:
{
"uid":"1644729004",
"reidx_uid":"0b71cd70-0160-1000-b73e-b2439022dae6",
"quote_count":"10",
"attitudes_count":"29",
"taskid":"1687",
"authorurl":"http://weibo.com/xinlanghenan",
"source_type":"4",
"forward_comments_count":"0",
"w_idstr":"4179771627308692",
"type":"m",
"author":"新浪河南",
"title":"【马云:一个月挣一二十个亿很难受![并不简单]】马云在第四届世界浙商大会称,一个月挣一两百万让人高兴,但一个月挣一二十个亿很难受....[并不简单][并不简单]http://t.cn/RYXk1yL浙江日报的秒拍视频",
"video_pic_list":"http://dslb.cdn.krcom.cn/stream/MtYdSEGEVo20e0iqrfHmLCHCowVSo7jsbAFGlA___32768.jpg",
"video_url_list":"http://t.cn/RYXk1yL",
"verified":"2",
"forward_attitudes_count":"0",
"forward_quote_count":"0",
"task_serial":"192.168.253.45-0b71cd70-0160-1000-b73e-b2439022dae6",
"isforward":"0",
"comments_count":"45",
"w_id":"4179771627308692",
"media_url":"weibo.com",
"download_date":"2017-11-30 13:43:40",
"user_url":"http://weibo.com/u/1644729004",
"ExtractorID":"88",
"url":"http://weibo.com/1644729004/FxtdUuFk8",
"format_content":"<div class="WB_text W_f14" node-type="feed_list_content" nick-name="新浪河南"> 【马云:一个月挣一二十个亿很难受![并不简单]】马云在第四届世界浙商大会称,一个月挣一两百万让人高兴,但一个月挣一二十个亿很难受....[并不简单][并不简单]http://t.cn/RYXk1yL<i class="W_ficon ficon_cd_video"></i>浙江日报的秒拍视频</a> </div>",
"from_flag":"sina_weibo1.3",
"content":"【马云:一个月挣一二十个亿很难受![并不简单]】马云在第四届世界浙商大会称,一个月挣一两百万让人高兴,但一个月挣一二十个亿很难受....[并不简单][并不简单]http://t.cn/RYXk1yL浙江日报的秒拍视频",
"post_source":"微博 weibo.com",
"w_mid":"4179771627308692",
"refer_url":"https://weibo.com/1644729004/FxtdUuFk8",
"PubFlag":"0",
"rel_type":"m",
"release_date":"2017-11-30 13:11:00",
"media_name":"新浪微博",
"profile_image_url":"http://tva4.sinaimg.cn/crop.0.0.180.180.50/620892acjw8etuzvis9fgj2050050dgt.jpg"
}
字段明细表
相关能力
无
参考指标
数据质量:准确率:99.9%
处理性能:12000条/min
CPU:4 内存:4G
附加说明
无
隐藏参数说明
无
