能力说明
能力名称:电商用产品采集评论
功能简介
1.电商采集能力支持输入产品链接采集产品评论
电商采集能力根据输入的产品链接,得到对应产品的评论数据,目前支持的网站有京东,淘宝,天猫,国美,苏宁,一号店,当当,天猫和京东全球购和亚马逊;由于网站显示的评论数本身就和返回的实际评论的数量不一致,输出评论的数量以网站上该商品显示的实际评论数量为准。
注:输出的评论的数量以网站上该商品的实际评论数为准,由于网站限制较严格,淘宝评论只采集前10页
各网站目前的采集评论情况如下:
1.京东:最多采集50页评论数据,以实际页面的评论数量为准,只看当前商品,且按时间排序(实际采集到的评论的数量会比网站显示的评论数少,默认好评及网站本身忽略的对购买帮助不大的评价不采集),最多采集100页评论数据
2*.淘宝:只采集10页,最多200数据 注意这里暂停支持
3*.天猫:只看有内容的评论,网站限制,最多采集99页评论数据 注意这里暂停支持
4.国美:以实际页面的评论数量为准,只看当前商品,最多采集100页评论数据
5.苏宁:以实际页面的评论数量为准,网站限制,最多采集50页评论数据
6.一号店:只看当前商品,网站限制,最多采集100页评论数据
7.当当:以实际页面的评论数量为准(实际采集到的评论的数量会比网站显示的评论数少,默认好评不采集),最多采集99页评论数据
8.京东全球购:评论翻页最多100页(实际采集到的评论的数量会比网站显示的评论数少,不采集隐藏的默认好评)
9.亚马逊:评论最多翻100页
10.网易考拉:评论最多翻5页
**注意:部署的产品链接形式https://goods.kaola.com/product/2315838.html
11.聚美优品:评论最多翻100页
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 请输入链接 | 文本 | 否 | 无 | 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在10000以内;当能力接收上层数据流时可不填 |
| 请选择电商名称 | 文本 | 是 | 是 | 选择所部署产品链接对应的电商网站,支持京东、淘宝、天猫、国美、苏宁、一号店、当当、京东全球购和亚马逊,下拉列表可选择 |
对应的电商采集能力右键菜单栏配置信息示例如下:
1.电商采集能力部署产品链接采评论
输入简介
输入需要采集评论的对应产品链接,多个以回车换行分隔
输入数据样例
1.电商采集能力部署产品链接采评论
http://item.jd.com/4936301.html
http://product.suning.com/0000000000/122966495.html
注:链接统一为http://形式
输出简介
输出为产品评论,为json格式
输出数据样例
评论部分输出主要字段简介:
1.evalue_time:评论时间
2.evaluation:评论内容
3.evaluators:评论人
4.evaluator_rank:评论人等级
5.download_date:下载时间
6.site_name:站点名称
7.url:内部数据查询用链接
8.c_url:相关产品的URL
9.evaluation_tag:评论标签
其他字段为下载任务相关字段或内部使用字段,不再详述。
输出评论详细字段信息举例如下:
{
"evalue_time":"2017-04-25 23:28:16",
"taskid":"1601",
"download_date":"2018-02-11 16:36:58",
"source_type":"7",
"site_name":"苏宁",
"from_flag":"ebusiness_gather",
"url":"http://product.suning.com/0000000000/140498868.html#evalue_2914592412",
"evaluation":"蛋糕试做了两回成功了,烤的排骨很好吃,烤地瓜也很好,质量很好,操作很轻松",
"evaluators":"3**@1*.cn",
"evaluecrc":"evalue_2914592412",
"c_url":"http://product.suning.com/0000000000/140498868.html",
"rel_type":"c",
"evaluation_tag":"[]",
"taskname":"N-苏宁-评论",
"evaluator_rank":"V1"
}
相关能力
无
参考指标
数据质量:准确率:95%
处理性能:7200条/小时
CPU:4 内存:4G
附加说明
无
隐藏参数说明
无
