能力说明

能力名称:电商用产品采集评论

功能简介

1.电商采集能力支持输入产品链接采集产品评论

电商采集能力根据输入的产品链接,得到对应产品的评论数据,目前支持的网站有京东,淘宝,天猫,国美,苏宁,一号店,当当,天猫和京东全球购和亚马逊;由于网站显示的评论数本身就和返回的实际评论的数量不一致,输出评论的数量以网站上该商品显示的实际评论数量为准。

注:输出的评论的数量以网站上该商品的实际评论数为准,由于网站限制较严格,淘宝评论只采集前10页

各网站目前的采集评论情况如下:

1.京东:最多采集50页评论数据,以实际页面的评论数量为准,只看当前商品,且按时间排序(实际采集到的评论的数量会比网站显示的评论数少,默认好评及网站本身忽略的对购买帮助不大的评价不采集),最多采集100页评论数据

2*.淘宝:只采集10页,最多200数据 注意这里暂停支持

3*.天猫:只看有内容的评论,网站限制,最多采集99页评论数据 注意这里暂停支持

4.国美:以实际页面的评论数量为准,只看当前商品,最多采集100页评论数据

5.苏宁:以实际页面的评论数量为准,网站限制,最多采集50页评论数据

6.一号店:只看当前商品,网站限制,最多采集100页评论数据

7.当当:以实际页面的评论数量为准(实际采集到的评论的数量会比网站显示的评论数少,默认好评不采集),最多采集99页评论数据

8.京东全球购:评论翻页最多100页(实际采集到的评论的数量会比网站显示的评论数少,不采集隐藏的默认好评)

9.亚马逊:评论最多翻100页

10.网易考拉:评论最多翻5页

**注意:部署的产品链接形式https://goods.kaola.com/product/2315838.html

11.聚美优品:评论最多翻100页

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
请输入链接 文本 直接部署链接时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在10000以内;当能力接收上层数据流时可不填
请选择电商名称 文本 选择所部署产品链接对应的电商网站,支持京东、淘宝、天猫、国美、苏宁、一号店、当当、京东全球购和亚马逊,下拉列表可选择

对应的电商采集能力右键菜单栏配置信息示例如下:

1.电商采集能力部署产品链接采评论

输入图片说明

输入简介

输入需要采集评论的对应产品链接,多个以回车换行分隔

输入数据样例

1.电商采集能力部署产品链接采评论

http://item.jd.com/4936301.html
http://product.suning.com/0000000000/122966495.html

注:链接统一为http://形式

输出简介

输出为产品评论,为json格式

输出数据样例

评论部分输出主要字段简介:

1.evalue_time:评论时间

2.evaluation:评论内容

3.evaluators:评论人

4.evaluator_rank:评论人等级

5.download_date:下载时间

6.site_name:站点名称

7.url:内部数据查询用链接

8.c_url:相关产品的URL

9.evaluation_tag:评论标签

其他字段为下载任务相关字段或内部使用字段,不再详述。

输出评论详细字段信息举例如下:

{
    "evalue_time":"2017-04-25 23:28:16",
    "taskid":"1601",
    "download_date":"2018-02-11 16:36:58",
    "source_type":"7",
    "site_name":"苏宁",
    "from_flag":"ebusiness_gather",
    "url":"http://product.suning.com/0000000000/140498868.html#evalue_2914592412",
    "evaluation":"蛋糕试做了两回成功了,烤的排骨很好吃,烤地瓜也很好,质量很好,操作很轻松",
    "evaluators":"3**@1*.cn",
    "evaluecrc":"evalue_2914592412",
    "c_url":"http://product.suning.com/0000000000/140498868.html",
    "rel_type":"c",
    "evaluation_tag":"[]",
    "taskname":"N-苏宁-评论",
    "evaluator_rank":"V1"
}

相关能力

参考指标

  • 数据质量:准确率:95%

  • 处理性能:7200条/小时

CPU:4 内存:4G

附加说明

隐藏参数说明

results matching ""

    No results matching ""