能力说明
能力名称:电商用关键词采集产品
功能简介
1.电商采集能力根据输入的搜索词采集相关的产品信息
各网站目前的采集产品情况如下:
1.当当(网站100页限制)
2.一号店(网站50页限制)
3.国美
**网站会有杂质链接,且各页之间存在产品重复的问题,实际采集到的产品数可能会比页面显示的少
**网站100页限制
4*.淘宝 注意这里暂停支持
**下载是未登录情况下网站返回产品的信息,不同地区或同一地区一定时间间隔后网站返回的具体产品信息会有不同;淘宝网页返回的天猫产品不采集
**网站100页限制
5.苏宁
**.网站本身会有杂质链接,且各页之间存在产品重复的问题,实际采集到的产品数可能会比页面显示的少
**网站100页限制
6.京东
**网站本身会有杂质链接,且各产品列表链接之间会有产品重复的问题,实际采集到的产品数可能会比页面显示的少
**京东搜索出来的京东全球购的数据效果有问题,采京东全球购的产品使用专门的采集京东全球购的能力
**网站100页限制
7*.天猫 注意这里暂停支持
**网站100页限制
8.京东全球购
**采集的产品可能会比页面上显示的多,网站本身有隐藏产品,不显示,但是可以采集到
9.亚马逊
**采集产品网站20页的限制
10.网易考拉
**网站搜索词搜索84页限制,5000条产品,注意:部署的产品链接形式https://goods.kaola.com/product/2315838.html
11.聚美优品
**网站搜索词搜索111页限制
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 搜索词 | 文本 | 否 | 无 | 直接部署时需要填写,格式为一行一个(换行操作:shift+回车),建议部署上限在10000以内;当能力接收上层数据流时可不填 |
| 最大翻页数 | 数字 | 否 | 1 | 采集电商产品的翻页数 |
| 请选择电商名称 | 文本 | 是 | 是 | 选择所部署产品链接对应的电商网站,支持京东、淘宝、天猫、国美、苏宁、一号店、当当、京东全球购和亚马逊,下拉列表可选择 |
对应的电商采集能力右键菜单栏配置信息示例如下:
输入简介
输入需要采集电商网站的搜索词,多个以逗号(全半角均支持)分隔或者一行一个
输入数据样例
1.输入多个词,相同翻页数(翻页数在配置【最大翻页数】配置项中配置)
冰箱,洗衣机
或一行一个
冰箱
洗衣机
2.输入多个词,不同翻页数,此时【最大翻页数】配置项中的配置不生效
冰箱:5,洗衣机:10
或一行一个
冰箱:5
洗衣机:10
输出简介
输出为产品的信息,为json格式
输出数据样例
产品部分输出字段简介:
1.pro_picture:产品图片
2.pro_name:产品名称
3.one_star_num:评价信息(一星数)
4.five_star_percentage:五星占比
5.commentnum:评论数
6.pro_description:产品详情
7.store_url:店铺信息
8.mall_price:商城价格
9.pro_evaluation_scores:平均得分
10.promotion_price:促销价格
11.price:市场价格
12.promotions_infor:促销信息
13.navigation:导航
14.picture_evaluation_num:图片评价次数
15.service:售后服务
输出产品详细字段信息举例如下:
{
"pro_picture":"http://img12.360buyimg.com/n1/jfs/t5920/204/5244390760/201602/dcfe33d/59698ed2Nfea07df0.jpg",
"pro_name":"持续交付:发布可靠软件的系统方法 需求实践测试之魂教程 需求构架工程 计算机控制系统 ",
"one_star_num":"0",
"use_url":"http://mall.jd.com/shopLevel-88241.html",
"taskid":"1200",
"five_star_percentage":"100%",
"source_type":"7",
"additional_evaluation_num":"0",
"commentnum":"10",
"pro_description":"店铺: 润知天下图书专营店 出版社: 人民邮电出版社 ISBN:9787115264596 商品编码:14011058632",
"evaluation_num":"10",
"publishing_name":"人民邮电出版社",
"servicer":"由润知天下图书专营店负责发货, 并提供售后服务.",
"three_star_percentage":"0%",
"store_url":"http://mall.jd.com/shopLevel-88241.html",
"pro_state":"1",
"s_pro_description":"$店铺: 润知天下图书专营店 $出版社: 人民邮电出版社 $ISBN:9787115264596 $商品编码:14011058632",
"mall_price":"89.00",
"download_date":"2018-03-21 14:07:21",
"pro_evaluation_scores":"5",
"site_name":"京东",
"from_flag":"ebusiness_gather",
"url":"http://item.jd.com/14011058632.html",
"promotion_price":"64.80",
"shop_name":"润知天下图书专营店",
"three_star_num":"0",
"specification_normalized":"{"":[{"":[{}]}]}",
"price":"89.00",
"promotions_infor":"购买不超过3件时享受单件价¥64.80,超出数量以结算价为准此价格不与套装优惠同时享受",
"navigation":"图书 > 计算机与互联网 > 软件工程及软件方法学 > 持续交付:发布可靠软件的系统方法 需求实践测试之魂教程 需求..",
"five_star_num":"10",
"rel_type":"m",
"freight":"店铺单笔订单不满65元,在线支付运费5元",
"picture_evaluation_num":"1",
"taskname":"N-京东-产品",
"one_star_percentage":"0%"
}
相关能力
无
参考指标
数据质量:准确率:95%
处理性能:7200条/小时
CPU:4 内存:4G
附加说明
无
隐藏参数说明
无