能力说明
能力名称:全网历史判定图过滤
功能简介
通过判定图标引的方式对历史数据进行筛选,该能力用于获取符合需求的历史数据以及利用判定图给数据打标签。
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 资源类型 | 数字 | 是 | 无 | 分为资讯、论坛、贴吧、博客等资源类型,详细定义参看 数据服务信源支持情况表 |
| 资源子类型 | 文本 | 是 | 无 | 分为:正文,回帖,转发 |
| 标引判定图id | 文本 | 是 | 无 | 填写判定图号,支持多个同时回溯,多个之间用半角逗号分隔 |
| 起始发布时间 | 日期 | 是 | 无 | 扫描数据范围的开始时间 |
| 结束发布时间 | 日期 | 是 | 无 | 扫描数据范围的结束时间 |
| 数据消重输出 | 文本 | 是 | 是 | 选择否时任务耗时少,适用于验证任务流程阶段快速获取数据 |
| 高级配置 | 文本 | 否 | 是 | 使用情景见下面描述 |
1、全网数据包含但不限于数据服务信源支持情况表中的网站,此表列举的为主要的重点网站
2、高级配置的使用场景:
- 任务复杂度超限时,可以尝试增大阀值,设置
{"task_desc.jobanalyze.krpe.max_drl_complexity":"45000"} - 闭包词解析失败时,可设置
{"task_desc.closure.max_size_inbyte":"1024"} - 需要增大内存时,可设置
{"hadoop_conf.mapreduce.map.java.opts":"-Xmx2048m","hadoop_conf.mapreduce.map.memory.mb":"3072"} - 有补采数据的情况
例:想回溯release_date是2019-01-07到2019-01-08的数据,但部分数据是2019-01-14号采的,可将页面的起始发布时间设置为2019-01-07,结束发布时间设置为2019-01-14,然后在高级配置里设置{"task_desc.mapred.map.releasedate.start":"2019-01-07 00:00:00","task_desc.mapred.map.releasedate.end":"2019-01-08 23:59:59"} - 完成二次回溯功能
(目前仅支持task_desc和hadoop_conf下的参数修改){"user_input_type":"3","base_task_id": "12345"}(推荐) {"user_input_type":"3","is_foreign":"4","customTable":"\/lable\/12345"}(不推荐,但更高级需求可用)
输入简介
此能力为数据源能力,无需前接任何能力
输入数据样例
无
输出简介
输出标引命中的数据
输出数据样例
{
"tm": "2017-10-31 11:30:04",
"release_date_org": "2017-10-31 11:01:07",
"source_type": "0",
"other_content": "",
"refer_source_type": "1",
"title_crc": "562137314772651256",
"other_page": "http://www.city96.com/jkkx/20171031/392676.html",
"content_media_name": "文章来源于网络",
"content_crc": "10563353586035185868",
"fmt_author": "",
"keywords": "排毒 芹菜 减肥 竹笋 紫苏 优格 肠胃 体外 优酪乳 毒素",
"media_id": "8351441902863529682",
"download_date": "2017-10-31 11:30:00",
"sensitive_words": "",
"url": "http://www.city96.com/jkkx/20171031/392676.html",
"format_content": "<p taggedby=\"hylanda\"> 由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
"fmt_title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又",
"navigation": "首页>健康快讯>正文",
"fmt_format_content": " 由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
"page_title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又-健康快讯-天津之声-天津衣食住行热点资讯",
"title_crc_old": "7296441086713875745",
"multi_page": "{\"page_cnt\":\"1\",\"page_info\":[{\"status\":\"0\",\"url\":\"http://www.city96.com/jkkx/20171031/392676.html\"}]}",
"original_media_url": "",
"_release_date_from": "release_date",
"url_original": "http://www.city96.com/jkkx/20171031/392676.html",
"class17": "",
"author": "",
"url_crc": "9575743947839270277",
"title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又",
"words": "868",
"oid": "0",
"_data_rmdup_crc6": "8176213074233504262",
"navurl": "首页>健康快讯>正文\r\nhttp://www.city96.com/jkkx/20171031/392676.html\r\n",
"tags": "竹笋/NT/0.254063 紫苏/NT/0.252270 芹菜/NT/0.247329 乳酸菌/NT/0.151506 香菜/NT/0.085952 生姜/NT/0.079902",
"abstract": "由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素,如果不及时排除体外,会影响到我们的健康。芹菜的纤维以茎部最为丰富,吃了可以增加排便量,让排便较为通畅,对于体内环保也很有帮助。",
"FormatContent_weiboext": "",
"fmt_format_content_withforward": "<p taggedby=\"hylanda\"> 由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
"original_media_name": "",
"tag_result": [{
"name": "测试主题001--发布到实时/ 前空格标签/后空格标签 / 前后空格标签 /香菜/中性",
"clue": "关键特征=可以[*2*]香菜;",
"topic_id": "10587098200183",
"depth": "0/1/2/3/5/5"
}
],
"picture_description": "<p class=\"pictext\" taggedby=\"hylanda\"> 【竹笋】</p taggedby=\"hylanda\">\t<p class=\"pictext\" taggedby=\"hylanda\"> 【优格】</p taggedby=\"hylanda\">\t<p class=\"pictext\" taggedby=\"hylanda\"> 【芹菜】</p taggedby=\"hylanda\">",
"from_flag": "h2x_ium",
"lastmodify_date": "2017-10-31 11:2:8",
"refer_url": "http://www.city96.com/jkkx/",
"picture_list": "http://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/94107d87721bf88d7dda2e76dff3e886.jpg\nhttp://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/2760178c365323fd35f8e1e2af08b45a.jpg\nhttp://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/f12192c3e87cc8d637d5d3590f71af2e.jpg",
"class23": "",
"rel_type": "m",
"nav": "首页>健康快讯>正文",
"release_date": "2017-10-31 11:01:07",
"lable_time": "2017-10-31 14:07:07",
"media_name": "天津之声",
"_data__format_clue_release_date": "Pure Parse Precision 6",
"hl_empty_fields": "original_media_url,sensitive_words,class23,original_media_name,author,other_content,class17"
}
相关能力
与全网关键词过滤能力的区别:
1、关键词过滤方式:只需直接填过滤数据的条件,获得的最终数据不包含任何附加信息
2、判定图标引方式:需要先通过公司提供的平台创建判定图,上传判定图规则后才能使用该判定图做历史数据过滤操作,最终获得的符合判定的数据包含判定图的标签信息
参考指标
使用平台公共的回溯系统资源,效率取决于任务启动时公共资源的占用情况
附加说明
- 当平台有升级时,在点击升级按钮前,请确保历史能力状态展示为“已停止”或“已完成”,若为“运行中”“提交中”等表示任务进行中的状态,则“升级”操作会强行停止当前任务
- 该能力默认会过滤一些无效数据(例如某些广告、色情数据),如仍有不需要的数据请使用其他高级数据处理能力过滤
- 2022年2月21日 新增输出流【完成信号】 当历史回溯任务完成时,会从【完成信号】的输出流中输出一条信息,描述了任务号和任务数据量,该数据可以直接连接【模板消息通知】能力发送通知消息,或自行进行其他用途
- 2018年3月16日 二次回溯标引结果新平台格式化
对公司内部业务建立的“二次回溯”任务,输出tag_result_previous字段,存储上次回溯任务的标引结果,格式为新平台格式同tag_result - 2018年2月28日 新增电商历史数据回溯任务(内测版)
- 仅限内测人员使用,在此说明功能及限制:
1、建议只使用判定图功能,不要使用关键词功能
2、判定图类型必须为电商类型判定图
3、任务会开启两轮,界面上会看到第一次进度100%后立刻回到0%,自动开启第二次的进度,请内测人员自行把握进度
4、由于任务会开启两轮,因此输出数据量展示的暂时不准,请内测人员自行确认数据完整性
5、电商任务必须消重,“是否消重”选项无效
6、对于关联标引,产品不会有标签,只有评论有标签
7、对于标引产品输出所有评论的情况,请在高级配置里设置{"task_desc.mapred.ebus.outputm.need.c":"1"}