能力说明

能力名称:全网历史判定图过滤

功能简介

通过判定图标引的方式对历史数据进行筛选,该能力用于获取符合需求的历史数据以及利用判定图给数据打标签。

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
资源类型 数字 分为资讯、论坛、贴吧、博客等资源类型,详细定义参看 数据服务信源支持情况表
资源子类型 文本 分为:正文,回帖,转发
标引判定图id 文本 填写判定图号,支持多个同时回溯,多个之间用半角逗号分隔
起始发布时间 日期 扫描数据范围的开始时间
结束发布时间 日期 扫描数据范围的结束时间
数据消重输出 文本 选择否时任务耗时少,适用于验证任务流程阶段快速获取数据
高级配置 文本 使用情景见下面描述

1、全网数据包含但不限于数据服务信源支持情况表中的网站,此表列举的为主要的重点网站
2、高级配置的使用场景:

  • 任务复杂度超限时,可以尝试增大阀值,设置 {"task_desc.jobanalyze.krpe.max_drl_complexity":"45000"}
  • 闭包词解析失败时,可设置 {"task_desc.closure.max_size_inbyte":"1024"}
  • 需要增大内存时,可设置 {"hadoop_conf.mapreduce.map.java.opts":"-Xmx2048m","hadoop_conf.mapreduce.map.memory.mb":"3072"}
  • 有补采数据的情况
    例:想回溯release_date是2019-01-07到2019-01-08的数据,但部分数据是2019-01-14号采的,可将页面的起始发布时间设置为2019-01-07,结束发布时间设置为2019-01-14,然后在高级配置里设置{"task_desc.mapred.map.releasedate.start":"2019-01-07 00:00:00","task_desc.mapred.map.releasedate.end":"2019-01-08 23:59:59"}
    
  • 完成二次回溯功能
    {"user_input_type":"3","base_task_id": "12345"}(推荐)
    {"user_input_type":"3","is_foreign":"4","customTable":"\/lable\/12345"}(不推荐,但更高级需求可用)
    
    (目前仅支持task_desc和hadoop_conf下的参数修改)

输入简介

此能力为数据源能力,无需前接任何能力

输入数据样例

输出简介

输出标引命中的数据

输出数据样例

{
    "tm": "2017-10-31 11:30:04",
    "release_date_org": "2017-10-31 11:01:07",
    "source_type": "0",
    "other_content": "",
    "refer_source_type": "1",
    "title_crc": "562137314772651256",
    "other_page": "http://www.city96.com/jkkx/20171031/392676.html",
    "content_media_name": "文章来源于网络",
    "content_crc": "10563353586035185868",
    "fmt_author": "",
    "keywords": "排毒 芹菜 减肥 竹笋 紫苏 优格 肠胃 体外 优酪乳 毒素",
    "media_id": "8351441902863529682",
    "download_date": "2017-10-31 11:30:00",
    "sensitive_words": "",
    "url": "http://www.city96.com/jkkx/20171031/392676.html",
    "format_content": "<p taggedby=\"hylanda\">  由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
    "fmt_title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又",
    "navigation": "首页>健康快讯>正文",
    "fmt_format_content": "  由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
    "page_title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又-健康快讯-天津之声-天津衣食住行热点资讯",
    "title_crc_old": "7296441086713875745",
    "multi_page": "{\"page_cnt\":\"1\",\"page_info\":[{\"status\":\"0\",\"url\":\"http://www.city96.com/jkkx/20171031/392676.html\"}]}",
    "original_media_url": "",
    "_release_date_from": "release_date",
    "url_original": "http://www.city96.com/jkkx/20171031/392676.html",
    "class17": "",
    "author": "",
    "url_crc": "9575743947839270277",
    "title": "冬天不减肥 ,夏天徒伤悲!几款食品帮你排毒又",
    "words": "868",
    "oid": "0",
    "_data_rmdup_crc6": "8176213074233504262",
    "navurl": "首页>健康快讯>正文\r\nhttp://www.city96.com/jkkx/20171031/392676.html\r\n",
    "tags": "竹笋/NT/0.254063 紫苏/NT/0.252270 芹菜/NT/0.247329 乳酸菌/NT/0.151506 香菜/NT/0.085952 生姜/NT/0.079902",
    "abstract": "由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素,如果不及时排除体外,会影响到我们的健康。芹菜的纤维以茎部最为丰富,吃了可以增加排便量,让排便较为通畅,对于体内环保也很有帮助。",
    "FormatContent_weiboext": "",
    "fmt_format_content_withforward": "<p taggedby=\"hylanda\">  由于新陈代谢或者是空气污染等原因,我们的身体里会产生一些毒素",
    "original_media_name": "",
    "tag_result": [{
            "name": "测试主题001--发布到实时/ 前空格标签/后空格标签 / 前后空格标签 /香菜/中性",
            "clue": "关键特征=可以[*2*]香菜;",
            "topic_id": "10587098200183",
            "depth": "0/1/2/3/5/5"
        }
    ],
    "picture_description": "<p class=\"pictext\" taggedby=\"hylanda\">  【竹笋】</p taggedby=\"hylanda\">\t<p class=\"pictext\" taggedby=\"hylanda\">  【优格】</p taggedby=\"hylanda\">\t<p class=\"pictext\" taggedby=\"hylanda\">  【芹菜】</p taggedby=\"hylanda\">",
    "from_flag": "h2x_ium",
    "lastmodify_date": "2017-10-31 11:2:8",
    "refer_url": "http://www.city96.com/jkkx/",
    "picture_list": "http://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/94107d87721bf88d7dda2e76dff3e886.jpg\nhttp://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/2760178c365323fd35f8e1e2af08b45a.jpg\nhttp://www.99ysw.cn/d/file/m2_99ysw/2017-10-29/f12192c3e87cc8d637d5d3590f71af2e.jpg",
    "class23": "",
    "rel_type": "m",
    "nav": "首页>健康快讯>正文",
    "release_date": "2017-10-31 11:01:07",
    "lable_time": "2017-10-31 14:07:07",
    "media_name": "天津之声",
    "_data__format_clue_release_date": "Pure Parse Precision 6",
    "hl_empty_fields": "original_media_url,sensitive_words,class23,original_media_name,author,other_content,class17"
}

相关能力

与全网关键词过滤能力的区别:
1、关键词过滤方式:只需直接填过滤数据的条件,获得的最终数据不包含任何附加信息
2、判定图标引方式:需要先通过公司提供的平台创建判定图,上传判定图规则后才能使用该判定图做历史数据过滤操作,最终获得的符合判定的数据包含判定图的标签信息

参考指标

使用平台公共的回溯系统资源,效率取决于任务启动时公共资源的占用情况

附加说明

  • 当平台有升级时,在点击升级按钮前,请确保历史能力状态展示为“已停止”或“已完成”,若为“运行中”“提交中”等表示任务进行中的状态,则“升级”操作会强行停止当前任务
  • 该能力默认会过滤一些无效数据(例如某些广告、色情数据),如仍有不需要的数据请使用其他高级数据处理能力过滤
  • 2022年2月21日 新增输出流【完成信号】 当历史回溯任务完成时,会从【完成信号】的输出流中输出一条信息,描述了任务号和任务数据量,该数据可以直接连接【模板消息通知】能力发送通知消息,或自行进行其他用途
  • 2018年3月16日 二次回溯标引结果新平台格式化
    对公司内部业务建立的“二次回溯”任务,输出tag_result_previous字段,存储上次回溯任务的标引结果,格式为新平台格式同tag_result
  • 2018年2月28日 新增电商历史数据回溯任务(内测版)
  • 仅限内测人员使用,在此说明功能及限制:
    1、建议只使用判定图功能,不要使用关键词功能
    2、判定图类型必须为电商类型判定图
    3、任务会开启两轮,界面上会看到第一次进度100%后立刻回到0%,自动开启第二次的进度,请内测人员自行把握进度
    4、由于任务会开启两轮,因此输出数据量展示的暂时不准,请内测人员自行确认数据完整性
    5、电商任务必须消重,“是否消重”选项无效
    6、对于关联标引,产品不会有标签,只有评论有标签
    7、对于标引产品输出所有评论的情况,请在高级配置里设置{"task_desc.mapred.ebus.outputm.need.c":"1"}

results matching ""

    No results matching ""