能力说明

能力名称:全网数据监测

功能简介

根据参数配置中选择的数据类型推送实时数据,该实时数据不是原始采集数据,而是对原始数据做了繁简转换、资源修正、时间标准化、关键字段补充等预处理操作后的数据,另外,发布时间在24小时之前的数据不会被推送。

PS:该能力已默认过滤掉一些通用无效数据

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
资源类型 数字 资源类型
资源子类型 文本 资源子类型
资源来源 文本 资源来源
过滤关键词 文本 英文半角逗号分隔,过滤字段中包含任意一词即会从能力中输出,若不填入有效值,则输出全部数据
过滤字段 文本 fmt_title,fmt_format_content 需要进行过滤的字段,多个用英文半角逗号分隔,任意一个字段中包含任意一个过滤词,即可从能力中输出

输入简介

该能力不需要输入

输入数据样例

输出简介

经过预处理后的全网实时数据,json格式

输出数据样例

{
    "SessionID": "[rmiiq0|475A9A5E08000006]475A9A4D01000057-14044686034499331625",
    "author": "未知",
    "birthday_normalized": "",
    "contact_fmt_format_content": "",
    "contact_fmt_title": "",
    "contain_words": "test",
    "content": "协尔口腔洗牙记",
    "content_crc": "14333744178404525494",
    "content_media_name": "",
    "download_date": "2017-12-07 13:21:15",
    "fmt_author": "未知",
    "fmt_format_content": "协尔口腔洗牙记",
    "fmt_title": "协尔口腔洗牙记",
    "format_content": "协尔<em class=\"hl\">口腔</em>洗牙记",
    "from_flag": "MetaSearch_gms",
    "keywords": "协尔 口腔 牙 洗 记",
    "location_normalized": "",
    "media_id": "1003545",
    "media_name": "腾讯视频",
    "refer_url": "http://v.qq.com/x/search/?q=%E6%B5%99%E6%B1%9F%E7%9C%81%E5%8F%A3%E8%85%94%E5%8C%BB%E9%99%A2&filter=sort=1",
    "rel_type": "m",
    "release_date": "2017-12-07 00:00:00",
    "release_date_for_client": "2017-12-07 13:21:15",
    "search_word": "浙江省口腔医院",
    "segment_fmt_title": "2211212",
    "source_type": "6",
    "src_url": "http://v.qq.com/x/page/j05153rrwxq.html",
    "src_url_crc": "2036448414",
    "title": "协尔<em class=\"hl\">口腔</em>洗牙记",
    "title_crc": "10169215102251402228",
    "title_crc_old": "9071060361875638968",
    "url": "http://v.qq.com/x/page/j05153rrwxq.html#metasearch_wy",
    "url_crc": "8897108174686672670",
    "url_original": "http://v.qq.com/x/page/j05153rrwxq.html#metasearch_3412736417",
    "words": "7"
}

相关能力

参考指标

  • 数据质量:99.9% (算法类能力:准确率召回率;采集类能力:采全率,及时率)

  • 处理性能:8k/分钟 (条/min,MB/min)

(说明质量品标和性能品标的环境参数, 例如:cpu,内存,线程数 或语料平均长度,数据是新闻还是微博等 可自行扩展编写这部分 甚至将来会填写需要多少“海币”才能达到上述性能)

  • 测试环境
CPU 内存 线程数
4核 4g 4
  • 效率
运行时间 处理条数
前5分钟 处理37136条
第10分钟 处理66009
第15分钟 处理10w

附加说明

2.0版更新内容

  • 增加选择数据类型的功能,根据数据类型选择性推送数据,降低带宽消耗
  • 数据进行了基本的预处理功能,并对数据发布时间做了限制,推送实时预处理后的数据
  • 底层改用Rocketmq作为数据源,数据推送更高效
  • 增加关键词过滤功能

隐藏参数说明

results matching ""

    No results matching ""