能力说明
能力名称:全网数据监测
功能简介
根据参数配置中选择的数据类型推送实时数据,该实时数据不是原始采集数据,而是对原始数据做了繁简转换、资源修正、时间标准化、关键字段补充等预处理操作后的数据,另外,发布时间在24小时之前的数据不会被推送。
PS:该能力已默认过滤掉一些通用无效数据
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 资源类型 | 数字 | 是 | 无 | 资源类型 |
| 资源子类型 | 文本 | 是 | 无 | 资源子类型 |
| 资源来源 | 文本 | 是 | 无 | 资源来源 |
| 过滤关键词 | 文本 | 否 | 无 | 英文半角逗号分隔,过滤字段中包含任意一词即会从能力中输出,若不填入有效值,则输出全部数据 |
| 过滤字段 | 文本 | 否 | fmt_title,fmt_format_content | 需要进行过滤的字段,多个用英文半角逗号分隔,任意一个字段中包含任意一个过滤词,即可从能力中输出 |
输入简介
该能力不需要输入
输入数据样例
无
输出简介
经过预处理后的全网实时数据,json格式
输出数据样例
{
"SessionID": "[rmiiq0|475A9A5E08000006]475A9A4D01000057-14044686034499331625",
"author": "未知",
"birthday_normalized": "",
"contact_fmt_format_content": "",
"contact_fmt_title": "",
"contain_words": "test",
"content": "协尔口腔洗牙记",
"content_crc": "14333744178404525494",
"content_media_name": "",
"download_date": "2017-12-07 13:21:15",
"fmt_author": "未知",
"fmt_format_content": "协尔口腔洗牙记",
"fmt_title": "协尔口腔洗牙记",
"format_content": "协尔<em class=\"hl\">口腔</em>洗牙记",
"from_flag": "MetaSearch_gms",
"keywords": "协尔 口腔 牙 洗 记",
"location_normalized": "",
"media_id": "1003545",
"media_name": "腾讯视频",
"refer_url": "http://v.qq.com/x/search/?q=%E6%B5%99%E6%B1%9F%E7%9C%81%E5%8F%A3%E8%85%94%E5%8C%BB%E9%99%A2&filter=sort=1",
"rel_type": "m",
"release_date": "2017-12-07 00:00:00",
"release_date_for_client": "2017-12-07 13:21:15",
"search_word": "浙江省口腔医院",
"segment_fmt_title": "2211212",
"source_type": "6",
"src_url": "http://v.qq.com/x/page/j05153rrwxq.html",
"src_url_crc": "2036448414",
"title": "协尔<em class=\"hl\">口腔</em>洗牙记",
"title_crc": "10169215102251402228",
"title_crc_old": "9071060361875638968",
"url": "http://v.qq.com/x/page/j05153rrwxq.html#metasearch_wy",
"url_crc": "8897108174686672670",
"url_original": "http://v.qq.com/x/page/j05153rrwxq.html#metasearch_3412736417",
"words": "7"
}
相关能力
无
参考指标
数据质量:99.9% (算法类能力:准确率召回率;采集类能力:采全率,及时率)
处理性能:8k/分钟 (条/min,MB/min)
(说明质量品标和性能品标的环境参数, 例如:cpu,内存,线程数 或语料平均长度,数据是新闻还是微博等 可自行扩展编写这部分 甚至将来会填写需要多少“海币”才能达到上述性能)
- 测试环境
| CPU | 内存 | 线程数 |
|---|---|---|
| 4核 | 4g | 4 |
- 效率
| 运行时间 | 处理条数 |
|---|---|
| 前5分钟 | 处理37136条 |
| 第10分钟 | 处理66009 |
| 第15分钟 | 处理10w |
附加说明
2.0版更新内容
- 增加选择数据类型的功能,根据数据类型选择性推送数据,降低带宽消耗
- 数据进行了基本的预处理功能,并对数据发布时间做了限制,推送实时预处理后的数据
- 底层改用Rocketmq作为数据源,数据推送更高效
- 增加关键词过滤功能
隐藏参数说明
无