能力说明
能力名称:全网历史关键词过滤
功能简介
通过关键词过滤的方式对历史数据进行筛选并输出符合筛选条件的数据。
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 资源类型 | 文本 | 是 | 无 | 分为资讯、论坛、贴吧、博客等资源类型,详细定义参看 数据服务信源支持情况表 |
| 资源子类型 | 文本 | 是 | 无 | 分为:正文,回帖,转发 |
| 起始时间 | 日期 | 是 | 无 | 扫描数据范围的开始时间 |
| 结束时间 | 日期 | 是 | 无 | 扫描数据范围的结束时间 |
| 筛选条件 | 文本 | 是 | 无 | 填写相关的逻辑规则 |
说明:全网数据包含但不限于数据服务信源支持情况表中的网站,此表列举的为主要的重点网站
输入简介
该能力为数据源能力,自身生产数据,无需前置输入
输入数据样例
无
输出简介
输出满足筛选条件的数据
输出数据样例
此能力输出的数据结构取决于扫描的资源类型,请参考各资源类型对应的数据字段:数据服务基础字段表
相关能力
与全网历史判定图能力功能相似,区别如下:
- 关键词过滤方式:只需直接填过滤数据的条件,获得的最终数据不包含任何附加信息(过滤数据的方式简单)
- 判定图标引方式:需要先通过公司提供的平台创建判定图,上传判定图规则后才能使用该判定图做历史数据过滤操作,获得的最终数据包含判定图上的标签信息(判定图支持复杂的过滤方式以及打标签功能)
参考指标
使用后台系统资源,与当前画布机器配置无关,效率取决于任务启动时公共资源的占用情况
附加说明
- 当平台有升级时,在点击升级按钮前,请确保历史能力状态展示为“已停止”或“已完成”,若为“运行中”“提交中”等表示任务进行中的状态,则“升级”操作会强行停止当前任务
- 该能力默认会过滤一些无效数据(例如某些广告、色情数据),如仍有不需要的数据请使用其他高级数据处理能力过滤
- 2022年2月21日 新增输出流【完成信号】 当历史回溯任务完成时,会从【完成信号】的输出流中输出一条信息,描述了任务号和任务数据量,该数据可以直接连接【模板消息通知】能力发送通知消息,或自行进行其他用途