能力说明

功能简介

适用条件:读取采集数据回溯;

适用情景:读取OSS云储存空间的采集数据。

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
资源类型 文本 获取数据类型,支持news,newsflash,weibo,多个直接用逗号分割,news包含贴吧论坛等类型
开始时间 文本 指定(下载)开始时间eg.:20240810
截至时间 文本 指定(下载)截至时间eg.:20240812
启动时是否重新获取 文本 true 能力停止后再次启动时,是否继续执行上一次未完成任务

配置方法

使用月租机器的任务,请先点画布上的升级按钮,将程序更新到最新版本在使用

流程总览(可根据实际业务使用):

undefined

1、 获取数据:使用能力“获取历史回溯数据”,获取历史数据(目前只支持2024年8月1日后的数据)

undefined

① 资源类型:news,包含新闻、论坛、微信等新源,newsflash为source_type=6的视频新源,weibo为source_type=4的微博新源

② 开始时间,格式为YYYYMMDD,数据采集的开始时间

③ 截止时间,格式为YYYYMMDD,数据采集的结束时间

④ 启动时是否重新获取,true:每次能力停止再启动时从第一条开始获取,false:能力停止再启动时不从头获取,而是继续读取之前的数据

2、 初步过滤,从云存储读取出来的数据是指定范围内的全部数据,数据量较大,如果全部进入后续的流程,画布压力较大,需要进行数据过滤筛掉不合法的数据,建议从以下几个方面进行过滤:

① 使用数据过滤能力,对download_date的时间范围进行筛选

undefined

② 使用数据过滤能力,提炼出自己需要的必含关键词进行筛选

undefined

③ 消除重复数据,建议使用url_crc或者url进行消重,使用url格式化,自定义crc计算能力得出url_crc,再使用数据消重能力进行消重。如果客户有指定的按内容消重需求,增加一个自定义crc能力用指定字段计算crc。请注意使用数据消重时,如果先进行了一遍测试,正式跑能力之前修改一下缓存方式再重新启动能力,将之前跑的缓存数据清空,否则会影响数据效果

undefined

④ 使用发布时间归一化能力对发布时间进行归一化后,再使用数据过滤能力对发布时间范围进行过滤:

undefined

⑤ 如果有废文,在标引前进行一轮废文判定图过滤,只保留废文判定图没有命中的数据进行后续的标引,如果使用3.2的通用废文过滤,使用3.2判定图标引能力,通用废文判定图id:11409193593724

undefined

3、 标引前进行预处理

从云存储读取出来的数据是原始采集数据,在进行标引前,需要进行必要的预处理操作,包括:发布时间归一化、资源类型修正、url格式化、繁简转换、去除html标签

4、 标引环节:使用判定图标引能力,对需要回溯的判定图进行标引;如果是进行关键词回溯,则此处不需要判定图标引能力,使用数据过滤能力配置相关关键词即可。

5、 标引后补充字段:如果标引后的数据是要写回3.2主题或者客户需要用到title_crc、content_crc,content_multi_md5字段,则使用内容语义指纹计算能力计算出相应crc字段,分词版本根据需要进行选择,需要写回3.2主题的建议选择3.2分词(需要使用该版本分词的请联系开发人员更新程序后再用),不需要在3.2主题使用的使用默认分词

undefined

6、 后续存储:标引完成后,可根据业务需要将数据进行存储或者下载等操作;

① 如果是需要把数据写回3.2的主题页面,先使用用标引结果转RIS格式(默认配置),再使用写入MQ能力(zk配置:172.16.47.37:2182,172.16.47.38:2182,172.16.47.39:2182,队列:adp2es32),将数据写回3.2的主题页面(注意:此需求需要联系开发靳亮进行**3.2**旧数据的删除

undefinedundefined

② 用户需要通过V2或者V3的api接口取走回溯数据,先使用用标引结果转RIS格式(取数据使用的taskID:(待补充),是否转换回溯格式:是),再使用写入MQ能力(zk配置:172.16.47.37:2182,172.16.47.38:2182,172.16.47.39:2182,队列:Lable_Lazy)

undefinedundefined

undefined

7、 性能优化建议:能力处理慢时易造成画布堆积,建议将队列数量设置在较小的值,比如1000,或者500,减少队列堆积引起磁盘爆满

输入简介

输入数据样例

输出简介

常规json格式数据

输出数据样例

{"url":"http://weibo.com/123123"}

相关能力

依赖【数据云存储】能力

参考指标

  • 数据质量:无

  • 处理性能:100MB/min (条/min,MB/min)

  • CPU:4核心

  • 内存:4G

附加说明

隐藏参数说明

results matching ""

    No results matching ""