能力说明
能力名称:数据消重能力
功能简介
按照用户配置的字段过滤重复的数据,支持千万级数据消重,能力可重启
机器配置为高效云盘,能力消化数据速度约为8000条/分钟
机器配置为SSD磁盘,能力消化数据速度约为30000条/分钟
注意事项
1.该能力不适用于集群
2.只支持单字段消重
3.释放工作台资源后,已存消重数据会清空,如需保留消重库请与开发商联系
4.存储1千万的数据,占用磁盘空间约为500多M,如机器磁盘空间紧张,可删除不用的消重能力
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
| - | - | - | - | - |
| 字段名称 | string | 是 | | 按该字段的值过滤重复数据,不支持多字段 |
| - | - | - | - | - |
| 缓存方式(变更缓存方式即可清空缓存,重新开始消重)| string | 是 | | 变更缓存方式即可清空缓存|
缓存方式说明:
1.方式一、方式二的功能相同。两种方式的设置只是为了实现不删除能力,即可重新开始消重的功能。
例如:初始配置选择方式一,能力运行一段时间后,需要清除一下缓存,开始重新消重。 可将“数据消重能力”停止,将配置改为方式二,保存配置后再启动能力。
能力运行一段时间后,还需要清除一下缓存,开始重新消重。将“数据消重能力”停止,将配置改为方式一,保存配置后再启动能力。
(即:每次需要重新开始消重时就在配置中切换为另外一种缓存方式)
3.如果需要一直进行累计消重,初始配置任意选择一个方式,后续不再变更配置即可。
输入简介
输入数据样例
第一条数据:
{
"navigation" : "首页",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
第二条数据:
{
"navigation" : "首页》≡理财>>正文",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475"
}
输出简介
输出数据样例
{
"navigation" : "首页",
"url_crc" : "123",
"url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
相关能力
参考指标
数据质量:99%
处理性能:未知
附加说明
无
隐藏参数说明
无