能力说明

能力名称:数据消重能力

功能简介

按照用户配置的字段过滤重复的数据,支持千万级数据消重,能力可重启

机器配置为高效云盘,能力消化数据速度约为8000条/分钟

机器配置为SSD磁盘,能力消化数据速度约为30000条/分钟

注意事项

1.该能力不适用于集群

2.只支持单字段消重

3.释放工作台资源后,已存消重数据会清空,如需保留消重库请与开发商联系

4.存储1千万的数据,占用磁盘空间约为500多M,如机器磁盘空间紧张,可删除不用的消重能力

配置参数

| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |

| - | - | - | - | - |

| 字段名称 | string | 是 | | 按该字段的值过滤重复数据,不支持多字段 |

| - | - | - | - | - |

| 缓存方式(变更缓存方式即可清空缓存,重新开始消重)| string | 是 | | 变更缓存方式即可清空缓存|

缓存方式说明:

1.方式一、方式二的功能相同。两种方式的设置只是为了实现不删除能力,即可重新开始消重的功能。

例如:初始配置选择方式一,能力运行一段时间后,需要清除一下缓存,开始重新消重。 可将“数据消重能力”停止,将配置改为方式二,保存配置后再启动能力。

能力运行一段时间后,还需要清除一下缓存,开始重新消重。将“数据消重能力”停止,将配置改为方式一,保存配置后再启动能力。

(即:每次需要重新开始消重时就在配置中切换为另外一种缓存方式)

3.如果需要一直进行累计消重,初始配置任意选择一个方式,后续不再变更配置即可。

输入简介

输入数据样例

第一条数据:
{
    "navigation" : "首页",
    "url_crc" : "123",
    "url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}
第二条数据:
{
    "navigation" : "首页》≡理财>>正文",
    "url_crc" : "123",
    "url" : "http://ask.yaolan.com/1967004475"
}

输出简介

输出数据样例

{
    "navigation" : "首页",
    "url_crc" : "123",
    "url" : "http://ask.yaolan.com/1967004475/EobAFltoo#metasearch_wy"
}

相关能力

参考指标

  • 数据质量:99%

  • 处理性能:未知

附加说明

隐藏参数说明

results matching ""

    No results matching ""