能力说明

能力名称:文本内容消重

功能简介

1.根据文本内容判断是否有重复数据 2.注意事项: a)该能力是在google消重论文的基础上实现的,核心算法是simHash及相关索引,相较指纹类(CRC类)消重有较好的召回率。 b)该能力对内存要求较高,不建议放在数据处理流程的前端,最好在数据最终存储前使用。 c)内存占用与能力的索引存储数据的多少有关,大约每100万数据需要1G内存。此为经验值,实际还与设置的过期时间、数据本身的重复率有关。 d)如果处理的数据量较大的,建议选择大内存的虚机配置。

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
标题字段 字符串 fmt_title 设置标题字段,如果没有标题则可以不填
正文字段 字符串 fmt_format_content 设置正文字段
数据过期时间 数字 0 设置数据过期时间,单位是天,填"0"表示没有过期
内容为空的数据是否记为重复 布尔值 false 内容字段为空的数据是否记为重复数据
是否记录数据日志 布尔值 false 设置是否记录数据日志,数据日志是在能力下次启动时使用,如果数据为一次性处理,则不必保存数据日志
高级设置 字符串 json格式,如: {"flushLogInterval": 100, "useTitleCrc": false} ,具体参数设置请参考后面的高级设置说明

输入简介

输入数据样例

输出简介

输出数据样例

相关能力

需要前置模块预处理

参考指标

  • 数据质量:100% 准确率(精度): 99.08% 召回率: 88.31%

  • 处理性能: 单核:1000+条/s

  • 数据上限: 单机理论上限约为1000万条索引

附加说明

高级设置说明

参数名称 参数类型 是否必填 默认值 参数说明
maxHammingDistance 数字 7 最大海明距离,该值越大,则判定的尺度越宽松
minSimHashKeywordCount 数字 4 参与simHash计算的关键词最小个数,该值越小,则判定的尺度越宽松
maxSimHashKeywordCount 数字 10 参与simHash计算的关键词最大个数,该值越小,则判定的尺度越宽松
titleKeywordCount 数字 3 标题关键词个数,用于限定分词关键词计算输出数量
contentKeywordRatio 数字 40 正文关键词数量因子,文章长度除以该值用于设定分词关键词计算输出数量
minContentKeywordCount 数字 4 正文关键词最小个数,用于限定分词关键词计算输出数量
maxContentKeywordCount 数字 10 正文关键词最大个数,用于限定分词关键词计算输出数量
useTitleCrc 布尔值 true 是否使用标题Crc
dataCapacity 数字 10000000 用于初始化HashMap,如果数据量较少,且内存也不大,可以适当减少该值
flushLogInterval 数字 1000 设定数据日志的回写刷新频率,该值过大会导致发生异常时,日志损失;过小,则影响性能

results matching ""

    No results matching ""