能力说明
能力名称:文本内容消重
功能简介
1.根据文本内容判断是否有重复数据 2.注意事项: a)该能力是在google消重论文的基础上实现的,核心算法是simHash及相关索引,相较指纹类(CRC类)消重有较好的召回率。 b)该能力对内存要求较高,不建议放在数据处理流程的前端,最好在数据最终存储前使用。 c)内存占用与能力的索引存储数据的多少有关,大约每100万数据需要1G内存。此为经验值,实际还与设置的过期时间、数据本身的重复率有关。 d)如果处理的数据量较大的,建议选择大内存的虚机配置。
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 标题字段 | 字符串 | 否 | fmt_title | 设置标题字段,如果没有标题则可以不填 |
| 正文字段 | 字符串 | 是 | fmt_format_content | 设置正文字段 |
| 数据过期时间 | 数字 | 否 | 0 | 设置数据过期时间,单位是天,填"0"表示没有过期 |
| 内容为空的数据是否记为重复 | 布尔值 | 是 | false | 内容字段为空的数据是否记为重复数据 |
| 是否记录数据日志 | 布尔值 | 否 | false | 设置是否记录数据日志,数据日志是在能力下次启动时使用,如果数据为一次性处理,则不必保存数据日志 |
| 高级设置 | 字符串 | 否 | json格式,如: {"flushLogInterval": 100, "useTitleCrc": false} ,具体参数设置请参考后面的高级设置说明 |
输入简介
无
输入数据样例
无
输出简介
无
输出数据样例
无
相关能力
需要前置模块预处理
参考指标
数据质量:100% 准确率(精度): 99.08% 召回率: 88.31%
处理性能: 单核:1000+条/s
数据上限: 单机理论上限约为1000万条索引
附加说明
无
高级设置说明
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| maxHammingDistance | 数字 | 否 | 7 | 最大海明距离,该值越大,则判定的尺度越宽松 |
| minSimHashKeywordCount | 数字 | 否 | 4 | 参与simHash计算的关键词最小个数,该值越小,则判定的尺度越宽松 |
| maxSimHashKeywordCount | 数字 | 否 | 10 | 参与simHash计算的关键词最大个数,该值越小,则判定的尺度越宽松 |
| titleKeywordCount | 数字 | 否 | 3 | 标题关键词个数,用于限定分词关键词计算输出数量 |
| contentKeywordRatio | 数字 | 否 | 40 | 正文关键词数量因子,文章长度除以该值用于设定分词关键词计算输出数量 |
| minContentKeywordCount | 数字 | 否 | 4 | 正文关键词最小个数,用于限定分词关键词计算输出数量 |
| maxContentKeywordCount | 数字 | 否 | 10 | 正文关键词最大个数,用于限定分词关键词计算输出数量 |
| useTitleCrc | 布尔值 | 否 | true | 是否使用标题Crc |
| dataCapacity | 数字 | 否 | 10000000 | 用于初始化HashMap,如果数据量较少,且内存也不大,可以适当减少该值 |
| flushLogInterval | 数字 | 否 | 1000 | 设定数据日志的回写刷新频率,该值过大会导致发生异常时,日志损失;过小,则影响性能 |