能力说明

能力名称：文本内容消重

功能简介

1.根据文本内容判断是否有重复数据 2.注意事项： a)该能力是在google消重论文的基础上实现的，核心算法是simHash及相关索引，相较指纹类（CRC类）消重有较好的召回率。 b)该能力对内存要求较高，不建议放在数据处理流程的前端，最好在数据最终存储前使用。 c)内存占用与能力的索引存储数据的多少有关，大约每100万数据需要1G内存。此为经验值，实际还与设置的过期时间、数据本身的重复率有关。 d)如果处理的数据量较大的，建议选择大内存的虚机配置。

配置参数

参数名称	参数类型	是否必填	默认值	参数说明
标题字段	字符串	否	fmt_title	设置标题字段，如果没有标题则可以不填
正文字段	字符串	是	fmt_format_content	设置正文字段
数据过期时间	数字	否	0	设置数据过期时间，单位是天，填"0"表示没有过期
内容为空的数据是否记为重复	布尔值	是	false	内容字段为空的数据是否记为重复数据
是否记录数据日志	布尔值	否	false	设置是否记录数据日志，数据日志是在能力下次启动时使用，如果数据为一次性处理，则不必保存数据日志
高级设置	字符串	否		json格式，如: {"flushLogInterval": 100, "useTitleCrc": false} ，具体参数设置请参考后面的高级设置说明

输入简介

无

输入数据样例

无

输出简介

无

输出数据样例

无

参考指标

数据质量：100% 准确率（精度）: 99.08% 召回率: 88.31%
处理性能：单核：1000+条/s
数据上限：单机理论上限约为1000万条索引

附加说明

无

高级设置说明

参数名称	参数类型	是否必填	默认值	参数说明
maxHammingDistance	数字	否	7	最大海明距离，该值越大，则判定的尺度越宽松
minSimHashKeywordCount	数字	否	4	参与simHash计算的关键词最小个数，该值越小，则判定的尺度越宽松
maxSimHashKeywordCount	数字	否	10	参与simHash计算的关键词最大个数，该值越小，则判定的尺度越宽松
titleKeywordCount	数字	否	3	标题关键词个数，用于限定分词关键词计算输出数量
contentKeywordRatio	数字	否	40	正文关键词数量因子，文章长度除以该值用于设定分词关键词计算输出数量
minContentKeywordCount	数字	否	4	正文关键词最小个数，用于限定分词关键词计算输出数量
maxContentKeywordCount	数字	否	10	正文关键词最大个数，用于限定分词关键词计算输出数量
useTitleCrc	布尔值	否	true	是否使用标题Crc
dataCapacity	数字	否	10000000	用于初始化HashMap，如果数据量较少，且内存也不大，可以适当减少该值
flushLogInterval	数字	否	1000	设定数据日志的回写刷新频率，该值过大会导致发生异常时，日志损失；过小，则影响性能

文本内容消重