能力说明

能力名称：文本正则提取

功能简介

通过正则进行数据内容的提取, 必须使用正则组命名的方法, 只提取文章中第一次出现的

注意, 正则命名不能使用下划线等符号, 只能用英文大小写和数字

如果提取类型是"指定字段名提取"

例子:

正则: a(?<fname>.*?)c

fname是新字段的名字, 这个名字只能用英文大小写和数字, 不能用下划线等字符

对于数据

abcabbc

fname的值是b

最终会提取出一个字段

    fname:b

如果提取类型是"动态字段名提取"

例子:

正则: \$\s?(?<field>.+?)：\s?(?<value>.+?)[$\s]

正则中必须包含两个组 field 和value

field提出来的为字段名

value提出来的为字段值

对于数据

$适用年龄：6个月以上 $包装单位：盒装

最终会提取出两个字段

    适用年龄:6个月以上

    包装单位:盒装

点击这里学习正则语法, 特别是 "后向引用 " 和 "表4" 部分

点击这里下载正则测试工具, 这里也有教学, 也不错

配置参数

| ------- | ---- | ---- | --------------- | ------------------------------ |

| 从什么字段提取 | 文本 | 是 | - | 从什么字段提取 |

无

输入简介

无

输入数据样例


{"title":"abc"}

输出简介

增加提取后的字段

输出数据样例


{"title":"abc","fname":"b"}

参考指标

数据质量：100%

处理性能：300~2000/s

4核4线程, 根据不同数据不同

数据长度越长, 越慢

附加说明

无

隐藏参数说明

无

文本正则提取