能力说明

能力名称:文本正则提取

功能简介

通过正则进行数据内容的提取, 必须使用正则组命名的方法, 只提取文章中第一次出现的

注意, 正则命名不能使用下划线等符号, 只能用英文大小写和数字

如果提取类型是"指定字段名提取"

例子:

正则: a(?<fname>.*?)c

fname是新字段的名字, 这个名字只能用英文大小写和数字, 不能用下划线等字符

对于数据

abcabbc

fname的值是b

最终会提取出一个字段

    fname:b

如果提取类型是"动态字段名提取"

例子:

正则: \$\s?(?<field>.+?):\s?(?<value>.+?)[$\s]

正则中必须包含两个组 field 和value

field提出来的为字段名

value提出来的为字段值

对于数据

$适用年龄:6个月以上 $包装单位:盒装

最终会提取出两个字段

    适用年龄:6个月以上

    包装单位:盒装

点击这里学习正则语法, 特别是 "后向引用 " 和 "表4" 部分

点击这里下载正则测试工具, 这里也有教学, 也不错

配置参数

| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |

| ------- | ---- | ---- | --------------- | ------------------------------ |

| 提取类型 | 文本 | 是 | 指定字段名提取 | 选择正则的提取类型, 详见上面功能简介 |

| 正则内容 | 文本 | 是 | a(?<fname>.*?)c | 正则中通过组名来描述字段名, 组匹配的第一个内容作为字段内容 |

| 从什么字段提取 | 文本 | 是 | - | 从什么字段提取 |

输入简介

输入数据样例


{"title":"abc"}

输出简介

增加提取后的字段

输出数据样例


{"title":"abc","fname":"b"}

相关能力

前置复杂标引, 并把标签提升为字段

参考指标

  • 数据质量:100%
  • 处理性能:300~2000/s

4核4线程, 根据不同数据不同

数据长度越长, 越慢

附加说明

隐藏参数说明

results matching ""

    No results matching ""