能力说明
能力名称:文本正则提取
功能简介
通过正则进行数据内容的提取, 必须使用正则组命名的方法, 只提取文章中第一次出现的
注意, 正则命名不能使用下划线等符号, 只能用英文大小写和数字
如果提取类型是"指定字段名提取"
例子:
正则: a(?<fname>.*?)c
fname是新字段的名字, 这个名字只能用英文大小写和数字, 不能用下划线等字符
对于数据
abcabbc
fname的值是b
最终会提取出一个字段
fname:b
如果提取类型是"动态字段名提取"
例子:
正则: \$\s?(?<field>.+?):\s?(?<value>.+?)[$\s]
正则中必须包含两个组 field 和value
field提出来的为字段名
value提出来的为字段值
对于数据
$适用年龄:6个月以上 $包装单位:盒装
最终会提取出两个字段
适用年龄:6个月以上
包装单位:盒装
点击这里学习正则语法, 特别是 "后向引用 " 和 "表4" 部分
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
| ------- | ---- | ---- | --------------- | ------------------------------ |
| 提取类型 | 文本 | 是 | 指定字段名提取 | 选择正则的提取类型, 详见上面功能简介 |
| 正则内容 | 文本 | 是 | a(?<fname>.*?)c | 正则中通过组名来描述字段名, 组匹配的第一个内容作为字段内容 |
| 从什么字段提取 | 文本 | 是 | - | 从什么字段提取 |
无
输入简介
无
输入数据样例
{"title":"abc"}
输出简介
增加提取后的字段
输出数据样例
{"title":"abc","fname":"b"}
相关能力
前置复杂标引, 并把标签提升为字段
参考指标
- 数据质量:100%
- 处理性能:300~2000/s
4核4线程, 根据不同数据不同
数据长度越长, 越慢
附加说明
无
隐藏参数说明
无