能力说明
能力名称:语义特征提取
功能简介
对指定字段进行人名,地名,机构名,关键词提取
配置参数
| 参数名称 | 参数类型 | 是否必填 | 默认值 | 参数说明 |
|---|---|---|---|---|
| 处理人名字段 | 文本 | 否 | 设置要识别人名的字段,以“,”分隔 | |
| 需要过滤的人名识别结果 | 文本 | 否 | 需要过滤的人名识别结果,以“,”分隔 | |
| 指定必须识别人名 | 文本 | 否 | 指定必须识别人名,以“,”分隔 | |
| 设置要识别机构名的字段 | 文本 | 否 | 设置要识别机构名的字段,以“,”分隔 | |
| 设置要识别地名的字段 | 文本 | 否 | 设置要识别地名的字段,以“,”分隔 | |
| 选择识别地名类型 | 文本 | 否 | 选择识别地名类型,复选框 | |
| 设置要识关键词的字段 | 文本 | 否 | 设置要识关键词的字段,以“,”分隔 | |
| 设置要识关键词的个数 | 文本 | 否 | 设置要识关键词的个数 | |
| 输出关键词类型 | 文本 | 否 | 设置输出关键词类型,类型来源于自定义词典设置的类型,如果设置多个类型,以","分隔。如需要输出全部,可以不填 | |
| 上传分词自定义词典 | 文本 | 否 | 关键词自定义词典,以文本形式上传,要求utf8码制文本,如没有,可以不填 |
输入简介
1.人名识别
人名识别除了需要配置要识别的字段外,增加了黑白名单设计。支持用户对抽取结果进行人工干预。用户通过使用黑名单的方式,过滤掉不想要识别出的人名;通过白名单方式,补充能力无法识别出的人名。黑白名单支持填写多个,以逗号分隔
2.地名识别
地名识别支持用户勾选需要识别的地名类型。包括“全国行政区划地名”, “外国地名”, “景点坐标村庄道路类地名”。其中“全国行政区划地名”是指标准的省/市/县/区地名。“外国地名”指国外的地名。“景点坐标村庄道路类地名”则指热门景点,村庄,道路等名称
3.关键词识别
关键词识别支持用户选择识别关键词的个数。关键词识别支持用户干预。通过添加自定义词,识别出用户需要识别出的词。
输入数据样例
{"fmt_format_content":"李明是个好孩子,他考上了北京大学。"}
输出简介
对于有提取结果的
1.提取的人名新增“字段名_names”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的人名,count是该人名在文章中出现的次数,weight是指在文章中的权重。
2.提取的地名新增“字段名_locs”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的地名,count是该地名在文章中出现的次数,maplevel为归一化后地名,附带行政所属,mask表示地名级别。(1表示中国,2表示省/直辖市级,3表示市级,4表示区/县级,6表示村庄道路景点坐标类地名,16表示外国地名或外国景点名)
3.提取的机构名新增“字段名_orgs”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的机构名名,count是该机构名在文章中出现的次数,weight是指在文章中的权重。
4.提取的关键词新增“字段名_keywords”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的关键词,count是该机构名在文章中出现的次数,weight是指在文章中的权重。
输出数据样例
{
"fmt_format_content_orgs":{
"datas": [{
"str": "北京大学",
"count": 1,
"weight": 1.3106645220850752
}],
"data_type": "ne_org"
},
"fmt_format_content_names":{
"datas": [{
"str": "李明",
"count": 1,
"weight": 1.625
}],
"data_type": "ne_name"
},
"fmt_format_content_locs":{
"datas": [{
"str": "北京大学",
"maplevel": "中国-北京市-海淀区-北京大学",
"count": 1,
"mask": 6
}],
"data_type": "ne_loc"
},
"fmt_format_content_keywords":{
"datas": [{
"str": "李明",
"count": 1,
"weight": 2.5
},
{
"str": "考上",
"count": 1,
"weight": 1.3258110894805346
},
{
"str": "北京大学",
"count": 1,
"weight": 1.3106645220850752
},
{
"str": "孩子",
"count": 1,
"weight": 0.6110684485641719
}],
"data_type": "keyword"
},
"fmt_format_content":李明是个好孩子,他考上了北京大学。
}
相关能力
参考指标
数据质量:90%
处理性能:1400条/s,300条/s
无
附加说明
用户自定义词典格式如下:
a)用户自定义词典采用文本格式,utf-8编码,每行一个词
b)第一列为词,后面可添加词标签。中间以Tab分隔
例如:
中文分词系统 专有名词
隐藏参数说明
无