能力说明

能力名称:语义特征提取

功能简介

对指定字段进行人名,地名,机构名,关键词提取

配置参数

参数名称 参数类型 是否必填 默认值 参数说明
处理人名字段 文本 设置要识别人名的字段,以“,”分隔
需要过滤的人名识别结果 文本 需要过滤的人名识别结果,以“,”分隔
指定必须识别人名 文本 指定必须识别人名,以“,”分隔
设置要识别机构名的字段 文本 设置要识别机构名的字段,以“,”分隔
设置要识别地名的字段 文本 设置要识别地名的字段,以“,”分隔
选择识别地名类型 文本 选择识别地名类型,复选框
设置要识关键词的字段 文本 设置要识关键词的字段,以“,”分隔
设置要识关键词的个数 文本 设置要识关键词的个数
输出关键词类型 文本 设置输出关键词类型,类型来源于自定义词典设置的类型,如果设置多个类型,以","分隔。如需要输出全部,可以不填
上传分词自定义词典 文本 关键词自定义词典,以文本形式上传,要求utf8码制文本,如没有,可以不填

输入简介

1.人名识别

人名识别除了需要配置要识别的字段外,增加了黑白名单设计。支持用户对抽取结果进行人工干预。用户通过使用黑名单的方式,过滤掉不想要识别出的人名;通过白名单方式,补充能力无法识别出的人名。黑白名单支持填写多个,以逗号分隔

2.地名识别

地名识别支持用户勾选需要识别的地名类型。包括“全国行政区划地名”, “外国地名”, “景点坐标村庄道路类地名”。其中“全国行政区划地名”是指标准的省/市/县/区地名。“外国地名”指国外的地名。“景点坐标村庄道路类地名”则指热门景点,村庄,道路等名称

3.关键词识别

关键词识别支持用户选择识别关键词的个数。关键词识别支持用户干预。通过添加自定义词,识别出用户需要识别出的词。

输入数据样例

{"fmt_format_content":"李明是个好孩子,他考上了北京大学。"}

输出简介

对于有提取结果的

1.提取的人名新增“字段名_names”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的人名,count是该人名在文章中出现的次数,weight是指在文章中的权重。

2.提取的地名新增“字段名_locs”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的地名,count是该地名在文章中出现的次数,maplevel为归一化后地名,附带行政所属,mask表示地名级别。(1表示中国,2表示省/直辖市级,3表示市级,4表示区/县级,6表示村庄道路景点坐标类地名,16表示外国地名或外国景点名)

3.提取的机构名新增“字段名_orgs”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的机构名名,count是该机构名在文章中出现的次数,weight是指在文章中的权重。

4.提取的关键词新增“字段名_keywords”字段,该字段为json格式。其中datas是抽取结果,为数组格式。数组中每一个元素为json格式,其中str表示提取的关键词,count是该机构名在文章中出现的次数,weight是指在文章中的权重。

输出数据样例

{
    "fmt_format_content_orgs":{
        "datas": [{
            "str": "北京大学",
            "count": 1,
            "weight": 1.3106645220850752
        }],
        "data_type": "ne_org"
    },
    "fmt_format_content_names":{
        "datas": [{
            "str": "李明",
            "count": 1,
            "weight": 1.625
        }],
        "data_type": "ne_name"
    },
    "fmt_format_content_locs":{
        "datas": [{
            "str": "北京大学",
            "maplevel": "中国-北京市-海淀区-北京大学",
            "count": 1,
            "mask": 6
        }],
        "data_type": "ne_loc"
    },
    "fmt_format_content_keywords":{
        "datas": [{
            "str": "李明",
            "count": 1,
            "weight": 2.5
        },
        {
            "str": "考上",
            "count": 1,
            "weight": 1.3258110894805346
        },
        {
            "str": "北京大学",
            "count": 1,
            "weight": 1.3106645220850752
        },
        {
            "str": "孩子",
            "count": 1,
            "weight": 0.6110684485641719
        }],
        "data_type": "keyword"
    },
    "fmt_format_content":李明是个好孩子,他考上了北京大学。
}

相关能力

参考指标

  • 数据质量:90%

  • 处理性能:1400条/s,300条/s

附加说明

用户自定义词典格式如下:

a)用户自定义词典采用文本格式,utf-8编码,每行一个词

b)第一列为词,后面可添加词标签。中间以Tab分隔

例如:

中文分词系统 专有名词

隐藏参数说明

results matching ""

    No results matching ""