能力说明

能力名称：语义特征提取

功能简介

对指定字段进行人名，地名，机构名，关键词提取

配置参数

参数名称	参数类型	是否必填	参数说明
处理人名字段	文本	否	设置要识别人名的字段，以“，”分隔
需要过滤的人名识别结果	文本	否	需要过滤的人名识别结果，以“，”分隔
指定必须识别人名	文本	否	指定必须识别人名，以“，”分隔
设置要识别机构名的字段	文本	否	设置要识别机构名的字段，以“，”分隔
设置要识别地名的字段	文本	否	设置要识别地名的字段，以“，”分隔
选择识别地名类型	文本	否	选择识别地名类型，复选框
设置要识关键词的字段	文本	否	设置要识关键词的字段，以“，”分隔
设置要识关键词的个数	文本	否	设置要识关键词的个数
输出关键词类型	文本	否	设置输出关键词类型，类型来源于自定义词典设置的类型，如果设置多个类型，以","分隔。如需要输出全部，可以不填
上传分词自定义词典	文本	否	关键词自定义词典，以文本形式上传，要求utf8码制文本，如没有，可以不填

输入简介

1.人名识别

人名识别除了需要配置要识别的字段外，增加了黑白名单设计。支持用户对抽取结果进行人工干预。用户通过使用黑名单的方式，过滤掉不想要识别出的人名；通过白名单方式，补充能力无法识别出的人名。黑白名单支持填写多个，以逗号分隔

2.地名识别

地名识别支持用户勾选需要识别的地名类型。包括“全国行政区划地名”, “外国地名”, “景点坐标村庄道路类地名”。其中“全国行政区划地名”是指标准的省/市/县/区地名。“外国地名”指国外的地名。“景点坐标村庄道路类地名”则指热门景点，村庄，道路等名称

3.关键词识别

关键词识别支持用户选择识别关键词的个数。关键词识别支持用户干预。通过添加自定义词，识别出用户需要识别出的词。

输入数据样例

{"fmt_format_content":"李明是个好孩子，他考上了北京大学。"}

输出简介

对于有提取结果的

1.提取的人名新增“字段名_names”字段，该字段为json格式。其中datas是抽取结果，为数组格式。数组中每一个元素为json格式，其中str表示提取的人名，count是该人名在文章中出现的次数，weight是指在文章中的权重。

2.提取的地名新增“字段名_locs”字段，该字段为json格式。其中datas是抽取结果，为数组格式。数组中每一个元素为json格式，其中str表示提取的地名，count是该地名在文章中出现的次数，maplevel为归一化后地名，附带行政所属，mask表示地名级别。（1表示中国，2表示省/直辖市级，3表示市级，4表示区/县级，6表示村庄道路景点坐标类地名，16表示外国地名或外国景点名）

3.提取的机构名新增“字段名_orgs”字段，该字段为json格式。其中datas是抽取结果，为数组格式。数组中每一个元素为json格式，其中str表示提取的机构名名，count是该机构名在文章中出现的次数，weight是指在文章中的权重。

4.提取的关键词新增“字段名_keywords”字段，该字段为json格式。其中datas是抽取结果，为数组格式。数组中每一个元素为json格式，其中str表示提取的关键词，count是该机构名在文章中出现的次数，weight是指在文章中的权重。

输出数据样例

{
    "fmt_format_content_orgs":{
        "datas": [{
            "str": "北京大学",
            "count": 1,
            "weight": 1.3106645220850752
        }],
        "data_type": "ne_org"
    },
    "fmt_format_content_names":{
        "datas": [{
            "str": "李明",
            "count": 1,
            "weight": 1.625
        }],
        "data_type": "ne_name"
    },
    "fmt_format_content_locs":{
        "datas": [{
            "str": "北京大学",
            "maplevel": "中国-北京市-海淀区-北京大学",
            "count": 1,
            "mask": 6
        }],
        "data_type": "ne_loc"
    },
    "fmt_format_content_keywords":{
        "datas": [{
            "str": "李明",
            "count": 1,
            "weight": 2.5
        },
        {
            "str": "考上",
            "count": 1,
            "weight": 1.3258110894805346
        },
        {
            "str": "北京大学",
            "count": 1,
            "weight": 1.3106645220850752
        },
        {
            "str": "孩子",
            "count": 1,
            "weight": 0.6110684485641719
        }],
        "data_type": "keyword"
    },
    "fmt_format_content":李明是个好孩子，他考上了北京大学。
}

参考指标

数据质量：90%
处理性能：1400条/s,300条/s

无

附加说明

用户自定义词典格式如下：

a)用户自定义词典采用文本格式，utf-8编码，每行一个词

b)第一列为词，后面可添加词标签。中间以Tab分隔

例如：

中文分词系统专有名词

隐藏参数说明

无

语义特征提取