nlpir/ictclas2014中科院分词系统api接口 for 易语言

2018-01-09

字体:

大中小

浏览:

文章简介：NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码.UTF8编码.BIG5编码.新增微博分词.新词发现与关键词提取.中科院的NLPIR分词系统应该是目前公认做的比较好的,支持自定义词典.支持批量分词.关键词提取.词性标注.文章指纹识别,2014版本添加了新词(未登录词)的识别等.之前因为准备用里面的一个接口,找了一番发现其官方并没有提供易语言的api接口文档及源码示例...很多人对NLPIR分词系统还是很有需求的,所以

NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

中科院的NLPIR分词系统应该是目前公认做的比较好的,支持自定义词典、支持批量分词、关键词提取、词性标注、文章指纹识别,2014版本添加了新词(未登录词)的识别等。

之前因为准备用里面的一个接口,找了一番发现其官方并没有提供易语言的api接口文档及源码示例。。。很多人对NLPIR分词系统还是很有需求的,所以制作了一个易语言的模块,封装了最新2014版的所有接口以供调用。

1、关键词提取接口:NLPIR_GetKeyWords()、NLPIR_GetFileKeyWords()这两个接口,分别为从文本中提取关键词和从文件中提取关键词,支持指定数量的提取和TF/IDF权重的输出,用来做tag标签啥的,比较合适。

2、指纹识别接口:NLPIR_FingerPrint()返回的貌似是一个多维度十六进制的向量,可以用在检测文章相似度上面,比如计算两篇文章指纹向量的余弦相似度;或者对采集的多个文件进行去重等等。而且这个分词系统支持多线程,大批量运行应该没太大问题。

3、新词识别接口:除自己定义的词典,此接口支持将识别到的新词自动导入到自定义词典中。里面新词识别接口有2个,建议使用后添加的NLPIR_NWI_Start() API.

上一篇：基于词典的中文情感倾向分析算法设计

下一篇：nlp高级执行师笔记(张国维)

免责声明： 本文仅代表作者个人观点，与魔女网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

猜你也喜欢

排行榜: 大学生真的适合买外星人笔记本电脑吗?; 组图:米兰达可儿不慎走光黑裙滑落春光外泄; 艾弗森篮球鞋锐步推出艾弗森第九代篮球鞋; 大牌经济学家也简历造假?郎咸平张维迎身陷“学历门”; 姜成勋冷冻人维京精英赛新人科克领先韩国姜成勋紧随其后; 李保田不再拍王保长李保田:不再拍《王保长》; 张贤亮大风歌作家张贤亮去世曾因长诗《大风歌》被打为右派; 【毁容少女周岩换脸】周岩恢复后照片周岩毁容前后照片对比; 崔嵩的老婆林子祥老婆个人资料林子祥老婆被前妻指责抢老公; 美国人看阳和平阳和平中山大学讲座:从留恋中国的两个美国人谈起兼论民主自由

nlpir/ictclas2014中科院分词系统api接口 for 易语言

相关文章推荐

猜你也喜欢

排行榜

推荐最热文章