1.你需要知道的源码几个好用的中文词法分析工具
你需要知道的几个好用的中文词法分析工具
在中文词法分析领域,有几款高效且功能丰富的源码工具,它们分别是源码Stanford CoreNLP、语言技术平台(LTP)、源码清华大学词法分析器(THULAC)以及FudanNLP。源码
Stanford CoreNLP,源码入眠小程序源码由斯坦福大学自然语言处理小组开发,源码是源码一个集成自然语言分析工具集,包括分句、源码分词、源码词性标注、源码命名实体识别、源码句法分析、源码指代消解与情感分析等功能。源码工具以流式集成方式工作,源码各模块解耦,易于单独调用。蛋蛋加拿大28源码支持多种语言,包括中文、英文、法文、德文及西班牙文。开发语言为Java,提供Java 8+环境下的jar包下载,支持C#、前端管理系统源码项目Node.js、PHP、Python等语言调用。分词和命名实体识别基于条件随机场模型,词性标注则采用双向依存网络模型。
LTP,由哈尔滨大学社会计算与信息检索研究中心发布,是卡密发卡平台源码一套全面的中文自然语言处理工具集,功能涵盖分句、分词、词性标注、命名实体识别、依存句法分析、语义角色标注与语义依存分析。同样采用流式集成方式,支持各功能模块单独调用。安卓勒索病毒源码分词与词性标注基于人民日报与微博语料训练,命名实体识别基于人民日报语料训练。工具使用C++语言开发,提供静态、动态库,适用于C、C++与Java程序。分词、词性标注及命名实体识别基于结构化感知器实现。
THULAC,由清华大学自然语言处理与社会人文计算实验室研制推出,是一款中文词法分析工具包,包含分词与词性标注功能。工具包内含人民日报语料库训练得到的Model_1与Model_2,支持分词接口调用,但词性标注接口不可单独使用。语料库包含约五千八百万字已标注文本,可填写申请表获取全部语料库。THULAC完全开源,提供了算法源代码、模型与语料库。在Python中通过import thulac引用,同时支持C++接口与命令格式运行。
FudanNLP,复旦大学自然语言处理实验室开发的中文自然语言处理工具包,包含信息检索、文本分类、新闻聚类、中文分词、词性标注、实体名识别、关键词抽取、依存句法分析与时间短语识别等功能。FNLP采用Java语言开发,支持命令行调用及jar包集成。分词、词性标注与实体名识别功能在命令行中调用。