# nlp-segment **Repository Path**: gitclebeg/nlp-segment ## Basic Information - **Project Name**: nlp-segment - **Description**: 自然语言分词模块,为中文语料批量分词,会继承各种分词工具 - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 5 - **Forks**: 0 - **Created**: 2015-04-17 - **Last Updated**: 2022-07-20 ## Categories & Tags **Categories**: segment **Tags**: None ## README #nlp-segment ## 此工程是一个工具工程,专门为自然语言其它技术分词的。 ### 利用已有的分词技术,实现对不同语料的分词操作。 ###新增说明3:集成了Ansj分词器,Ansj分词器需要到官网下载library文件夹复制到项目根目录下面,另外可以配置library.properties ####需要的文件都可以在Ansj项目地址:https://github.com/NLPchina/ansj_seg 上去下载。 ###新增说明2:libs 目录中集成了 HanLP 分词器,不过在大规模分词时候有bug,另外还需要导入它的data目录(官网下载即可)。 ###新增说明1:目前支持处理Sogou语料库,利用jieba分词工具,将所有语料分词存放到一个文件中。 ##1、说明 ####不同的语料库,格式差别很大,比如: 1. 自己爬取的语料,可以按照自己的想法设置格式; 2. 北大语料库,每个文件一行,但是后面跟了一个标题什么的; 3. 搜狗语料库,存放格式是xml文件。 本工程就是希望把不同格式的语料库,整理成想要的格式。方便后续处理。 ##2、项目实现驱动 由于想要实现文本分类,以及情感分析,找了很多语料库。 目前想实验一下 Spark 的 Word2Vec,这些算法都需要很规则的语料, 所以就产生了整理语料格式的想法。