# nlp-segment

**Repository Path**: gitclebeg/nlp-segment

## Basic Information

- **Project Name**: nlp-segment
- **Description**: 自然语言分词模块，为中文语料批量分词，会继承各种分词工具
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 5
- **Forks**: 0
- **Created**: 2015-04-17
- **Last Updated**: 2022-07-20

## Categories & Tags

**Categories**: segment

**Tags**: None

## README

#nlp-segment
## 此工程是一个工具工程，专门为自然语言其它技术分词的。
### 利用已有的分词技术，实现对不同语料的分词操作。

###新增说明3：集成了Ansj分词器，Ansj分词器需要到官网下载library文件夹复制到项目根目录下面，另外可以配置library.properties
####需要的文件都可以在Ansj项目地址：https://github.com/NLPchina/ansj_seg 上去下载。

###新增说明2：libs 目录中集成了 HanLP 分词器，不过在大规模分词时候有bug，另外还需要导入它的data目录（官网下载即可）。
###新增说明1：目前支持处理Sogou语料库，利用jieba分词工具，将所有语料分词存放到一个文件中。

##1、说明
####不同的语料库，格式差别很大，比如：

1. 自己爬取的语料,可以按照自己的想法设置格式；
2. 北大语料库，每个文件一行，但是后面跟了一个标题什么的；
3. 搜狗语料库，存放格式是xml文件。

本工程就是希望把不同格式的语料库，整理成想要的格式。方便后续处理。

##2、项目实现驱动
由于想要实现文本分类，以及情感分析，找了很多语料库。
目前想实验一下 Spark 的 Word2Vec，这些算法都需要很规则的语料，
所以就产生了整理语料格式的想法。