# mmseg4j-ext

**Repository Path**: evanfor/mmseg4j-ext

## Basic Information

- **Project Name**: mmseg4j-ext
- **Description**: 针对mmseg4j （1.10.0）的拓展，弥补了多处不足，分词，随心所欲
- **Primary Language**: Java
- **License**: AFL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 16
- **Forks**: 6
- **Created**: 2017-09-05
- **Last Updated**: 2024-04-18

## Categories & Tags

**Categories**: segment

**Tags**: None

## README

# mmseg4j-ext
针对mmseg4j的拓展,弥补了多处的不足（特别是英语处理方面）（基本上的需求都可以满足）

    比如英文词组amazon collection
    
    英语数字连词，比如GH2300K（不用加词库）
    
    中英混合词T恤，U盘，牛B等前中后英，前英后中类型的词语

    数字加量词比如1.8m，2.3kg，1.5斤等（不用加词库）
    
    带有特殊符号的词语，比如空格，冒号，斜杠等；比如 PG ，3.1 phillip lim,，a-morir，a'kin等
    
    英语单词自动识别，比如hylo-comod
    
    添加了停用词
    
    提供60万词库，包括海外品牌，量词，通用词（电商词库+ sougou+公司项目中自己整理）等等
    
    
为了达到更好的分词效果，完全可以不用默认词库，自己从0开始构建适合自己项目的词库

#注意:
需要防止单词截断,因为英文目前也是基于最大匹配，而不是按照空格切分，因此需要注意截断问题