# mmseg4j-ext **Repository Path**: evanfor/mmseg4j-ext ## Basic Information - **Project Name**: mmseg4j-ext - **Description**: 针对mmseg4j (1.10.0)的拓展,弥补了多处不足,分词,随心所欲 - **Primary Language**: Java - **License**: AFL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 16 - **Forks**: 6 - **Created**: 2017-09-05 - **Last Updated**: 2024-04-18 ## Categories & Tags **Categories**: segment **Tags**: None ## README # mmseg4j-ext 针对mmseg4j的拓展,弥补了多处的不足(特别是英语处理方面)(基本上的需求都可以满足) 比如英文词组amazon collection 英语数字连词,比如GH2300K(不用加词库) 中英混合词T恤,U盘,牛B等前中后英,前英后中类型的词语 数字加量词比如1.8m,2.3kg,1.5斤等(不用加词库) 带有特殊符号的词语,比如空格,冒号,斜杠等;比如 PG ,3.1 phillip lim,,a-morir,a'kin等 英语单词自动识别,比如hylo-comod 添加了停用词 提供60万词库,包括海外品牌,量词,通用词(电商词库+ sougou+公司项目中自己整理)等等 为了达到更好的分词效果,完全可以不用默认词库,自己从0开始构建适合自己项目的词库 #注意: 需要防止单词截断,因为英文目前也是基于最大匹配,而不是按照空格切分,因此需要注意截断问题