# 图片文字识别

**Repository Path**: peterdev/image-character-recognition

## Basic Information

- **Project Name**: 图片文字识别
- **Description**: 基于tika poi pdfbox 等开源工具进行 文字识别、图片识别、水印添加  等基础Demo
- **Primary Language**: Java
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 8
- **Created**: 2023-11-15
- **Last Updated**: 2023-11-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 图片文字识别
## 请将项目中的testFile文件复制到C盘，避免浪费时间


## 介绍

### 1.提供读取文件中文字工具类 基于Tika 性能不清楚,但确实简单

### 2.提供读取文件中图片工具类,基于PDFBox实现 性能未测试

### 3.提供给图片打印水印工具类,纯复制粘贴,感谢两年前的大佬,我已经不知道是谁了

### 4.后续会新增一个基础的,识别图片中文字的工具,及相关安装包

### 2023.8.31新增：将office转换为pdf工具类 

缺少的2.2.2的jar可参考 jar 文件夹下的 mvn.txt 文件 (运行似乎要管理员权限)

安装可参考software文件下.md文件

安装openoffice以后，以管理员身份 cmd窗口 进入 C:\Program Files (x86)\OpenOffice 4\program 目录下

输入 如下命令，即可完成windows的 openOffice服务启动

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

##### 如需要linux的请自行摸索安装，

### 2023.9.28新增 根据开源的 Tesseract OCR 以及对该框架的封装jar进行文字识别，详情请查看OCRTEST

https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata

通过如上链接可以找到tessdata_master 如果实在懒得话，可以直接放到文件下。

##### 感谢 rivercoder 这位大佬的博文提供相关帮助