# 图片文字识别 **Repository Path**: peterdev/image-character-recognition ## Basic Information - **Project Name**: 图片文字识别 - **Description**: 基于tika poi pdfbox 等开源工具进行 文字识别、图片识别、水印添加 等基础Demo - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 8 - **Created**: 2023-11-15 - **Last Updated**: 2023-11-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 图片文字识别 ## 请将项目中的testFile文件复制到C盘,避免浪费时间 ## 介绍 ### 1.提供读取文件中文字工具类 基于Tika 性能不清楚,但确实简单 ### 2.提供读取文件中图片工具类,基于PDFBox实现 性能未测试 ### 3.提供给图片打印水印工具类,纯复制粘贴,感谢两年前的大佬,我已经不知道是谁了 ### 4.后续会新增一个基础的,识别图片中文字的工具,及相关安装包 ### 2023.8.31新增:将office转换为pdf工具类 缺少的2.2.2的jar可参考 jar 文件夹下的 mvn.txt 文件 (运行似乎要管理员权限) 安装可参考software文件下.md文件 安装openoffice以后,以管理员身份 cmd窗口 进入 C:\Program Files (x86)\OpenOffice 4\program 目录下 输入 如下命令,即可完成windows的 openOffice服务启动 soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard ##### 如需要linux的请自行摸索安装, ### 2023.9.28新增 根据开源的 Tesseract OCR 以及对该框架的封装jar进行文字识别,详情请查看OCRTEST https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata 通过如上链接可以找到tessdata_master 如果实在懒得话,可以直接放到文件下。 ##### 感谢 rivercoder 这位大佬的博文提供相关帮助