Java OCR使用Tess4J进行图片文字识别
2018-03-16 18:36:43
1570 次阅读
0 个评论
Tesseract-OCR是一个Google支持的开源的OCR图文识别开源项目。支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选。而Tess4J则是Tesseract在Java PC上的应用。
下载Tess4J-3.4.2-src.zip Tess4J源码包
引入jar包
commons-beanutils-1.9.2.jar
commons-io-2.6.jar
commons-logging-1.2.jar
ghost4j-1.0.1.jar
hamcrest-core-1.3.jar
itext-2.1.7.jar
jai-imageio-core-1.3.1.jar
jboss-vfs-3.2.12.Final.jar
jcl-over-slf4j-1.7.25.jar
jna-4.1.0.jar
jul-to-slf4j-1.7.25.jar
junit-4.12.jar
lept4j-1.6.2.jar
log4j-1.2.17.jar
log4j-over-slf4j-1.7.25.jar
logback-classic-1.2.3.jar
logback-core-1.2.3.jar
slf4j-api-1.7.25.jar
tess4j-3.4.2.jar
xmlgraphics-commons-1.5.jar
需要安装Visual C++ Redistributable for Visual Studio 2015
https://www.microsoft.com/zh-CN/download/details.aspx?id=48145
按照官网的示例,编写一个Demo试一下效果
public class OCRDemo {
public static void main(String[] args) throws TesseractException {
ITesseract instance = new Tesseract();
// 识别语种
instance.setLanguage("chi_sim");
// 指定识别图片
File imgDir = new File("c:\\test.png");
long startTime = System.currentTimeMillis();
String ocrResult = instance.doOCR(imgDir);
// 输出识别结果
System.out.println("OCR Result: \n" + ocrResult + "\n 耗时:" + (System.currentTimeMillis() - startTime) + "ms");
}
}
00
相关话题
- Tess4J -4.0.2- Linux 实践 [解决:Tess4J - Native library (linux-x86-64/libtesseract.so) not found in resource path]
- zip4j压缩、解压zip文件
- 使用 Jsoup 对 html 进行过滤
- Log4j2禁止自动初始化
- Fabric.js文字效果
- Thumbnailator处理gif图片时java.lang.ArrayIndexOutOfBoundsException: 4096异常
- FFmpeg转码mp4
- canvas文字描边的视觉效果
- 基于Nginx XSendfile+SpringMVC进行文件下载
- 使用Java8根据属性值对List去重
- Nginx开启https负载均衡,配置Tomcat识别http和https协议
- Thumbnailator图片缩放
- Java排序算法
- Fabric.js Filters 图片滤镜
- SImpleImage解决图片压缩变红问题