Tesseract是一个光学字符识别引擎。支持多种操作系统,基于Apache许可证的自由软件,由Google赞助开发。 Tesseract被认为是最精准的开源光学字符识别引擎之一。
Tesseract 是一个光学字符识别引擎,支持多种操作系统。Tesseract 是基于 Apache 许可证的自由软件,自 2006 年起由 Google 赞助开发。 2006 年,Tesseract 被认为是最精准的开源光学字符识别引擎之一。
Tesseract 最初是在 1985 年至 1994 年之间在布里斯托的惠普实验室和位于格里利科罗拉多州的惠普公司开发的,1996 年进行了一些更改以移植到 Windows,并在 1998 年进行了一些 C ++化。2005 年 Tesseract 开放由 HP 采购。自 2006 年以来,它是由 Google 开发的。
Tesseract OCR 该软件包包含一个 OCR 引擎 – libtesseract 和一个命令行程序 – tesseract。 Tesseract 4 增加了一个基于 OCR 引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持 Tesseract 3 的传统 Tesseract OCR 引擎,该引擎通过识别字符模式来工作。通过使用 Legacy OCR Engine 模式(–oem 0)启用与 Tesseract 3 的兼容性。它还需要训练有素的数据文件,这些文件支持传统引擎,例如来自 tessdata 存储库的文件。
Tesseract 支持 unicode(UTF-8),可以“开箱即用” 识别 100 多种语言。
Tesseract 支持各种输出格式:纯文本,hOCR(HTML),PDF,不可见文本的 PDF,TSV。主分支还具有 ALTO(XML)输出的实验支持。
Tesseract OCR 引擎于 20 世纪 80 年代出现,更新迭代至今,它已经包括内置的深度学习模型,变成了十分稳健的 OCR 工具。而 Tesseract 和 OpenCV 的 EAST 检测器是一个很棒的组合,感兴趣的读者可参考机器之心报道。
Tesseract 支持 Unicode(UTF-8)字符集,可以识别超过 100 种语言,还包含多种输出支持,比如纯文本、PDF、TSV 等。但是为了得到更好的 OCR 结果,还必须提升提供给 Tesseract 的图像的质量。
值得注意的是,在执行实际的 OCR 之前,Tesseract 会在内部执行多种不同的图像处理操作(使用 Leptonica 库)。通常情况下表现不错,但在一些特定的情况下的效果却不够好,导致准确度显著下降。