物理世界和数字世界的信息转换是数字化发展的一个技术内容。而光学字符识别(Optical Character Recognition:简称OCR)正是其中之一。
创新互联公司是一家集网站建设,丹江口企业网站建设,丹江口品牌网站建设,网站定制,丹江口网站建设报价,网络营销,网络优化,丹江口网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR常常被用于:证件识别、车牌识别、pdf文档转换为Word、拍照识别、截图识别、网络图片识别、无人驾驶、无纸化办公、稿件编辑校对、物流分拣、文档检索、字幕识别、文献资料检索等领域。特别是在业务流程自动化领域OCR是RPA的一个重要技术组成,起到重要作用。
随着AI技术的发展,目前开源市场出现了许多非常优秀的OCR项目。下面介绍目前比较流行的开源OCR项目,这些项目能够为您OCR技术选型或者OCR模型算法研究提供参考。
https://github.com/tesseract-ocr/tesseract
Tesseract是一个非常经典的开源OCR引擎,最初由Hewlett-Packard开发,现在由Google维护。Tesseract以其准确性和多功能性而闻名,可以提取数据并将扫描的文档、图像和手写文字转换为机器理解的文本。Tesseract支持100多种语言,并兼容多种操作系统,并且提供了非常方便的命令行界面。
优势:
缺点:
https://tesseract.projectnaptha.com/
Tesseract.js是一个基于TesseractOCR的Web浏览器OCR软件。你可以在浏览器中使用它,并且非常易用。与Tesseract OCR一样,它也支持多种语言,包括中文。
https://github.com/ocropus
OCRopus是由Google开发的OCR相关工具集合,它扩展了Tesseract OCR引擎的功能。它提供了布局分析、文本识别和样本数据生成的高级功能。
另外,OCRopus可以从命令行通过指定输入的图像来执行它。它会将识别的文本直接输出到标准输出,或者将其作为hOCR(基于HTML)代码写入文件,然后可以将其转换为可搜索的PDF。如果需要更精确的控制,可以在命令行上指定选项来执行特定操作。
优势:
缺点:
https://jocr.sourceforge.net/
GOCR是在GNU通用公共许可证下开发的开源OCR引擎。它能够识别各种图像文件格式中的文本内容,并支持多种语言和操作平台。
虽然它的准确性可能无法超过其他OCR引擎,但GOCR的优势是非常简单易用。
优势:
缺点
CuneiForm是一个开源的OCR,专门用于将扫描的文档和图像转换为可编辑的文本。 它的主要目标是提供准确的OCR结果,同时具有比较灵活的输入源和输出格式。CuneiForm还支持多种语言,并兼容各种操作系统。
优势:
缺点:
https://www.gnu.org/software/ocrad/
Ocrad以其简单性和识别速度而闻名,它提供了一个轻量级的OCR解决方案,主要以识别印刷文本而闻名。它旨在提供一个简单高效的OCR解决方案,侧重文本识别提取的速度和易用性。
优势:
缺点:
http://antimatter15.com/ocrad.js/demo.html
Ocrad.js是一个基于Ocrad的浏览器的OCR软件。在JavaScript中使用它。支持的图像格式包括JPEG、PNG、GIF、BMP、SVG、NetBPM等。
它非常简单易用,只需要通过调用OCRAD的函数即可实现对img标签的识别。虽然在识别精度方面比Tesseract.js逊色,但Ocard的优势是它的模型文件比Tesseract小30倍以上。
https://github.com/manisandro/gImageReader
GImage Reader工具它能够识别多种语言以及各种图像文件格式的文本,使其适合从扫描的文档、屏幕截图或者照片中提取文本;并且它提供了一个简单直观的用户界面,允许您快速加载图像并获得文本结果。
优势:
缺点:
https://capture2text.sourceforge.net/
Capture2Text是一个基于命令行的Windows OCR软件。它支持多种语言,包括日语。它不仅能识别水平的字符,还能识别垂直的字符。可以在你需要的时候使用windows命令行调用OCR命令,识别出的文本将被保存进剪贴板。
https://github.com/ndl-lab
NDLOCR日本国立国会图书馆开源的ocr项目,比较适合古籍中一些复杂排版的ocr识别。比较适合日本语言的识别。
另外,它也支持在识别的文本中备注汉字读音、删除非字符,以及在广告区域读取字符的功能。还采取了一些有趣的举措,例如:根据年龄提高识别准确性。
项目只适合研究学习,至于实际的汉字识别用场景难以使用。
https://github.com/ocrmypdf/OCRmyPDF
OCRmyPDF是一个专门用于PDF的OCR识别软件,它能够将识别到的文本信息作为透明的文本添加到PDF中。因此,您可以在PDF中搜索文本。
如果您将其用于没有文本信息的PDF,则可以进行搜索,从而增加了方便性。由于它基于Tesseract OCR引擎进行文本识别,因此也支持中文。
https://github.com/JaidedAI/EasyOCR
EasyOCR基于机器学习(CRNN)实现OCR功能。它能够识别超过80种语言的文字,包括简体中文和繁体中文。它是使用python开发的,因此使用Python调用也非常简单。例如:
识别包含中文的图片:
import easyocr
reader = easyocr.Reader(['ch_sim','en']) # this needs to run only once to load the model into memory
reader.readtext('chinese.jpg', detail = 0)
识别结果为:
['愚园路', '西', '东', '315', '309', 'Yuyuan Rd.', 'W', 'E']
更多的例子可以通过以下这个网址进行测试:https://www.jaided.ai/easyocr/
https://github.com/mittagessen/kraken
kraken是一个由Python开发的OCR软件,主要用于非拉丁字符的识别。它支持从右到左书写的语言,例如阿拉伯语,也支持从上到下书写的语言,例如日语。可以从命令行运行OCR识别PDF、JPEG和TIFF等格式的文件。
它的特点包括:
更多的介绍可以参考网站:https://kraken.re/main/index.html
以上介绍的这些OCR软件可以为项目的OCR技术选型或者OCR研发提供一个参考。另外,在一些垂直领域业务应用的时候也可以结合自身业务需求自主训练识别模型来提高应用效果。随着AI技术的发展,OCR识别准确性也将不断提高。
当前文章:12个流行的开源免费OCR项目
标题路径:http://www.shufengxianlan.com/qtweb/news18/526868.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联