CnOCR
CnOCR 是 Python 3 下的文字识别(Optical Character Recognition,简称OCR)工具包,支持简体中文、繁体中文(部分模型)、英文和数字的常见字符识别,支持竖排文字的识别。自带了20+个训练好的识别模型,适用于不同应用场景,安装后即可直接使用。同时,CnOCR也提供简单的训练命令供使用者训练自己的模型。欢迎加入 交流群。
作者也维护 知识星球 CnOCR/CnSTD私享群 ,欢迎加入。知识星球私享群会陆续发布一些CnOCR/CnSTD相关的私有资料,包括更详细的训练教程,未公开的模型,使用过程中遇到的难题解答等。本群也会发布OCR/STD相关的最新研究资料。此外,私享群中作者每月提供两次免费特有数据的训练服务。
可以使用 在线 Demo 查看效果。
CnOCR的目标是使用简单。
安装简单
嗯,顺利的话一行命令即可完成安装。
$ pip install cnocr[ort-cpu]
更多说明可见 安装文档。
注:如果电脑中从未安装过
PyTorch
,OpenCV
python包,初次安装可能会遇到问题,但一般都是常见问题,可以自行百度/Google解决。
Docker Image
可以从 Docker Hub 直接拉取已安装好 CnOCR 的镜像使用。
$ docker pull breezedeus/cnocr:latest
更多说明可见 安装文档。
各种场景的调用示例
常见的图片识别
所有参数都使用默认值即可。如果发现效果不够好,多调整下各个参数看效果,最终往往能获得比较理想的精度。
from cnocr import CnOcr
img_fp = './docs/examples/huochepiao.jpeg'
ocr = CnOcr() # 所有参数都使用默认值
out = ocr.ocr(img_fp)
print(out)
识别结果:
排版简单的印刷体截图图片识别
针对 排版简单的印刷体文字图片,如截图图片,扫描件图片等,可使用 det_model_name='naive_det'
,相当于不使用文本检测模型,而使用简单的规则进行分行。
使用 det_model_name='naive_det'
的最大优势是速度快,劣势是对图片比较挑剔。如何判断是否该使用此检测模型呢?最简单的方式就是拿应用图片试试效果,效果好就用,不好就不用。
from cnocr import CnOcr
img_fp = './docs/examples/multi-line_cn1.png'
ocr = CnOcr(det_model_name='naive_det')
out = ocr.ocr(img_fp)
print(out)
识别结果:
图片 | OCR结果 |
---|---|
网络支付并无本质的区别,因为 每一个手机号码和邮件地址背后 都会对应着一个账户--这个账 户可以是信用卡账户、借记卡账 户,也包括邮局汇款、手机代 收、电话代收、预付费卡和点卡 等多种形式。 |
竖排文字识别
采用来自 PaddleOCR(之后简称 ppocr)的中文识别模型 rec_model_name='ch_PP-OCRv3'
进行识别。
from cnocr import CnOcr
img_fp = './docs/examples/shupai.png'
ocr = CnOcr(rec_model_name='ch_PP-OCRv3')
out = ocr.ocr(img_fp)
print(out)
识别结果:
英文识别
虽然中文检测和识别模型也能识别英文,但专为英文文字训练的检测器和识别器往往精度更高。如果是纯英文的应用场景,建议使用来自 ppocr 的英文检测模型 det_model_name='en_PP-OCRv3_det'
, 和英文识别模型 rec_model_name='en_PP-OCRv3'
。
from cnocr import CnOcr
img_fp = './docs/examples/en_book1.jpeg'
ocr = CnOcr(det_model_name='en_PP-OCRv3_det', rec_model_name='en_PP-OCRv3')
out = ocr.ocr(img_fp)
print(out)
识别结果:
繁体中文识别
采用来自ppocr的繁体识别模型 rec_model_name='chinese_cht_PP-OCRv3'
进行识别。
from cnocr import CnOcr
img_fp = './docs/examples/fanti.jpg'
ocr = CnOcr(rec_model_name='chinese_cht_PP-OCRv3') # 识别模型使用繁体识别模型
out = ocr.ocr(img_fp)
print(out)
使用此模型时请注意以下问题:
-
识别精度一般,不是很好;
-
除了繁体字,对标点、英文、数字的识别都不好;
-
此模型不支持竖排文字的识别。
识别结果:
单行文字的图片识别
如果明确知道待识别的图片是单行文字图片(如下图),可以使用类函数 CnOcr.ocr_for_single_line()
进行识别。这样就省掉了文字检测的时间,速度会快一倍以上。
调用代码如下:
from cnocr import CnOcr
img_fp = './docs/examples/helloworld.jpg'
ocr = CnOcr()
out = ocr.ocr_for_single_line(img_fp)
print(out)
更多应用示例
-
核酸疫苗截图识别
-
身份证识别
-
饭店小票识别
HTTP服务
CnOCR 自 V2.2.1 开始加入了基于 FastAPI 的HTTP服务。开启服务需要安装几个额外的包,可以使用以下命令安装:
pip install cnocr[serve]
安装完成后,可以通过以下命令启动HTTP服务(-p
后面的数字是端口,可以根据需要自行调整):
cnocr serve -p 8501
服务开启后,可以使用以下方式调用服务。
命令行
比如待识别文件为 docs/examples/huochepiao.jpeg
,如下使用 curl 调用服务:
> curl -F image=@docs/examples/huochepiao.jpeg http://0.0.0.0:8501/ocr
Python
使用如下方式调用服务:
import requests
image_fp = 'docs/examples/huochepiao.jpeg'
r = requests.post(
'http://0.0.0.0:8501/ocr', files={'image': (image_fp, open(image_fp, 'rb'), 'image/png')},
)
ocr_out = r.json()['results']
print(ocr_out)
具体也可参考文件 scripts/screenshot_daemon_with_server.py 。
其他语言
请参照 curl 的调用方式自行实现。
Flask 服务
我们也提供了 Flask Server 的实现,见 scripts/flask-serve.py 。下载此文件,然后安装 flask 后即可启动。
安装 Flask:
> pip install flask
启动服务:
> FLASK_APP=scripts/flask-serve.py flask run
其他文档
未来工作
- 支持图片包含多行文字 (
Done
) - crnn模型支持可变长预测,提升灵活性 (since
V1.0.0
) - 完善测试用例 (
Doing
) - 修bugs(目前代码还比较凌乱。。) (
Doing
) - 支持
空格
识别(sinceV1.1.0
) - 尝试新模型,如 DenseNet,进一步提升识别准确率(since
V1.1.0
) - 优化训练集,去掉不合理的样本;在此基础上,重新训练各个模型
- 由 MXNet 改为 PyTorch 架构(since
V2.0.0
) - 基于 PyTorch 训练更高效的模型
- 支持列格式的文字识别
- 打通与 CnSTD 的无缝衔接(since
V2.2
) - 模型精度进一步优化
- 支持更多的应用场景,如公式识别、表格识别、版面分析等
给作者加油鼓气
开源不易,如果此项目对您有帮助,可以考虑给作者加点油🥤,鼓鼓气💪🏻 。