中文OCR哪家强?【系列评测一】

中文OCR哪家强?【系列评测一】

第二期中文手写OCR评测已出:

中文手写OCR评测【系列评测二】 开发调优

中文 OCR 评测第二弹!本次将对呼声较大的 中文手写场景OCR 进行评测。

前情回顾:中文OCR哪家强?【系列评测一】

测评说明

总结果:

[中文手写评测(23样本)202505]

【勘误】Seed1.5-VL 是指 doubao-1-5-thinking-vision-pro-250428,已补上成绩,再破新高;

新出不久的豆包1.5视觉模型 doubao-1-5-think…

众所周知,在语言模型爆发的当下,OCR似乎已经是一个相当成熟、完善的任务场景。那么问题来了:

对于简单场景(直接网页截图、阅读器截图的图片),OCR能做到100%的准确率吗?

新兴的多模态大模型OCR能力如何?对比传统专门用于OCR的模型和软件又如何?

在使用OCR服务时我便出现了疑问,本文尝试粗浅地使用小样本对上面部分问题进行探究。一些说明:

本测试多模态大模型时,温度统一设置为0。

大部分模型测试5次取平均值(尽管温度设置为0,只有一部分模型多次重复结果一致);对于传统的OCR算法,测试发现每次输出基本完全一致,故没有都测满5次。

本测试仅使用了4张图像,包括新闻评论、书籍的直接截图。

本测试专注于字符准确率,忽略排版影响,使用levenshtein距离计算准确率。

先直接附上测试结果,蓝色为多模态大模型,橙黄色为传统OCR算法/软件等:

图片1 90%正确率以上OCR测试结果图2897×3315 245 KB

从结果中可以发现:

有四个模型能够达到99.9%以上的准确率,但其中有两个是传统的OCR模型,可以看出多模态大模型在绝对准确率上,仍有进步空间。其中夸克扫描(应该就是阿里OCR)取得全场最高99.95%,很多人用的百度OCR(白描)也相当好(99.90%)。和百度API相比,百度开源的PaddleOCR系列比较一般。前两天PaddleOCR发布v5版本,在线测试结果为99.58%,PaddleOCRv4版本我使用本地运行只有94.84%,应该是API接口做了更多的预处理优化工作。

Gemini-1.5-Pro模型取得大模型最高分,说实话有点意外;Gemini-2.5-Pro次之,由此也可以看出Gemini在多模态领域的领先地位。

字节新出的Seed1.5-VL(Doubao-1.5-thinking-vision-pro)也很强,Qwen2.5-VL-32B为Qwen系列最强,72B版本差距也不大,3B版本也有99.1%的准确率。

新出的internvl3系列不行,而且奇怪的是2B版本(97.82%)强于14B版本(90.50%)不少,但都远逊于Qwen2.5-VL-3B版本(99.10%)。

当前阶段,传统的OCR,在简单场景下,无论是精确度还是成本考量,都优于多模态大模型,仍然是批量OCR的首选。

OpenAI系列的所有模型,对于中文OCR能力都很一般。

以下是一些准确率低于90%的大模型结果:

图片2 准确率低于90%的OCR测试结果2749×1617 102 KB

估计是训练数据严重缺失,这些国外模型对于简单场景的OCR任务都难以胜任;

Gemma3-27B和Mistral Small 24B还好,起码接近90%;

grok2也不像小模型,没想到能差到这种程度。

综上,Gemini和Qwen系列的最新模型,OCR能力都不错,能够准确识别图像中的字符,但是OpenAI系列都不太行,哪怕是最新的o3和o4-mini。对于一般的电脑,能够在本地运行的最佳OCR模型,应该是PaddleOCRv5 server版本。

这是中文OCR评测系列的第一篇,后面我们将继续测试,带来更多信息,敬请期待。

省流:

第一梯队(99.9%以上):Gemini1.5Pro、Gemini2.5Pro、夸克(阿里OCR)、白描(百度OCR)。

第二梯队(99.5%以上):其他Gemini2.0及以后模型、Qwen2.5VL 32B和72B、Mistral OCR、讯飞OCR、PaddleOCRv5。

FAQ:

你什么图片?怎么顶级模型都不能100%?

答: 基本没有100%是因为OCR模型对于标点符号的精确识别仍然是个问题,我计算准确率时把标点符号也计算进去了。

你用的提示词?

答:你是一个专业的OCR引擎,直接精确地返回图片中的所有的字符,不附带任何其他无关内容,使用中文标点符号。只在新的段落开始时换行,而不在由于图像显示限制而被迫换行的地方换行,你需要判断好哪里才需要换行(遵循自然段落),避免过多换行。

更多尼泊尔内容

“白裤子”还能穿的这么高级!记住“配色+搭配”技巧,时髦洋气
科普文章
38365365.com打不开

科普文章

🗓️ 08-28 👁️ 3222
裹挟的意思
365体育推荐

裹挟的意思

🗓️ 07-27 👁️ 2784
iPhone16快充需要多久?苹果16快充充满要多长时间?
365体育亚洲官方登录

iPhone16快充需要多久?苹果16快充充满要多长时间?

🗓️ 07-11 👁️ 7991
LOL双城之战大乱斗持续多久 双城之战大乱斗持续时间介绍
365体育亚洲官方登录

LOL双城之战大乱斗持续多久 双城之战大乱斗持续时间介绍

🗓️ 07-05 👁️ 7703
《宝可梦:朱/紫》沙包蛇详细图鉴
38365365.com打不开

《宝可梦:朱/紫》沙包蛇详细图鉴

🗓️ 08-13 👁️ 8474
局域网固定内网IP地址的方法(亲测有效)
38365365.com打不开

局域网固定内网IP地址的方法(亲测有效)

🗓️ 07-28 👁️ 1377
激活进程主窗口
365体育推荐

激活进程主窗口

🗓️ 09-18 👁️ 9818
墨子机关术有哪些?机关术是《墨子》的精髓?尤其擅长兵器?