第二期中文手写OCR评测已出:
中文手写OCR评测【系列评测二】 开发调优
中文 OCR 评测第二弹!本次将对呼声较大的 中文手写场景OCR 进行评测。
前情回顾:中文OCR哪家强?【系列评测一】
测评说明
总结果:
[中文手写评测(23样本)202505]
【勘误】Seed1.5-VL 是指 doubao-1-5-thinking-vision-pro-250428,已补上成绩,再破新高;
新出不久的豆包1.5视觉模型 doubao-1-5-think…
众所周知,在语言模型爆发的当下,OCR似乎已经是一个相当成熟、完善的任务场景。那么问题来了:
对于简单场景(直接网页截图、阅读器截图的图片),OCR能做到100%的准确率吗?
新兴的多模态大模型OCR能力如何?对比传统专门用于OCR的模型和软件又如何?
…
在使用OCR服务时我便出现了疑问,本文尝试粗浅地使用小样本对上面部分问题进行探究。一些说明:
本测试多模态大模型时,温度统一设置为0。
大部分模型测试5次取平均值(尽管温度设置为0,只有一部分模型多次重复结果一致);对于传统的OCR算法,测试发现每次输出基本完全一致,故没有都测满5次。
本测试仅使用了4张图像,包括新闻评论、书籍的直接截图。
本测试专注于字符准确率,忽略排版影响,使用levenshtein距离计算准确率。
先直接附上测试结果,蓝色为多模态大模型,橙黄色为传统OCR算法/软件等:
图片1 90%正确率以上OCR测试结果图2897×3315 245 KB
从结果中可以发现:
有四个模型能够达到99.9%以上的准确率,但其中有两个是传统的OCR模型,可以看出多模态大模型在绝对准确率上,仍有进步空间。其中夸克扫描(应该就是阿里OCR)取得全场最高99.95%,很多人用的百度OCR(白描)也相当好(99.90%)。和百度API相比,百度开源的PaddleOCR系列比较一般。前两天PaddleOCR发布v5版本,在线测试结果为99.58%,PaddleOCRv4版本我使用本地运行只有94.84%,应该是API接口做了更多的预处理优化工作。
Gemini-1.5-Pro模型取得大模型最高分,说实话有点意外;Gemini-2.5-Pro次之,由此也可以看出Gemini在多模态领域的领先地位。
字节新出的Seed1.5-VL(Doubao-1.5-thinking-vision-pro)也很强,Qwen2.5-VL-32B为Qwen系列最强,72B版本差距也不大,3B版本也有99.1%的准确率。
新出的internvl3系列不行,而且奇怪的是2B版本(97.82%)强于14B版本(90.50%)不少,但都远逊于Qwen2.5-VL-3B版本(99.10%)。
当前阶段,传统的OCR,在简单场景下,无论是精确度还是成本考量,都优于多模态大模型,仍然是批量OCR的首选。
OpenAI系列的所有模型,对于中文OCR能力都很一般。
以下是一些准确率低于90%的大模型结果:
图片2 准确率低于90%的OCR测试结果2749×1617 102 KB
估计是训练数据严重缺失,这些国外模型对于简单场景的OCR任务都难以胜任;
Gemma3-27B和Mistral Small 24B还好,起码接近90%;
grok2也不像小模型,没想到能差到这种程度。
综上,Gemini和Qwen系列的最新模型,OCR能力都不错,能够准确识别图像中的字符,但是OpenAI系列都不太行,哪怕是最新的o3和o4-mini。对于一般的电脑,能够在本地运行的最佳OCR模型,应该是PaddleOCRv5 server版本。
这是中文OCR评测系列的第一篇,后面我们将继续测试,带来更多信息,敬请期待。
省流:
第一梯队(99.9%以上):Gemini1.5Pro、Gemini2.5Pro、夸克(阿里OCR)、白描(百度OCR)。
第二梯队(99.5%以上):其他Gemini2.0及以后模型、Qwen2.5VL 32B和72B、Mistral OCR、讯飞OCR、PaddleOCRv5。
FAQ:
你什么图片?怎么顶级模型都不能100%?
答: 基本没有100%是因为OCR模型对于标点符号的精确识别仍然是个问题,我计算准确率时把标点符号也计算进去了。
你用的提示词?
答:你是一个专业的OCR引擎,直接精确地返回图片中的所有的字符,不附带任何其他无关内容,使用中文标点符号。只在新的段落开始时换行,而不在由于图像显示限制而被迫换行的地方换行,你需要判断好哪里才需要换行(遵循自然段落),避免过多换行。