中文OCR哪家强？【系列评测一】

第二期中文手写OCR评测已出：

中文手写OCR评测【系列评测二】开发调优

中文 OCR 评测第二弹！本次将对呼声较大的中文手写场景OCR 进行评测。

前情回顾：中文OCR哪家强？【系列评测一】

测评说明

总结果：

[中文手写评测（23样本）202505]

【勘误】Seed1.5-VL 是指 doubao-1-5-thinking-vision-pro-250428，已补上成绩，再破新高；

新出不久的豆包1.5视觉模型 doubao-1-5-think…

众所周知，在语言模型爆发的当下，OCR似乎已经是一个相当成熟、完善的任务场景。那么问题来了：

对于简单场景（直接网页截图、阅读器截图的图片），OCR能做到100%的准确率吗？

新兴的多模态大模型OCR能力如何？对比传统专门用于OCR的模型和软件又如何？

…

在使用OCR服务时我便出现了疑问，本文尝试粗浅地使用小样本对上面部分问题进行探究。一些说明：

本测试多模态大模型时，温度统一设置为0。

大部分模型测试5次取平均值（尽管温度设置为0，只有一部分模型多次重复结果一致）；对于传统的OCR算法，测试发现每次输出基本完全一致，故没有都测满5次。

本测试仅使用了4张图像，包括新闻评论、书籍的直接截图。

本测试专注于字符准确率，忽略排版影响，使用levenshtein距离计算准确率。

先直接附上测试结果，蓝色为多模态大模型，橙黄色为传统OCR算法/软件等：

图片1 90%正确率以上OCR测试结果图2897×3315 245 KB

从结果中可以发现：

有四个模型能够达到99.9%以上的准确率，但其中有两个是传统的OCR模型，可以看出多模态大模型在绝对准确率上，仍有进步空间。其中夸克扫描（应该就是阿里OCR）取得全场最高99.95%，很多人用的百度OCR（白描）也相当好（99.90%）。和百度API相比，百度开源的PaddleOCR系列比较一般。前两天PaddleOCR发布v5版本，在线测试结果为99.58%，PaddleOCRv4版本我使用本地运行只有94.84%，应该是API接口做了更多的预处理优化工作。

Gemini-1.5-Pro模型取得大模型最高分，说实话有点意外；Gemini-2.5-Pro次之，由此也可以看出Gemini在多模态领域的领先地位。

字节新出的Seed1.5-VL（Doubao-1.5-thinking-vision-pro）也很强，Qwen2.5-VL-32B为Qwen系列最强，72B版本差距也不大，3B版本也有99.1%的准确率。

新出的internvl3系列不行，而且奇怪的是2B版本（97.82%）强于14B版本（90.50%）不少，但都远逊于Qwen2.5-VL-3B版本（99.10%）。

当前阶段，传统的OCR，在简单场景下，无论是精确度还是成本考量，都优于多模态大模型，仍然是批量OCR的首选。

OpenAI系列的所有模型，对于中文OCR能力都很一般。

以下是一些准确率低于90%的大模型结果：

图片2 准确率低于90%的OCR测试结果2749×1617 102 KB

估计是训练数据严重缺失，这些国外模型对于简单场景的OCR任务都难以胜任；

Gemma3-27B和Mistral Small 24B还好，起码接近90%；

grok2也不像小模型，没想到能差到这种程度。

综上，Gemini和Qwen系列的最新模型，OCR能力都不错，能够准确识别图像中的字符，但是OpenAI系列都不太行，哪怕是最新的o3和o4-mini。对于一般的电脑，能够在本地运行的最佳OCR模型，应该是PaddleOCRv5 server版本。

这是中文OCR评测系列的第一篇，后面我们将继续测试，带来更多信息，敬请期待。

省流：

第一梯队（99.9%以上）：Gemini1.5Pro、Gemini2.5Pro、夸克（阿里OCR）、白描（百度OCR）。

第二梯队（99.5%以上）：其他Gemini2.0及以后模型、Qwen2.5VL 32B和72B、Mistral OCR、讯飞OCR、PaddleOCRv5。

FAQ：

你什么图片？怎么顶级模型都不能100%？

答：基本没有100%是因为OCR模型对于标点符号的精确识别仍然是个问题，我计算准确率时把标点符号也计算进去了。

你用的提示词？

答：你是一个专业的OCR引擎，直接精确地返回图片中的所有的字符，不附带任何其他无关内容，使用中文标点符号。只在新的段落开始时换行，而不在由于图像显示限制而被迫换行的地方换行，你需要判断好哪里才需要换行（遵循自然段落），避免过多换行。

更多尼泊尔内容

“白裤子”还能穿的这么高级！记住“配色+搭配”技巧，时髦洋气

科普文章

裹挟的意思

iPhone16快充需要多久？苹果16快充充满要多长时间？

LOL双城之战大乱斗持续多久双城之战大乱斗持续时间介绍

《宝可梦：朱/紫》沙包蛇详细图鉴

局域网固定内网IP地址的方法（亲测有效）

激活进程主窗口

墨子机关术有哪些？机关术是《墨子》的精髓？尤其擅长兵器？

尼泊尔相关网站