百度云OCR介绍

Untitled

办公文档识别接口:https://ai.baidu.com/tech/ocr/doc_analysis_office

接口调用说明: https://ai.baidu.com/ai-doc/OCR/ykg9c09ji

重点关心正文提取能力:版面分析+文字识别能力。

中文和繁体中文

测试case覆盖:包含多栏、公式、页眉页脚、图片/表格等复杂版面。

评价标准:版面检测准确率,文字识别准确率。

截屏2023-07-07 13.54.04.png

测试结果:

  1. 注音文本

    版面检测:较为准确,图片全部识别,正文文本类型全部正确检测,标题误判定为正文。

    侧栏页码检测位置置于文本内

    Untitled

    Untitled

    文字识别准确率:中文文本全部识别正确,极个别注音字符识别错误,总体准确率99%以上。

    Untitled

  2. 中文期刊文章

    版面检测:能正确检测标题、页眉、脚注、页码等信息,正文检测正确,对于期刊这种高度格式化的文本图像,检测效果很好。

    Untitled

    文本识别:上标识别出错,其余文字识别正确,正文文本识别正确率99%以上。

    Untitled

  3. 两栏文本

    版面检测:能正确检测出页眉和小标题,能检测出两栏文本但是没有将其按栏分开,而是两栏交错地放在一起,不能检测出数学公式。

    文本识别:文本识别准确,脚标和上标都准确识别,未发现误识别。

    Untitled

  4. 扫描文本

    版面检测:能正确检测出文本为段落格式,能正确判断出脚注。

    该村识别:汉字能准确识别,大部分全角引号逗号都能准确识别,少量全角逗号(尤其是文字间隔较近的全角逗号)与全角括号存在误识别。

    Untitled

    Untitled

  5. 三栏文本

    版面检测:能检测出页眉、页脚,没有检测出页码,正文内容检测准确,三栏内容没有划分,而是按从左到右的顺序交叠在一起。

    文本识别:除极个别高度模糊的字母以外,都没有误识别产生。

    Untitled

  6. 竖排文本(繁体,扫描版)

    版面检测:版面错检测为表格,页眉和页脚都没有检测出来,正文内容检测几乎失效(正文内容几乎没有识别出来)

    Untitled

    文本识别:完全失效,没有一个字能对得上

    Untitled

  7. 图中带字

    版面检测:图片和正文能正常检测,图片中的文字也被当作正文一并处理了。

    文本识别:文本识别准确。

    Untitled

  8. 横排繁体

    版面检测:页眉和正文能正确检测。

    文本识别:文本基本识别准确,部分繁体字误识别为长相形似的简体字或者部分繁体字被略去

    Untitled

    Untitled

  9. 复杂版面

    版面检测:分栏错误,把两首诗放到同一句里面了。侧栏又能正常检测并识别。

    Untitled

    Untitled

    文本识别:部分括号被遗失,大部分文本识别准确。

    Untitled

  10. 简体竖排文本

版面检测:把正文文本检测成了表格(因为正文有仿古框线),把标题检测成了正文文本而不是”title”,版面检测基本失败。

Untitled

文本识别:从左向右识别,从上向下识别,文本识别准确,但是文本顺序不对,该文本应该是从右向左识别。

Untitled

总体评价:百度云的文本识别能力还是不错的,但是对版面的检测就要差很多,对上传的图像大小也有限制,超过了2M或者超过了4096*4096的图像就不能响应。主要存在以下优势和不足:

  • 优势:高分辨力的文本识别准确率高,能正确判别半角与全角符号;能够识别表格;
  • 不足:版面判别能力差,分栏文本两栏或者三栏的判断完全依靠栏的竖线或者栏间距,不能应对间距较小又没有竖线分割的分栏文本,基本上不能提取页码。繁体识别能力较差,低分辨度的字符识别能力较差。