腾讯OCR测试

控制台: https://console.cloud.tencent.com/ocr/overview

demo:https://cloud.tencent.com/act/event/ocrdemo

参数文档:https://cloud.tencent.com/document/product/866/33526

腾讯云目前不能实现版面分析功能,仅就其文本识别的能力作测试。

通用版测试结果如下:

  1. 中文期刊

    中英文混排中,英文识别效果极差,高度格式化的文本中也存在大量错误。

    Untitled

    能识别两栏文本,以空格分隔两栏文本,两栏内容交叠在一起。

    Untitled

    不能实现数学公式的自动识别

    Untitled

    部分全角逗号被识别为半角,部分上标产生误识别结果

    Untitled

    此外,文本中大量存在英文单词之间的空格被吞的现象。

  2. 大图文本

    非标准型英文字体识别能力较差,出现大量误识别。中文全角括号识别错误,部分英文单词之间的空格被吞。

    Untitled

  3. 繁体竖排

    文本大体上能识别出来,但是编排极其混乱,有的行能连成一句完整的话,有的又不能,内容不能重构为原始文本。

    Untitled

    Untitled

  4. 三栏文本

    页眉标题文字字号较小,误识别较多。

    Untitled

    正文文本仍然三栏分隔交叠在一起,但是产生了一定数量的两栏杂糅现象。

    Untitled

    Untitled

  5. 扫描文本

    部分符号识别出错,破折号两端被错分为两行。

    Untitled

    半角与全角符号误识别现象较为严重。

    Untitled

  6. 拼音文本

全部注音符都没有被识别出来,全体中文字符均被正确识别

Untitled

此外,还有一定数量的文本图像不能被识别,原因如下(实际上并没有相应的内容,应该是识别出来产生的错误)。

Untitled

通用版(高精度)测试结果:

  1. 拼音文本

    问题与一般版本一样,仍然不能识别出拼音字符。

    Untitled

  2. 中文期刊

    对英文字符的识别能力显著增强,没有发现英语单词误识别的情况。半角符号、公式不能识别的情况仍然存在。

    Untitled

  3. 三栏文本

    小字部分的识别率显著提高,普通版本中存在的两栏内容杂糅也被解决了,在水印附近产生了一定数量的乱码。

    Untitled

  4. 繁体竖排

    识别情况较普通版更好,但是内容仍然是混乱的,有的按列识别有的又是按行识别的,混合在一起不能还原原始文本。

    Untitled

  5. 扫描文本

文本内容识别情况较好,破折号处产生识别问题,其他地方如带圈的序号识别正确。

Untitled

总体情况:

腾讯云的OCR识别效果准确率稍差,不能进行版面分析,同时也不能正确识别出低分辨率情况下的文本,文本排版稍微复杂就容易产生识别错误,按顺序拼接得到的文本是混乱的,文本中识别得到的标点符号存在半角全角混排。该OCR适用于纯中文文本的识别或者纯英文文本的识别,中英混排识别结果不理想。

此外,当识别出含有”敏感信息“后,该工具直接截断了响应,尚不清楚在api调用中是否出现该情况。