这里直接给出代码如下,读者自行体验。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
# 加载R包,并查看是否有中文训练数据
library(tesseract)
tesseract_info() 

# 下载中文训练数据
# tesseract_download("chi_sim") # 下载简体中文数据
# tesseract_download("chi_tra") # 下载繁体中文数据

# 定义引擎及图片文件路径
cn = tesseract("chi_sim")
file = "path/to/image"

# 输出文字
txt = ocr(file, engine = cn)
cat(txt)

# 读取图片并显示
library(magick)
pp = image_read(file)
image_scale(pp, "x1000")

由于输出的文字会有部分错误,需要配合图片进行手工修改,因此可以通过最后两行代码,将图片显示在Viewer窗口中,这样对照者图片调整比较方便。

下面是配合张敬信老师做的一个测试。