How to build tesseract 4 beta on macOS
1 | brew info tesseract |
识别简体中文
的结果有点可怕。
我注意到它在 4.0.0+之后添加了一个基于 LSTM 的新神经网络系统
但是它需要从 macOS 上的源代码构建。
值得庆幸的是,该手册在其 README.md 上已作了详细说明
Install dependencies
1 | brew install automake autoconf autoconf-archive libtool |
Compile
1 | git clone https://github.com/tesseract-ocr/tesseract/ |
Their best trained modes, download the language chi_sim.traineddata
and put it under tesseract/4.0.0.1/tessdata/
Usage
1 | tesseract image.png image -l chi_sim |
好的,在歌曲字体
字体下仍然很糟糕。我需要自己使用新模型进行培训。
最后,我忽略了tesseract
,我发现将图像
拖到OneNote
中,而Ctrl +单击
->从图片复制文本
将获得更高的准确性。 😓