2014年9月28日

在Mac上編譯 tesseract 3.03

在Mac上沒有提供直接執行的binary

port 指令也只找到3.02版

3.03版才開始有training功能

如要使用就要透過編譯 source 的方式安裝

首先必須要在appStore安裝 xcode

之後先啟動一次xcode,按下Agree

才會有完整的compiler



編譯 leptonica 1.71


在編譯 tesseract 之前需要先有這個東西

而編譯 leptonica 之前又必須要先有各種圖片 lib

所以先用port 安裝

#sudo port install jpeg tiff libpng

再去官方網站下載 leptonica source

http://www.leptonica.com/download.html

解壓縮之後進入目錄裡

輸入

#./configure LDFLAGS=-L/opt/local/lib/ CFLAGS=-I/opt/local/include/

再來就是 make && sudo make install


編譯tesseract 3.03

利用 git 指令下載source

git clone https://code.google.com/p/tesseract-ocr/

若要用到 training 功能

就要另外安裝幾個套件

sudo port install pango

sudo port install cairo

以我當時情況只缺這兩個而已

每檯主機情況不同

若不知道自己缺什麼

就先執行 

./autogen.sh

./configure

仔細查看 output 訊息

安裝漏掉的 lib

都安裝完之後就

執行

#./autogen.sh
#./confugure
#make
#sudo make install

編譯 training 工具

#make training
#sudo make training-install

language data 我是先用 3.02的

可在

https://code.google.com/p/tesseract-ocr/downloads/list

下載

將language files 複製到 /usr/local/share/tessdata/ 下

之後就可以用

#tesseract imagefile output_file_name

做圖片辨識