Tesseract, un valido OCR per Ubuntu

Oggi dovevo correggere un testo dattiloscritto e anziché riscriverlo a mano ovviamente ho pensato di utilizzare un sistema di Optical Character Recognition, che onestamente su Linux non ho mai usato. Una rapida occhiata al Wiki e ho trovato il consiglio: usare Tesseract. Si è comportato molto bene: se potessi votarlo darei un bel 9+. Essendo un fax, il testo non era per niente di alta qualità, ma seguendo i consigli della pagina citata circa le modifiche da apportare al file, Tesseract ha convertito un’immagine in testo editabile e con errori prossimi allo zero. Consigliato.

Per nota personale mi appunto quel che ho fatto:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita

Quindi ho modificato l’immagine, ne ho cambiato la modalità a Indicizzata a 1 bit e l’ho salvata in TIF. Poi il fatidico comando:

tesseract input.tif output -l ita