Tesseract, un valido OCR per Ubuntu

Questo è un post tecnico di 7 anni fa. Le istruzioni potrebbero non essere più valide.

Oggi dovevo correggere un testo dattiloscritto e anziché riscriverlo a mano ovviamente ho pensato di utilizzare un sistema di Optical Character Recognition, che onestamente su Linux non ho mai usato. Una rapida occhiata al Wiki e ho trovato il consiglio: usare Tesseract. Si è comportato molto bene: se potessi votarlo darei un bel 9+. Essendo un fax, il testo non era per niente di alta qualità, ma seguendo i consigli della pagina citata circa le modifiche da apportare al file, Tesseract ha convertito un’immagine in testo editabile e con errori prossimi allo zero. Consigliato.

Per nota personale mi appunto quel che ho fatto:

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita

Quindi ho modificato l’immagine, ne ho cambiato la modalità a Indicizzata a 1 bit e l’ho salvata in TIF. Poi il fatidico comando:

tesseract input.tif output -l ita

Autore: Aldo Latino

Aldo Latino usa con entusiasmo Linux nella distribuzione Ubuntu, è un appassionato di WordPress e si diletta a fare il blogger. Ha anche una lista dei desideri. Per altre informazioni visita la sua .

7 pensieri riguardo “Tesseract, un valido OCR per Ubuntu”

  1. Negli ultimi 20 giorni tesseract mi ha salvato la vita. Stavo per l’appunto pensando ad un post sul mio blog per celebrarlo..

    Non sarebbe bello se si potesse fare una gui? Al massimo io saprei farla per BUC ma non è il massimo.

    1. Guarda, l'ho usato solo una volta e mi è bastato quel semplice comando: da GUI dovresti fare non so quanti clic prima di arrivare al risultato. Non è più comodo da terminale?

      Una GUI, invece, la gradirei se Tesseract avesse più funzioni, laddove quindi dovrei mettere più parametri nel terminale.

  2. Beh, pensa una gui in cui poter selezionare diverse immagini alla volta e con un solo click dirgli di:
    Trasformarle in .tif da 1bit
    Tradurle
    Integrarle nello stesso documento invece che in tanti .doc per quenti sono i file originali..

    Ecco, per questo pensavo ad una gui

  3. come gui puoi usare gscan2pdf che peraltro scansiona pure.
    Anche xsane può essere usato con tesseract, se cerchi in rete c’è uno script.

  4. Grazie per questo utilissimo post :smile:

    Ho installato tesseract e gscan2pdf anche su Fedora.

    Quanto tempo risparmiato…Grazie ancora

I commenti sono chiusi