Oggi dovevo correggere un testo dattiloscritto e anziché riscriverlo a mano ovviamente ho pensato di utilizzare un sistema di Optical Character Recognition, che onestamente su Linux non ho mai usato. Una rapida occhiata al Wiki e ho trovato il consiglio: usare Tesseract. Si è comportato molto bene: se potessi votarlo darei un bel 9+. Essendo un fax, il testo non era per niente di alta qualità, ma seguendo i consigli della pagina citata circa le modifiche da apportare al file, Tesseract ha convertito un’immagine in testo editabile e con errori prossimi allo zero. Consigliato.
Per nota personale mi appunto quel che ho fatto:
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita
Quindi ho modificato l’immagine, ne ho cambiato la modalità a Indicizzata a 1 bit e l’ho salvata in TIF. Poi il fatidico comando:
tesseract input.tif output -l ita
Negli ultimi 20 giorni tesseract mi ha salvato la vita. Stavo per l’appunto pensando ad un post sul mio blog per celebrarlo..
Non sarebbe bello se si potesse fare una gui? Al massimo io saprei farla per BUC ma non è il massimo.
Guarda, l'ho usato solo una volta e mi è bastato quel semplice comando: da GUI dovresti fare non so quanti clic prima di arrivare al risultato. Non è più comodo da terminale?
Una GUI, invece, la gradirei se Tesseract avesse più funzioni, laddove quindi dovrei mettere più parametri nel terminale.
Beh, pensa una gui in cui poter selezionare diverse immagini alla volta e con un solo click dirgli di:
Trasformarle in .tif da 1bit
Tradurle
Integrarle nello stesso documento invece che in tanti .doc per quenti sono i file originali..
Ecco, per questo pensavo ad una gui
come gui puoi usare gscan2pdf che peraltro scansiona pure.
Anche xsane può essere usato con tesseract, se cerchi in rete c’è uno script.
Oh, grazie.. domani li provo e vedo se fanno quello che cerco ^.^
Gli interventi di Guido sono sempre preziosi! :smirk:
Grazie per questo utilissimo post :smile:
Ho installato tesseract e gscan2pdf anche su Fedora.
Quanto tempo risparmiato…Grazie ancora