He creado este pequeño script para convertir a txt los PDFs de la contabilidad del PP. Este script crea un hilo por cada core de tu CPU, convierte el pdf a tif y lo procesa con tesseract, que saca el texto de las imágenes. Iré actualizando el post con las sugerencias de la gente.
|
etiquetas: script , contabilidad , pp , bárcenas , corrupción