LACAM ( Laboratorio per l’Acquisizione della Conoscenza e l’Apprendimento delle Macchine)

Università degli studi di Bari, sede di Taranto, acInformatica e comunicazione digitaleCome tirocinio per la testi di laurea ho realizzato un plugin in JAVA per il sistema ETL (Extract, Transform, Load) DOMINUS ( DOcument Management INtelligent Universal System ) realizzato dal professor Stefano Ferilli che mi ha seguito durante la tesi. Il plugin da la possibilità al sistema di convertire qualsiasi tipo di documenti in formato HTML.

DOMINUS prende in input un file di formato doc, rtf, txt, pdf, ps, jpg o png quindi anche immagini raffiguranti documenti, e ne fa un analisi inserendo tutto in un file XML. Naturalmente se il file in questione è un immagine viene effettuato prima un OCR (Optical Character Recognition), cosa che è stata effettuata da due miei compagni di università che hanno fatto la tesi in contemporanea con me.

A partire dal file XML ottenuto il mio lavoro è stato per prima cosa quello di correggere quest’ultimo. Nei file derivanti da immagini infatti alcuni elementi come formule matematiche e codici informatici venivano confusi con il testo. Lo stesso dicasi per i contenuti testuali di tabelle e grafici. Una volta individuati questi elementi e generato l’XML corretto a partire da questo ho realizzato la conversione in formato HTML che rappresentava una copia fedele del file originale separando il testo dagli elementi grafici e da quelli testuali che però non erano da includere nel testo semplice come quelli citati in precedenza.