DOMINUS prende in input un file di formato doc, rtf, txt, pdf, ps, jpg o png quindi anche immagini raffiguranti documenti, e ne fa un analisi inserendo tutto in un file XML. Naturalmente se il file in questione è un immagine viene effettuato prima un OCR (Optical Character Recognition), cosa che è stata effettuata da due miei compagni di università che hanno fatto la tesi in contemporanea con me.
A partire dal file XML ottenuto il mio lavoro è stato per prima cosa quello di correggere quest’ultimo. Nei file derivanti da immagini infatti alcuni elementi come formule matematiche e codici informatici venivano confusi con il testo. Lo stesso dicasi per i contenuti testuali di tabelle e grafici. Una volta individuati questi elementi e generato l’XML corretto a partire da questo ho realizzato la conversione in formato HTML che rappresentava una copia fedele del file originale separando il testo dagli elementi grafici e da quelli testuali che però non erano da includere nel testo semplice come quelli citati in precedenza.