Information theory techniques for multimedia data classification and retrieval
dc.contributor.author
dc.date.accessioned
2015-09-01T09:26:40Z
dc.date.available
2015-09-01T09:26:40Z
dc.date.issued
2015-07-09
dc.identifier.other
Gi. 1379-2015
dc.identifier.uri
dc.description.abstract
We are in the information age where most data is stored in digital format. Thus, the management of digital documents and videos requires the development of efficient techniques for automatic analysis. Among them, capturing the similarity or dissimilarity between different document images or video frames are extremely important.
In this thesis, we first analyze for several image resolutions the behavior of three different families of image-based similarity measures applied to invoice classification. In these three set of measures, the computation of the similarity between two images is based, respectively, on intensity differences, mutual information, and normalized compression distance. As the best results are obtained with mutual information-based measures, we proceed to investigate the application of three different Tsallis-based generalizations of mutual information for different entropic indexes. These three generalizations derive respectively from the Kullback-Leibler distance, the difference between entropy and conditional entropy, and the Jensen-Shannon divergence.
In relation to digital video processing, we propose two different information-theoretic approaches based, respectively, on Tsallis mutual information and Jensen-Tsallis divergence to detect the abrupt shot boundaries of a video sequence and to select the most representative keyframe of each shot.
Finally, Shannon entropy has been commonly used to quantify the image informativeness. The main drawback of this measure is that it does not take into account the spatial distribution of pixels. In this thesis, we analyze four information-theoretic measures that overcome this limitation. Three of them (entropy rate, excess entropy, and erasure entropy) consider the image as a stationary stochastic process, while the fourth (partitional information) is based on an information channel between image regions and histogram bins
Ens trobem a l’era de la informació on la majoria de les dades s’emmagatzemen en format digital. Per tant, la gestió de documents i vídeos digitals requereix el desenvolupament de tècniques eficients per a l’anàlisi automàtic. Entre elles, la captura de la similitud o dissimilitud entre diferents imatges de documents o fotogrames de vídeo és extremadament important.
En aquesta tesi, analitzem, a diverses resolucions d’imatge, el comportament de tres famílies diferents de mesures basades en similitud d’imatges i aplicades a la classificació de factures. En aquests tres conjunt de mesures, el càlcul de la similitud entre dues imatges es basa, respectivament, en les diferències d’intensitat, en la informació mútua, i en la distància de compressió normalitzada. Degut a que els millors resultats s’obtenen amb les mesures basades en la informació mútua, es procedeix a investigar l’aplicació de tres generalitzacions de la informació mútua basades en Tsallis en diferents índexs entròpics. Aquestes tres generalitzacions es deriven respectivament de la distància de Kullback-Leibler, la diferència entre l’entropia i entropia condicional, i la divergència de Jensen-Shannon.
En relació al processament de vídeo digital, proposem dos enfocaments diferents de teoria de la informació basats respectivament en la informació mútua de Tsallis i en la divergència de Jensen-Tsallis, per detectar els límits d’un pla cinematogràfic en una seqüència de vídeo i per seleccionar el fotograma clau més representatiu de cada pla.
Finalment, l’entropia de Shannon s’ha utilitzat habitualment per quantificar la informativitat d’una imatge. El principal inconvenient d’aquesta mesura és que no té en compte la distribució espacial dels píxels. En aquesta tesi, s’analitzen quatre mesures de teoria de la informació que superen aquesta limitació. Tres d’elles (entropy rate, excess entropy i erasure entropy) consideren la imatge com un procés estocàstic estacionari, mentre que la quarta (partitional information) es basa en un canal d’informació entre les regions d’una imatge i els intervals de l’histograma
dc.format.extent
108 p.
dc.format.mimetype
application/pdf
dc.language.iso
eng
dc.publisher
Universitat de Girona
dc.rights
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/3.0/es/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
dc.subject.other
dc.title
Information theory techniques for multimedia data classification and retrieval
dc.type
info:eu-repo/semantics/doctoralThesis
dc.rights.accessRights
info:eu-repo/semantics/openAccess
dc.contributor.director
dc.subject.udc
dc.type.version
info:eu-repo/semantics/publishedVersion