IMG
SRC
ORG

 

 
 5

 

 

 5_2_6

5_2_6 Der Semantic Gap
Oder: Der kleine Unterschied von Bild und Text

Das wohl ideale «CBIR-System», das auch als Fernziel der aktuellen Forschung verstanden werden kann, ermöglicht eine semantische Suche, die es dem Benutzer ermöglicht, Anfragen per Text oder Sprache im Vordergrund zu formulieren. Dieses Interface freift dann auf eine Indizierung im Hintergrund zu, die auf den Bildern abgebildeten Formen automatisch einem textlichen Index zuordnen kann. Allerdings ist die Aufgabe sehr schwer zu vollziehen.[1]

[1] Graham McNeill u.a.: A Probabilistic Approach to Robust Shape Matching and Part Decomposition, Januar 2006 (PDF)

[2] Visible Image Retrieval, in: Vittorio Castelli und Lawrence D. Bergman: Image Databases — Search and Retrieval of Digital Imagery, New York 1996, S. 12

Aktuelle automatische Systeme zur Erkennung von Bildern sind auf ein sehr ungenaues Erkennen von Bildattributen angewiesen. So sehen die von einem «CBIR-System» gefundenen Bilder bezüglich ihrer Farbe, ihren Texturen und ggf. ihrer Komposition sehr ähnlich aus, sie können jedoch keine Bilder des gleichen Inhalts oder desselben Abgebildeten liefern,[2] da das Klassifizieren der erkannten Formen nach wie vor sehr schwierig ist.

Wie sich bereits in der Untersuchung des Bildes im Kontext des «Web 2.0» andeutete, herrscht zwar sowohl bei einer textbasierten Suche sowie beim «CBIR» ein «Semantic Gap» vor, dieser ist jedoch für die Bilder bei weitem breiter. Eine Minimierung dieser Lücke wird als Ziel vieler wissenschaftlichen Arbeiten zum Thema «CBIR» gesehen: «It is generally agreed upon that a key challenge in the field is how to reduce the semantic gap between user expectation and system support, especially in non-professional applications.»

Carlo Colombo und Alberto del Bimbo schlussfolgern daraus, dass eine Vorstellung des Inhalts besonders beim Bild sehr vage ist und individuellen Interpretationen unterliegt. Besonders auf der Ebene der Semantik ist das Bild nicht eindeutig. Nichtsdestotrotz sehen die beiden Autoren eine Chance in der automatisierten Verarbeitung von Bildern, besonders die heute in Internet und World Wide Web existenten Mengen an Bildern lassen — nach den Autoren — keine andere Möglichkeit offen.

 

«However there is much more to image retrieval than simply recognition.»[3]

[3] Visible Image Retrieval, in: Image Databases, S. 13

[4] Visible Image Retrieval, ebd.

Colombo und Bimbo erkennen, dass die semantische Lücke zwischen dem System und dem Benutzer nur teilweise an dem gesuchten Bild — auch in der Art und Weise wie ein «CBIR System» arbeitet. «Gaps between system and user semantics are partially due to the nature of the information being searched and partially due to the manner in which CBIR system operates.»[4] Um der semantischen Lücke doch noch Herr zu werden, folgern die Autoren, müsse besonderes Augenmerk darauf gelegt werden, wie die Interfaces der visuellen Bildersuche mit den Benutzern interagieren:

 

[5] Visible Image Retrieval, ebd.

«To bridge the semantic gap, extreme care should be devoted to the manner in which CBIR systems internally represent visual information and externally interact with the users.»[5]

 


 



 


 5_2_6

 

IMG
SRC