Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

mardi 26 mai 2009

Traiter (des photos) pour trouver [signalement]

Dans son blog Descripteurs, Sylvie Dalbin revient sur mon billet récent concernant l'indexation des photos en mettant l'accent sur "les difficultés à articuler méthodes et outillages techno-documentaires "manuels" et automatiques".

À lire ici.

mardi 28 avril 2009

Quelques remarques sur l'indexation des photos

Les agences photos utilisent des techniques diverses pour permettre la recherche de leurs images. Quelques-unes se servent de thésaurus ou de vocabulaires contrôlés pour l'indexation, certaines possèdent des plans de classement hiérarchisés, d'autres encore qualifient les mots-clés avec des "types" ou mettent en œuvre des classements à facettes, la plupart, enfin, n'utilisent pas de techniques documentaires particulières. Au final, en sortie de ce processus de description et de classement, elles utilisent pratiquement toutes depuis de nombreuses années le standard IPTC/IIM dans leurs flux d'images légendées. Mais l'adoption de ce standard conduit parfois à des résultats surprenants lors de l'encapsulation des informations dans l'image. Une indexation efficace en interne, sur le système utilisé par l'agence, semble ensuite d'une qualité documentaire médiocre quand on observe la photo légendée en IPTC. Notre propos ici est d'analyser une partie des informations contenues dans les images diffusées par les agences professionnelles (les mots-clés en l'occurrence) sans référence aux techniques spécifiques que celles-ci utilisent en amont pour produire ces informations. Il s'agit d'examiner les métadonnées des images indépendamment des opérations documentaires et informatiques qui les génèrent. C'est en effet ce résultat d'un processus souvent complexe qui est utilisé dans la diffusion des images sur les portails et les offres packagées. La recherche sur ces flux d'images de plus en plus utilisés s'effectue alors sur des métadonnées que l'on peut considérer bien souvent comme une présentation simplifiée, voire édulcorée dans certains cas, du travail d'indexation effectué en agence. Ces outils importent en effet les données IPTC et - contrairement aux bases documentaires des agences - effectuent une recherche full text sur la plupart ou sur la totalité des données en question. Les informations qui apparaissent alors ne sont plus liées aux outils documentaires, elles ne bénéficient donc plus des dictionnaires de synonymes, des plans de classement et autres thésaurus. L'utilisation de métadonnées déconnectées des outils qui ont servi à les générer pose un certain nombre de questions que nous examinons ici.

Lire la suite...