Quelques remarques sur l'indexation des photos
Par Patrick Peccatte le mardi 28 avril 2009, 11:36 - documentation - Lien permanent
Les agences photos utilisent des techniques diverses pour permettre la recherche de leurs images. Quelques-unes se servent de thésaurus ou de vocabulaires contrôlés pour l'indexation, certaines possèdent des plans de classement hiérarchisés, d'autres encore qualifient les mots-clés avec des "types" ou mettent en œuvre des classements à facettes, la plupart, enfin, n'utilisent pas de techniques documentaires particulières. Au final, en sortie de ce processus de description et de classement, elles utilisent pratiquement toutes depuis de nombreuses années le standard IPTC/IIM dans leurs flux d'images légendées. Mais l'adoption de ce standard conduit parfois à des résultats surprenants lors de l'encapsulation des informations dans l'image. Une indexation efficace en interne, sur le système utilisé par l'agence, semble ensuite d'une qualité documentaire médiocre quand on observe la photo légendée en IPTC. Notre propos ici est d'analyser une partie des informations contenues dans les images diffusées par les agences professionnelles (les mots-clés en l'occurrence) sans référence aux techniques spécifiques que celles-ci utilisent en amont pour produire ces informations. Il s'agit d'examiner les métadonnées des images indépendamment des opérations documentaires et informatiques qui les génèrent. C'est en effet ce résultat d'un processus souvent complexe qui est utilisé dans la diffusion des images sur les portails et les offres packagées. La recherche sur ces flux d'images de plus en plus utilisés s'effectue alors sur des métadonnées que l'on peut considérer bien souvent comme une présentation simplifiée, voire édulcorée dans certains cas, du travail d'indexation effectué en agence. Ces outils importent en effet les données IPTC et - contrairement aux bases documentaires des agences - effectuent une recherche full text sur la plupart ou sur la totalité des données en question. Les informations qui apparaissent alors ne sont plus liées aux outils documentaires, elles ne bénéficient donc plus des dictionnaires de synonymes, des plans de classement et autres thésaurus. L'utilisation de métadonnées déconnectées des outils qui ont servi à les générer pose un certain nombre de questions que nous examinons ici.
La description d'une image s'effectue habituellement en distinguant ce qui figure sur l’image (la dénotation) et ce qui est suggéré par l’image (la connotation), la dénotation répondant à la question « Que voit-on sur cette image ? » tandis que la connotation répond à la question « Qu'évoque cette image ? ». On ajoute également parfois des informations concernant le cadrage, la composition ou les couleurs dominantes de l'image.
Le standard IPTC/IIM autorise la description de l'image à l'aide de champs textuels divers comme le Titre (n° 105) ou la Légende (n° 120) et permet d'utiliser une liste de mots-clés (n° 25). Toutefois, que ce soit pour les différents champs textuels ou pour les mots-clés, il n'est pas possible de distinguer entre les éléments descriptifs qui relèvent de la dénotation et ceux qui relèvent de la connotation, sauf à utiliser des artifices de saisie, comme par exemple l'ajout du terme 'concept' entre parenthèses après un mot-clé connotatif.
En ce qui concerne les photos distribuées par les agences professionnelles, on différencie habituellement :
- les photos d'actualités (Editorial, News) qui
sont la plupart du temps décrites à l'aide des champs Titre (n° 105), Légende
(n° 120), Pays (n° 101), Ville (n° 90), Date de la photo (n° 55). Les Mots-clés
(n° 25) sont plus rarement utilisés pour ce type de photo et relèvent presque
toujours de la dénotation. D'autres champs concernant les droits, le crédit,
l'agence, etc. sont aussi renseignés. Exemple :
Date de la photo : 10/05/2000
Titre : Dans la rue.
Légende : Foule de touristes sur la Croisette le jour de l'inauguration du festival du cinéma de Cannes. Cote d'Azur. France. 10/05/2000
Pays : France
Ville : Cannes
Mots-clés : festival, passant, ville, Europe de l'Ouest, couleur (photo en couleur), Europe, cinéma, rue, horizontal - les photos d'illustration (Creative,
Documentaire, Stock), non liées à l'actualité, soi-disant "intemporelles", qui
sont décrites en général par un Titre (ou une Légende) très bref et à l'aide de
Mots-clés souvent nombreux se rapportant à la fois à la dénotation et à la
connotation de l'image. Exemple :
Autres exemples :Légende : Couple d'adolescents se donnant la main, adolescente avec bras croisés en arrière-plan
Mots-clés : actions, Boudeur, Personnage, Mineur, Ado, Adolescente, 2 adolescentes, Groupe de personnes, 3 personnes, Adolescent, Amitié, Sentiment, Amour, Attitude, Bras croisés, Apparence physique, Cheveux, Cheveux châtains, cheveux longs, couple, Angle de prise de vue, Détail, Saison, Eté, Exclusion, Extérieur, Jalousie, Problème, Ages, de 12 à 15 ans, Concept, Tristesse, Verdure, vie quotidienne, Ensemble, Amoureux, Féminin, Origine ethnique, Personne d'origine européenne, se donner la main, Relation, Masculin, horizontal
Commentaire: Les mots-clés conceptuels ou connotatifs comme 'amitié', 'sentiment', 'amour', 'exclusion', 'jalousie' sont indispensables dans le cas des photos d'illustration. Un client peut par exemple vouloir illustrer un sujet sur la jalousie sans avoir une idée précise de la composition de la photo souhaitée et compte sur l'indexation du corpus de recherche pour retrouver des images pertinentes.
Légende : Greek Vase Painting, black figure, Attic, c.510BC.-Athlete training with dumbbells.-Fragment of a dish with handles.-Inv.Nr. CP 10.376 and frgt CP 151. Dép.des Antiquités Grecques et Romaines. Lieu de conservation : Musée du Louvre. Année de l'évènement : -510. Année de l'oeuvre : -510
Mots-clés : 6E SIECLE AV.JC, A FIGURES NOIRES, A FIGURES ROUGES, ANTIQUITE, ART GREC, ATHLETE, CONCOURS, DIVERS, HISTOIRE, LESSING, ERICH, PEINTURE SUR VASE, RECIPIENT, SPORT, VASE, ENTRAINEMENT, SAUT EN LONGUEUR, BODYBUILDING, HALTERE
Commentaire : Le mot-clé BODYBUILDING doit être considéré ici comme connotatif mais son utilisation dans ce contexte est manifestement anachronique.Légende : Deux escargots sur une pierre
Mots-clés : Amour, sexe, voyage, Deux, Bourgogne, Personnage, Animal, personnage vivant, Couple, amoureux, Produit, Escargot, Couleur, Gris, Extérieur, classique, pierre, Déménagement, classique, Extérieur, Gris, Personnage, nourriture, alimentation, cuisine, culinaire
Commentaire : Cette photo de deux escargots pourra être retrouvée pour illustrer des sujets aussi divers que l'amour, le voyage, la cuisine, un déménagement.
Pour certaines images d'illustration, le Titre et la Légende sont parfois même absents et la description est uniquement effectuée à l'aide de Mots-clés.
La distinction entre les deux types de photos n'est pas toujours claire, et des photos d'actualités sont parfois décrites à l'aide de nombreux mots-clés. Ces modes de description ne sont pas systématisés et aucune règle ne préconise l'adoption d'une méthode ou d'une autre.
Ce billet s'intéresse aux pratiques d'indexation des photos à l'aide de mots-clés, donc essentiellement aux images d'illustration. Les exemples donnés ici sont réels. Nous rapportons ci-dessous de véritables descriptions (champs Titre ou Légende) suivis des Mots-clés mais sans mention de l'agence éditrice et sans les images ; ceci bien sûr afin de respecter les droits concernant les photos, mais aussi pour éviter d'associer les usages que nous allons mentionner à telle ou telle agence.
Nous avons classé les pratiques relevées en plusieurs sections. Chacune de ces pratiques est illustrée par quelques exemples qui sont parfois suivis de commentaires.
Non respect du standard
Les mots-clés IPTC forment une liste indéfinie et non hiérarchisée de mots isolés ou de courtes phrases. Chaque mot-clé ne doit pas dépasser 64 caractères.
Les mots-clés IPTC correspondent au tableau dc:subject en XMP, mais, dans ce cas, conformément au standard Dublin Core utilisé ici par le codage XMP, chaque item du tableau n'est pas limité en nombre de caractères.
Voici quelques exemples de mots-clés problématiques :
Légende : Segolene Royal au Senegal-Rencontre avec une collectif des femmes
Mots-clés : Segolene Royal Collectif emigration clandestine
Commentaire : L'unique mot-clé 'Segolene Royal Collectif emigration clandestine' ressemble à un slug de dépêche, une suite de mots qui permettent de prendre rapidement connaissance du contenu.
Légende : Alimentation. Femme mangeant un yaourt.
Mots-clés : 30-40 ans Adulte Aliment Alimentation Appareil électroménager Autorisation modèle Cheveux roux Debout Electroménager Equipement électroménager Femme Frigo Intérieur Laitage Laitages Manger Nourriture Nutrition Produit laitier Produits laitiers Réfrigérateur Regard caméra Regarder l'objectif Rousse Sourire Une personne Yaourt Yoghourt Yogurt
Commentaire : L'image contient en fait un seul mot-clé qui commence par '30-40 ans' et finit par 'Yogurt' ! Comme précédemment, les séparateurs de mots-clés ont été oubliés lors de la saisie ou par le logiciel chargé de créer les champs IPTC/IIM à partir de l'indexation. Ce pseudo mot-clé est bien sûr invalide en IPTC/IIM car il fait plus de 64 caractères et il sera tronqué lors de sa reprise dans certains systèmes.
Reprise de la légende comme mot-clé
Légende : PINK en concert sur la scène du Palais Omnisport de Paris Bercy le 09 mars 2009
Mots-clés : PINK en concert sur la scène du Palais Omnisport de Paris Bercy
Commentaire : La légende est reprise presque intégralement comme un unique mot-clé, probablement par la mise en œuvre d'une règle informatique de type "copier/coller si le champ est vide".
Fautes d'orthographes
Titre : ICONE, CRACOVIE EN POLOGNE
Légende : la Ville de Cracovie en Pologne
Mots-clés : Pologne, Cracovie, relgion, icone, peinture, vertical
Commentaire : relgion au lieu de religion - les logiciels qui n'utilisent pas de vocabulaires contrôlés ou de thésaurus, comme c'est probablement le cas ici, devraient faire appel à un correcteur orthographique.
Saisie fautive des mots-clés composés
Légende : Dans la jungle avec les FARC.
Mots-clés : Colombie, 2006, couleur, exterieur, horizontale, 'Forces armees revolutionnaire', arme, guerre, conflit, terroriste, militaire, guerre, camp, base, farc, jungle, mouvement, revolution, camp, base, 'ordinateur portable'
Commentaire : Les mots-clés composés ne doivent pas être encadrés d'apostrophes ou de guillemets qui peuvent perturber leur reprise dans certains logiciels.
Erreur dans l’analyse du sujet
Légende : Dame de Brassempouy (Landes)
Mots-clés : coiffure, tête, femme, sculpture, profil, Costume & Mode, France, Civilisations préhistoriques, Sculpture, Antiquité, Archéologie, Objets grecs, Vases, Objets gravés & Sculptures, Sculpture & Arts décoratifs
Commentaire : Les mot-clés 'Objets grecs' et 'Vases' sont erronés pour indexer une photo de la statuette préhistorique de la Dame de Brassempouy.
Mots-clés inappropriés
Légende : Pessac (33). Château viticole du Bordelais. Château Haut-Brion et vignoble. AOC Pessac Léognan
Mots-clés : Agriculture, Architecture, Château, Culture, Hauteur, Historique, Monument, Prise de vue, Type de monument, Vigne, Viticulture, Aquitaine, Gironde 33, Pessac, France / Frankreich
Commentaire : 'Prise de vue' et 'Type de monument' ne sont pas des mots-clés mais des classes d’appartenance qui ont été intégrées comme des mots-clé probablement par un logiciel mal conçu.
Légende : 12/11/2006 - LILLE - Mathieu BODMER (G) lors du match comptant pour la 13ème journée de championnat de Ligue 1, saison 2006-2007, opposant le LOSC à l'OM au Stadium Lille Métropole
Mots-clés : 1, 13eme, 13ème, 2006, 2007, bodmer, championnat, club, dogues, foot, football, jour, journée, journee, l, ligue, lille, lillois, losc, marseillais, marseille, mathieu, matthieu, métropole, olympique, om, saison, sporting, stadium
Commentaire : Les nombres et adjectifs numéraux ne sont pas réellement pertinents, y compris les dates qui devraient figurer dans le champ Date. Les termes 'jour' et 'journée' sont des descripteurs identiques et 'journee' apparaît une seconde fois sans accent.
Création quasi-automatique de pseudo-mots-clés à partir de la légende
Légende : Ida Rubinstein (c.1885-1960) as Zobeide in 'Scheherazade', c.1910 (b/w photo), by French Photographer, (20th century), black and white photograph, Private Collection, Archives Charmet, French, out of copyright
Mots-clés : Ida, Rubinstein, c, 1885-1960, as, Zobeide, in, 'Scheherazade', c, 1910, b/w, photo, costume, by, Leon, Bakst, 1866-1924, favourite, wife, of, the, Shah, female, ballet, dancer, ballerina, actress, Ballets, Russes, Diaghilev, performer, Lvovna, headdress, Oriental, Sheherazade, French, Photographer, 20th, century, Private, Collection, French, Personalities, Dancers, Music, Ballet, -, Sets, Scenes, &, Costumes, THEATRE, BALLET, OPERA, &, CINEMA, black, and, white, photograph
Commentaire : À la suite de cette génération automatique à partir de la légende, on retrouve des mots-clés sans significations comme 'c', 'as', 'in', 'by', 'of', etc. qui n'ont pas été filtrés par un dictionnaire de mots vides.
Surindexation documentaire et indexation prolixe
La surindexation documentaire est définie comme une « indexation complémentaire d'un document ou d'une question par des descripteurs appartenant à la même chaîne hiérarchique que le descripteur identifié par l'analyse du contenu, dans le cadre d'une politique d'indexation prédéfinie » (ADBS, Vocabulaire de la documentation).
On parle parfois également de surindexation alors que la condition d'appartenance à une même chaîne hiérarchique n'est pas respectée et que des mots-clés sont ajoutés en surplus sans réellement préciser la description de l'image, voir par exemple Méthodologie de l'analyse documentaire par Marie-France Blanquet, octobre 2004.
Pour distinguer d'une part la surindexation documentaire telle qu'elle est définie précédemment et d'autre part la pratique consistant à ajouter des mots-clés non pertinents ou redondants, nous appellerons cette dernière indexation prolixe.
Il est impossible avec le codage IPTC/IIM de hiérarchiser les mots-clés ou de les qualifier, de leur affecter un attribut. L'usage de la surindexation documentaire avec cette technique est alors délicat et peut conduire à ajouter trop de mots-clés dans une liste par nature non structurée, rejoignant ainsi l'indexation prolixe.
Indexation prolixe avec des formes fléchies
Légende : Chaton de gouttière devant sa gamelle
Mots-clés : Description, Descriptions, Individu, Individus, Morphologie, Morphologies, Morphology, Prise de vue, Prises de vues, Action, Actions, Animal de compagnie, Animal domestique, Animaux de compagnie, Animaux domestiques, Avalant, Avalé, Avalée, Avalées, Avaler, Avalés, Mammifère domestique, Mammifères domestiques, Mangé, Mangeant, Mangée, Mangées, Manger, Mangés, Ruminant, Ruminer, Se nourrir, Mammalia, Vertebrata (liste), Vertébré, Accessoire pour animal, Accessoires pour animaux, Equipement pour animal, Equipements pour animaux, Felidae, Bébé, Bébés, Jeune, Jeunes, Juvéniles, Petites, Petits, Morphologie physique, Morphologies physiques, A l'extérieur, Dehors, Extérieur, Extérieure, Extérieures, Extérieurs, Chat (Felis catus domesticus), Chat domestique, Chats, Felis, Chat de gouttière, Chats de gouttière, Chats de maison, Chats domestiques, Chaton, Chatons, Rayé, Rayée, Rayées, Rayés, Se nourrissant, Carnivora, Ecuelle, Ecuelles, Gamelle, Gamelles
Commentaire : L'indexation ne porte pas ici sur l'élargissement conceptuel de la description. Elle est systématisée en faisant appel aux pluriels (Action, Actions), aux formes mixtes masculin/féminin (Mangé, Mangée), à des quasi-synonymes (A l'extérieur, Dehors, Extérieur). Il s'agit bien d'une indexation prolixe très probablement générée automatiquement. En effet, avec certains logiciel basés sur des thésaurus ou vocabulaires contrôlés, ce ne sont pas les analystes qui saisissent tous les mots-clés. C’est le système informatique qui, une fois la notice validée par l’analyste, inclue automatiquement tous les autres termes : les équivalents (singulier, pluriel, vrais synonymes, etc.) et les catégories de plus haut niveau (surindexation documentaire).
Légende : Young woman lying in long grass.
Mots-clés : 1, 12 à 18 ans, 12-18 ans, 12_18_ans, 13 ans, 14 ans, 15 ans, 16 ans, 17 ans, 18 ans, 19 ans, 20 ans, 20 à 30 ans, 20-30 ans, 20_30_ans, 25 ans, Ado, Adolescence, Adolescent, Adolescente, Adolescentes, Adolescents, Adulte, Adultes, Alité, Alitée, Alitées, Alités, Allongé, Allongée, Allongées, Allongés, Campagne, Caucasien, Caucasienne, Caucasiennes, Caucasiens, Couché, Couchée, Couchées, Couchés, Dame, Dehors, Détente, Européen, Européenne, Européennes, Européens, Extérieur, Femme, Femmes, Fille, Filles, Féminin, Féminine, Féminines, Féminins, Gazon, Herbe, Herbes, Herbeux, Humain, Humaine, Humaines, Humains, Individualité, Individuel, Jeune fille, Jeunes filles, Mature, Pelouse, Pelouses, Pensif, Pensive, Pensée, Personne, Personnes, Relaxation, Relaxer, Rêve, Rêver, Rêves, Rêveur, Rêveuse, Seul, Seule, Seules, Seuls, Teenager, Teenagers, Un, Une, Vie rurale
Indexation prolixe à l'aide de termes redondants
Légende : Visite du public sur le site de la Bibliothèque nationale de France. Bibliothèque François Mitterrand, 11-12 août 2007.
Mots-clés : Bnf, Bibliothèque nationale, couloir, public, visiteur, visite, jeune fille, adolescent, téléphone portable, photographier, souvenir, enregistrement, concentration, précision, vert, profil, Lafay, jeune, flou, intérieur, pose, appareil photo, en pied, tenir, vjj, de profil, vee, floue, floues, flous, flouté, floutée, floutées, floutés, trouble, troubles, mise au point, jeunes, jeunesse, int, technique de prise de vue, verte, vertes, verts, couleur froide, vu de côté, vu de profil, vue de côté, vue de profil, vues de côté, vues de profil, vus de côté, vus de profil, orientation, profils, de profil, en pieds, portrait en pied, plan large, 11 à 17 ans, ado, adolescente, adolescentes, adolescents, ados, mineur, réminiscence, réminiscences, se rappeler, se souvenant, se souvenir, souvenirs, mémoire, absorbé, absorbée, absorbées, absorbés, attentif, attentifs, attention, attentions, attentive, attentives, concentrations, concentré, concentrée, concentrées, concentrer, concentrés, focalisant, focaliser, se concentrant, se concentrer, se focalisant, se focaliser, esprit, corridor, corridors, couloirs, espace intérieur, visité, visite culturelle, visitée, visitées, visiter, visites, visités, visites culturelles, connaissance, minutie, minuties, minutieuse, minutieuses, minutieux, précis, précise, précises, précisions, détail, mobile, mobiles, portable, portables, téléphone, téléphone cellulaire, téléphone mobile, téléphones, téléphones cellulaires, téléphones mobiles, téléphones portables, téléphonie mobile, téléphonie, se tenir, tenant, lien, bibliothèque f mitterand, bibliothèque f mitterrand, bibliothèque françois mitterand, bibliothèque françois mitterrand, bibliothèque nationale, bibliothèque nationale de france, bnf, bnf-françois mitterrand, grande bibliothèque, musées et monuments de la ville de paris, appareil de photo, appareil de photographie, appareil de photographies, appareil de photos, appareil photographique, appareil photos, appareils de photo, appareils de photo
Commentaire : L'indexation utilise un grand nombre de mot-clés redondants en essayant d'anticiper sur les recherches. Ces mots sont parfois intentionnellement mal orthographiés (Mitterand avec un seul r à côté de la forme correcte). Là encore, ce sont en fait les équivalents du thésaurus qui sont reproduits dans la notice documentaire.
Légende : Peanuts with and without shells
Mots-clés : boire et manger, cacahuète, cacahuete, cacahuètes, cacahuetes, coquille de cacahouète, coquille de cacahouete, coquille de cacahuète, coquille de cacahuete, coquilles de cacahouète, coquilles de cacahouete, coquilles de cacahuète, coquilles de cacahuete, coupe, coupes, cru, denrées alimentaires, denrees alimentaires, detourable, détouré, detoure, détouree, detouree, différent, different, différents, differents, divers, diverse, diverses, écorce, ecorce, épluché, epluche, épluchée, epluchee, épluchées, epluchees, épluchés, epluches, exempté, exempte, exemptée, exemptee, exemptées, exemptees, exemptés, exemptes, exonéré, exonere, exonérée, exoneree, exonérées, exonerees, exonérés, exoneres, food, ingrédient, ingredient, ingrédients, ingredients, nature morte, noisette, noix, noix classiques, oléagineux classiques, oleagineux classiques, pelures, personne, photo détourable, photo detourable, photos détourables, photos detourables, plusieurs
Commentaire : L'indexation utilise un grand nombre de mot-clés identiques orthographiés avec et sans accents.
Légende : Mas avec piscine à Aubais / 30 Gard / Rég. Languedoc Roussillon
Mots-clés : 30, 30 (Gard), à louer, Adulte, Adultes, Agglomération, Agglomérations, Aglomération, Aglomérations, Ancien, Ancienne, Anciennes, Anciens, bambin, bambins, Bébé, Bébés, Bleu, bleue, bleues, bleus, campagne, Ciel, ciel bleu, ciel bleue, ciel bleues, Ciels, ciels bleues, ciels bleus, cieux bleus, Département, Départements, Dpt, ECONOMIE, Economies, Enfant, Enfants, Environnement, Eté, Etre, Etres, Europe, Façade, Façades, Famille, Familles, Fce, Femme, Femmes, France, gamin, gamins, Gard, Gens, Gonzesse, Gonzesses, gosse, gosses, habitat, HABITAT, Habitation, habitation individuelle, Habitations, habitations individuelles, habitats, Habitats, Humain, Humain, Humains, Humains, Illustration, Illustrations, Ilustration, Ilustrations, Immo, Immobilier, Immobiliers, Individu, Individu, Individuel, Individuelle, Individuelles, Individuels, Individus, Individus, Languedoc, Languedoc Roussillon, Languedoc-Roussillon, lardon, lardons, Location, Locations, logement, Logement, logements, Logements, loupiot, loupiots, Maison, Maison individuelle, maisons, Maisons individuelles, Majeur, Majeurs, marmot, marmots, Mas, Mature, Maturité, Meuf, Meufs, minot, minot, minots, mioche, mioches, môme, mômes, MONDE, mouflet, mouflets, moutard, moutards, Mûr, Nana, Nanas, NATURE, Nourisson, Nourissons, nouveau né, nouveaux nés, parenté, Particulier, Particulière, Particulières, Particuliers, PEOPLE, Personnage, Personnages, Personne, Personne, Personnes, Personnes, petit, petits, Piscine, Piscines, poupon, poupons, province, Région, Résidence, Résidence secondaire, Résidences, Résidences secondaires, Résidentiel, Résidentielle, Résidentielles, Résidentiels, Roussillon, saison, Saison, Saisonnière, Saisonnières, saisons, Saisons, Secondaire, Secondaires, Terrien, Terrienne, Terriennes, Terriens, Toit, Toits, Toiture, Toitures, Ville, Villes
Légende : SCENE DE RUE .TRANSIT URKRAINE. SUR LA LIGNE DE BUS N°26, KIEV. UKRAINE, 2007
Mots-clés : arrêt autobus, arrêt d'autobus, arrêt de bus, arrêts autobus, arrêts d'autobus, arrêts de bus, circulation, circulations, Europe, Europe de l'est, extérieur, extérieure, extérieures, extérieurs, fonction publique, fonctionnaire, fonctionnaires, illustration, illustration de ville, illustrations, illustrations de ville, illustrations de villes, Kiev, population, populations, rue, rues, service public, transport, transport, transport public, transport urbain, transport urbain, transports, transports public, transports urbains, Ukraine, vie quotidienne, vies quotidiennes, ville, ville, ville, villes, villes, villes, vue extérieure, vues extérieures
Commentaire : L'indexation utilise systématiquement la forme au singulier suivi de la forme au pluriel. Certains termes (transport, ville) apparaissent même deux fois. Le contrôle des doublons n'est pas effectué ; ou peut-être s'agit-il d'une pratique délibérée, utilisée de façon à augmenter le rank de la photo lors d'une recherche sur ces termes - certains systèmes de recherche se basent en effet sur le nombre des termes recherchés apparaissant dans un résultat pour définir l'ordre d'affichage des résultats.
Mots-clés en plusieurs langues sans marqueurs de langues
Légende : Femme - soin des pieds
Mots-clés : Bain, Femme, Pied, Soins, Pieds, Eponge, Pieds nus, Bain de pieds, Personnages, Pédicure, Gros plan, Bath, Woman, Foot, Care, Feet, Sponge, Bare feet, Footbath, Person People, Close up, Baño, Mujer, Pie, Cuidados, Pies, Esponja, Pies desnudos, Lavarse los pies, Lavándose los pies, Baño de pies, Personaje, Gente, Primer plano, vertical
Commentaire : Les homonymes sont évidemment plus fréquents – ici le terme espagnol 'Pie' signifie 'Pied' mais possède d'autres sens dans les langues utilisées pour l'indexation (le français et l'anglais) sans qu'il soit possible de les distinguer.
Mots-clés en deux langues à l'aide d'un artifice syntaxique
Légende : SOMMET INTERNATIONAL DU PETROLE // OIL INTERNATIONAL SUMMIT
Mots-clés : CHRISTOPHE DE MARGERIE // CHRISTOPHE DE MARGERIE, TOTAL // TOTAL, PORTRAIT // PORTRAIT, PETROLE // OIL, MARGERIE // MARGERIE, ENERGIE // ENERGY, ECONOMIE // ECONOMY, DG // CEO
Commentaire : L'artifice est intéressant mais il demeure non standardisé et devra être exploité par un logiciel développé spécifiquement.
Mots-clés qualifiés à l'aide d'un "type"
Légende : PARIS : Christian Dumontier - world's first hand and face transplant
Mots-clés : 'RENDEZ VOUS SUJET', 'SEANCE DE POSE SUJET', 'CLOSE UP SUJET', 'NOUVEAU SUJET', 'PREMIERE SUJET', 'CHIRURGIE SUJET', 'VISAGE SUJET', 'VICTIME SUJET', 'BRULE ATTITUDE', 'HOPITAL HENRI MONDOR PERSONNE MORALE', 'MEDECIN FONCTION', 'CHIRURGIEN FONCTION', 'FRANCE NATIONALITE', 'DUMONTIER CHRISTIAN PORTRAIT', 'POSANT ATTITUDE', 'BUREAU SUJET', 'PARIS LIEU', 'FRANCE LIEU'
Commentaire : SUJET, ATTITUDE, PERSONNE MORALE, FONCTION constituent des types permettant de préciser le contexte d'utilisation du mot-clé précédent. Leur utilisation est ici systématique mais peut poser problème lors de la recherche.
Autre artifice syntaxique pour qualifier les mots-clés
Légende : PROUST Marcel
Mots-clés : Ref. : PROUSTm_xxx, Sujet : Marcel PROUST, Crédit : Collection xxx, Date : 00000000, Agence xxx, www.agence-xxx.com, Sujet : Marcel PROUST, Credit : xxx, Date : 00000000, Agence xxx, www.agence-xxx.com, ecrivain, portrait, writer
Marqueurs de contexte considérés comme mots-clés
Légende : Gelée orange
Mots-clés : agrume, aliment, alimentation, bol, connotation, cuillère, dessert, extérieur, fruit, gastronomie, gelée, lieu, nature morte, objets, orange, serviette de table
Commentaire : Le terme 'connotation' qui provient probablement du système d'indexation ne devrait pas apparaître comme mot-clé.
Légende : (absente)
Mots-clés : 18-20 ans, 20-25 ans, bien-etre, cadrage tete et epaules, campagne, champ, cheveux bruns, detente, exterieur, femme, femme jeune, fleur, format vertical, frange, herbe, image en couleur, jardin, loisirs, nature, peau blanche, photographie, portrait, printemps, regardant l'objectif, robe, sentir, sourire, temps libre, tous accessoires, tous concepts, tous contextes, tous personnages, tous physiques, tous styles, tous sujets, tous vetements, toutes actions, toutes attitudes, type europeen, une seule personne, vegetal, visage, vue de face
Commentaire : Les mots-clés 'tous accessoires', 'tous concepts', 'tous contextes', etc. sont probablement copiés depuis une hiérarchie de termes du système d'indexation.
Conclusion
Un certain nombre de cas relevés ici s'expliquent par deux limitations importantes du standard IPTC/IIM concernant les mots-clés : il n'est pas possible de les catégoriser (ou de les 'typer') ni de les hiérarchiser. Avec la montée en puissance et la généralisation de XMP en remplacement de l'IPTC/IIM, des solutions permettant de répondre à ces inconvénients sont possibles mais elles ne font pas encore l'objet de recommandations par les organismes de standardisations. Comme l'indique le Metadata Working Group dans son dernier guide :
Keyword properties usually do not retain the semantics of the keyword value itself. E.g. the information that “San Francisco” is a location will be lost. XMP/RDF provides the ability to add qualifiers for each keyword to define such a semantic. For future extensibility, these attributes SHOULD be preserved on any keyword manipulation.
Hierarchical keywords are not covered. However it's well understood that this is an important use case even in the context of the consumer and will be added to future versions of this document. There are existing solutions available e.g. Adobe Bridge, Adobe Lightroom as well as Microsoft Expression Media and Windows Live Photo Gallery that have introduced hierarchical keyword workflows specific to their needs.
Metadata Working Group - Guidelines for Handling Image Metadata, Version 1.0.1, February 2009, page 33
(Au passage, nous déconseillons d'utiliser l'une quelconque des techniques XMP mentionnées dans ce passage permettant la hiérarchisation des mots-clé, car aucun standard ne s'est encore dégagé et les méthodes proposées apparaissent pour l'instant propriétaires.)
Mais indépendamment de ces limitations techniques, les processus documentaires et informatiques devraient être améliorés de façon à éviter l'indexation prolixe qui parfois ressemble à un gavage de mots-clés destiné à augmenter les chances pour une image d'apparaître lors d'une recherche. À une époque où l'offre d'images est pléthorique et avec la multiplication des bouquets, portails, accords au forfait (packages), mashups, etc. où le choix des images ne s'effectue pas toujours sur les sites des agences et n'est même pas toujours contrôlé (*), le bruit documentaire devient vite insupportable.
[Merci à Sylvie Dalbin (Descripteurs) et Anne-Lise Duchadeau pour leurs remarques et suggestions lors de la rédaction de ce billet](*) Dernière anecdote en date sur le blog de Stefan Niggemeier :
Une photo d'un poulet dans une praire avait été légendée ainsi par l'agence allemande DPA : "une prairie, un an 1/2 après que les enquêteurs aient stationné avec une voiture de détection radio pour surveiller des suspects."
La photo s'est retrouvée à la une d'un journal en ligne avec cette description : "Le procès contre le groupe terroriste Sauerland commence - grandes mesures de sécurité".
Commentaires
bonjour, je trouve cet article très intéressant, les questions sur la redondance sont primordiales pour une recherche simple, qui nous donne des résultats pertinents.
je dois moi même indexer des photos en créant un thésaurus dédié.
peut on trouver un thésaurus accessible servant à l'indexation de photo ?
où on pourrait le voir avec son arborescence.
Bonjour Marlene,
Il faudrait en savoir plus sur votre outil d'indexation, car il y a fort à parier que s'il supporte les thésaurus, ceux-ci doivent y être codés ou importés d'une façon bien spécifique (i.e. propriétaire). Le domaine est également important. Souhaitez-vous un thésaurus généraliste, un thésaurus spécialisé, si oui dans quel domaine ?
On peut espérer que le support de SKOS <http://www.w3.org/2004/02/skos/> se généralise pour encoder les thésaurus.
bonjour Patrick
et merci de votre réponse.
c'est pour un logiciel qui s'appelle e photo
http://www.ephoto.fr/ : on a accès de cette page à une version de démo où se trouve un exemple de thésaurus.
c'est un thésaurus qui ne se code pas en tant que tel.
Si la structure est bien hiérarchisée, ce thésaurus est intégré à partir de mots clés en cascade, si je puis dire.
les photos à indexer sont relatives à toute l'activité d'une structure (culture, événements, bâtiments ...) et le champ est très vaste, d'où la difficulté de trouver un (ou des) thésaurus qui pourrai(en)t s'approcher de ce que je dois produire.
ce que je peux trouver sont des thésaurus où seulement une branche s'apparente à ce que je cherche, comme le thésaurus des archives de France (branche CEREMONIE PUBLIQUE) :
http://portail.documentation.develo...
ou encore urbamet (branche LOGEMENT) :
http://portail.documentation.develo...
les thésaurus qui m'intéressent seraient spécialisés : culture, événementiel.
si je connais motbis, http://www.thesaurus.motbis.cndp.fr...
cela reste très généraliste.
pour une indexation précise qui évite l'excès de mots clés pour chaque document, je dois trouver des termes génériques bien ciblés. mon dilemme est réellement terminologique !
Bonjour Marlène,
L'éditeur d'ephoto doit dire s'il est possible de charger un thésaurus, et si oui depuis quel format. Je veux dire, propose-t-il cela comme une fonctionnalité ou un service. On dirait d'ailleurs qu'il s'agit là de vocabulaires contrôlés hiérarchisés plutôt que de véritables thésaurus.
Mais si les thésaurus qui vous intéressent ne vous satisfont pas, vous allez devoir construire votre vocabulaire contrôlé vous-même. Et la bonne question à se poser alors, je pense, est de savoir s'il est possible d'exporter ce vocabulaire, de récupérer ce travail facilement. On est là un peu dans la même situation que lorsque l'on indexe des photos (ou des documents quelconques): on doit toujours garder le contrôle de ses données et pouvoir changer de prestataire le cas échéant.
dans mon sens, le thésaurus fait partie des vocabulaires contrôlés hiérarchisés.
et pour l'intégration il n'y a pas de problème, on charge un thésaurus très simplement dans ce logiciel et là n'était pas ma question.
ce que j'aurais aimé trouver, c'est un thésaurus non pour le charger dans le logiciel, mais bien pour comparer mon travail avec un thésaurus similaire existant.
car là où j'ai des doutes c'est plutôt pour les termes génériques et spécifiques à utiliser.
ce que j'aimais dans votre article c'était l'observation des mots clés par rapport à la description, car tout comme vous le dites, l'indexation d'une ressource est délicate. pour éviter des mots clés qui veulent dire tout et n'importe quoi, il faut une bonne structure à la base.
et je voulais savoir si vous connaissiez sur le web des thésaurus divers et variés qui étaient en rapport avec la culture, l'événementiel.
Je n'avais pas vraiment compris votre question, désolé.
Les seuls exemples de thésaurus que j'ai pu observer (sans réellement les pratiquer - mon billet portait sur les résultats produits) en rapport avec la culture et l'événementiel ont été construits et sont utilisés par des agences. Et je ne crois pas qu'ils les diffusent facilement... Mais vous pourriez poser la question à Sylvie Dalbin qui vient de publier sur son blog Descripteurs un billet qui complète le mien.
bonjour,
oui c'est mon souci, ce sont des thésaurus "privés".
merci en tout cas !