Une typologie du crowdsourcing appliqué aux images
Par Patrick Peccatte le dimanche 15 novembre 2009, 11:34 - documentation - Lien permanent
Plusieurs applications actives sur le web proposent un espace d'expression sur les images et sollicitent la participation des utilisateurs. L'écriture de tags non contrôlés et de commentaires libres sur des photos constitue l'activité de crowdsourcing la plus connue. Mais il en existe d'autres. Ce billet propose une typologie de ces initiatives collaboratives diverses. J'ai retenu ici 6 catégories caractéristiques : constitution de corpus, relevé d'erreurs dans les descriptions, identification visuelle, indexation libre, indexation contrôlée, redocumentarisation. La suite de ce billet explique et illustre chacune de ces catégories.
Cette typologie ne constitue qu'une proposition et elle est évidemment provisoire. D'autres critères sont également importants et doivent être pris en compte. On peut ainsi distinguer les projets ouverts à tous et les projets qui sont destinés uniquement à un public de professionnels, les initiatives institutionnelles et celles qui sont portées par un collectif indépendant, l'utilisation d'une plate-forme grand public ou d'un développement spécifique, l'usage ou non de technologies Web 2.0, le recours ou non aux standards de métadonnées, etc. Les projets qui illustrent cette typologie sont ceux qui me semblent les plus représentatifs. Si vous en connaissez d'autres, n'hésitez pas à m'en informer en laissant un commentaire.
Une dernière précision : j'ai retenu pour chaque projet sa caractéristique principale; il est donc mentionné dans une seule catégorie. Mais si l'on entre dans le détail des projets, certains pourraient appartenir à plusieurs catégories. Ainsi, lors de la constitution d'un corpus de photos, celles-ci sont la plupart du temps également taggées ou décrites succinctement.
Je remercie Nathalie Casemajor Loustau, Jean-Pierre Dalbéra, Anne Reydellet, Claire Scopsi, Yannick Vernet, le collectif du blog Indicommons pour leurs informations.
1. Constitution de corpus
L'objectif principal est de
collecter des images sur une thématique ou un sujet précis. Les images sont en
général accompagnées de tags et/ou de légendes minimales.
Certains projets de ce ce type sont assez anciens et ne sont donc pas "Web 2.0". Exemples :
Agadir 1960, un site documentant le tremblement de terre d'Agadir en 1960, existe depuis depuis mai 1999.
Celui-ci collecte les photos de régiments de la période 1914-1918.
ES'MAA retrace l'histoire d'Alger-Centre dans les années 50-60.L'apparition de plate-formes de partage telles que Flickr a bien sûr multiplié ces initiatives. Mentionnons le groupe Flickr Une Experience Historique : Berlin 1961-1989 et le projet Ushahidi qui se définit comme une initiative de crowdsourcing sur les situations de crise.
2. Relevé d'erreurs dans les descriptions d'images qui appartiennent à un corpus déjà documenté par des professionnels
Depuis décembre 2008, les Archives fédérales d'Allemagne (Bundesarchiv) ont déposé en donation sur Wikimedia Commons 100 000 photographies d'archives sous licence Commons. Une page du wiki est ouverte pour collecter les erreurs relevées dans les légendes par les utilisateurs des images.
3. Identification visuelle de personnes, de lieux, d'objets
"Un visage, un nom", projet de Bibliothèque et Archives Canada, à Ottawa.
Le projet remonte à 2001, la numérisation commence en 2005. Il vise à trouver le nom des Inuits représentés dans certaines collections photographiques car un grand nombre de ces portraits ne mentionne pas l’identité de la personne photographiée, ou présentent des erreurs dans l’orthographe des noms. Ce projet aide les jeunes du Nunavut à établir des liens avec leurs aînés et à mieux comprendre leur passé.La bibliothèque du DEFAP (Département Évangélique Français Apostolique) est un centre de documentation sur l’histoire de la mission protestante dans le monde, de 1822 à nos jours. Elle a lancé en 2009 un projet pour aider à reconnaître des personnes, des lieux, des événements qui figurent sur des photos en ligne.
Le groupe Flickr What's that picture? collecte les photos anciennes dans l'espoir qu'un visiteur puisse aider à identifier un lieu, un personnage ou un objet. Et si vous avez ainsi résolu un "mystère" à l'aide de commentaires laissés par des utilisateurs de Flickr, vous pouvez poster votre photo sur le groupe The Astonishing Power of Flickr.
Le site PicAnswers permet de poster une photo afin d'obtenir des informations sur l'objet, l'événement, la personne, l'animal, etc., représenté.
Le site ikweetwatditis.nl (I Know What This is!), réalisé grâce à la collaboration de quatre musées et trois instituts de recherche néerlandais, est décrit ici.
Le projet Clickworkers de la NASA permet au public d'aider à identifier et cataloguer les cratères de Mars sur des photos prises lors des missions Viking Orbiter. Ce projet est assez ancien (il remonte à 2000) et semble actuellement inactif.
Mentionnons enfin dans cette catégorie "identification" deux projets de géolocalisation d'images : Mapit1418, collaboration de plusieurs institutions néerlandaises permettant au public de géolocaliser des photos de la Première Guerre Mondiale et Suggestify; tous deux sont des applications mashup de Flickr et OpenStreetMap.
4. Indexation libre – ajout de tags non contrôlés et de commentaires
par les utilisateurs
L'indexation est sollicitée pour aider à la recherche; elle complète
l'indexation réalisée par des professionnels sans se substituer à celle-ci.
Cette catégorie est fonctionnellement proche de la précédente, mais
l'indexation libre n'y est pas spécifiquement orientée vers
l'identification.
Plusieurs institutions muséales ont développé ce type de pratique, parmi lesquelles le Steve Museum (description ici), la Tate Gallery avec son projet Write your own label, le Brooklyn Museum, le Musée MacCord, Library and Archives Canada / Bibliothèque et Archives Canada (depuis juillet 2008), ArtsConnectEd (Minneapolis Institute of Arts and the Walker Art Center), les Archives départementales des Yvelines.
Ces applications permettent de commenter, tagger et parfois évaluer les différentes ressources proposées.Les différents projets du collectif Utata qui associent l'écriture et la photographie.
Enfin l'initiative la plus connue, The Commons, partenariat d'institutions culturelles avec Flickr lancé en janvier 2008 par la Library of Congress. The Commons regroupe actuellement 30 institutions dont la liste est ici.
La Library of Congress a publié en décembre 2008 un premier bilan résumé ici. Consulter aussi A Commons Bibliography.
5. Indexation contrôlée – ajout de tags contrôlés et proposition
d'éléments de catalogage
Les informations recueillies visent à constituer des descriptions des images
selon des standards en vigueur dans une discipline.
La Bibliothèque de l'Université du Michigan (Ann Arbor) lance un projet d'aide à l'identification et au catalogage d'un fonds de manuscrits islamiques.
AccessCeramics, lancé au printemps 2009, est une collection de photos de céramiques contemporaines conçue pour être utilisée par des artistes, des enseignants, des chercheurs et le grand public. Les photos et les métadonnées sont stockées sur la plate-forme de partage Flickr accessible à la fois depuis le site et par l'interface de Flickr. Les soumissions de photos sont validées par un conseil de curateurs. Le processus d'indexation des images est effectué à travers l'interface de catalogage du site et non sur Flickr. Description plus complète dans ce billet.
Astrometry est un groupe Flickr créé en juillet 2007 - un programme automatique scrute le groupe et identifie les photos astronomiques d'après les positions des étoiles et planètes environnantes sur les clichés (lire l'article Found in Space). Le catalogage et la description des objets astronomiques peuvent être complétés par les participants au projet.
TILE (Text-Image Linking Environment) est un projet commun au Maryland Institute for Technology in the Humanities, le Digital Humanities Observatory et l'Indiana University Bloomington. L'objectif est de développer un outil web modulaire manuel et semi-automatique pour lier le texte, l’image et l’annotation de l’image.
6. Redocumentarisation
Il s'agit non seulement d'enrichir les images de métadonnées nouvelles mais
aussi de les relier entre elles et avec d'autres contenus (documents textuels,
autres images fixes ou animées) disponibles sur le web ou éventuellement sur
d'autres supports. À la différence des catégories décrites précédemment, la
redocumentarisation ne
vise pas à compléter une indexation préalable par l'apport des usagers, mais à
effectuer intégralement et collectivement un travail de documentation des
images qui sont conçues d'emblée comme des éléments du Web. Exemple : le
projet PhotosNormandie, lancé en
janvier 2007 (décrit
ici, présentations ici
ou là).
Commentaires
Une question que je me suis posée à la lecture de votre billet est la suivante : les catégories "relevé d'erreurs dans les descriptions, identification visuelle, indexation libre et indexation" ne pourraient-elles pas être qualifiées de "redocumentarisation" (au sens d'enrichissement ou de réorganisation des informations documentaires) ? Ne faudrait-il pas trouver un autre titre pour cette dernière catégorie (ex: mise en réseau) ?
La notion de redocumentarisation est récente et comme vous le mentionnez par ailleurs il n'y a pas encore de véritable consensus sur sa définition. Pour ma part, l'utilisation que j'en fait est aussi tirée de la définition de JM Saläun que vous citez dans un autre billet (http://blog.tuquoque.com/post/2008/...).
La documentarisation serait la construction d'un cadre de représentation documentaire de l'objet (classement dans un fonds, inventaire, catalogage, etc.) qui détermine un mode d'accès à l'objet (possibilité de trouver un objet par l'interrogation d'une base de données par exemple) et un mode de compréhension du sens de l'objet par sa mise en contexte (ex: indication de la date de prise de vue d'une photo, d'un évènement historique lié, du fait qu'un phototype appartienne à une série, etc.). JM Salaün le résume bien : "L'objectif de la documentarisation est d'optimiser l'usage du document en permettant un meilleur accès à son contenu et une meilleure mise en contexte" (on pourrait aussi parler de mise en valeur, de valorisation documentaire).
La re-documentarisation serait donc l'entrée du document dans un nouveau cycle de documentarisation apportant des complétements d'information et ajouter une "strate" documentaire aux strates déjà existantes. De ce point de vue, la redocumentarisation n'est pas une activité nouvelle et propre à l'environnement numérique, puisque la documentarisation est un processus continue et cyclique qui fonctionne par ajout successif de nouvelles strates d'information en fonction de l'intérêt et des connaissances propres à "l'espace/temps" dans lequel l'objet est considéré.
On peut tracer ici un parallèle avec la définition que M. Foucault donne de l'archive, (un dispositif mémoriel et discursif, constamment travaillé par des logiques de reconfiguration historique). Dans son ouvrage sur la trivialité (la circulation de la culture), Y. Jeanneret s’inspire de la définition foucaldienne pour penser les modalités de construction de l’archive :
"Il ne s’agit pas d’une collection statique d’objets qu’on déposerait pour qu’ils soient inchangés, mais du processus par lequel tout ce qui a été produit dans la culture est perpétuellement repris et transformé : ceci, selon des procédures et des contraintes déterminées, à la fois tributaire du passé et susceptible de les remodeler" (2008 : 58).
Toutefois, l'environnement numérique transforme les outils et les conditions de la redocumentarisation. Une question que je me suis posée dans ma thèse est : qu'est-ce que le Web apporte de nouveau dans les pratiques de valorisation des fonds photographiques (patrimoniaux) ? Il m'a semblé que la nouveauté est liée en particulier au trois points suivants :
- l'hypertexte qui met en œuvre une navigation non-linéaire et non-hiérarchique parmi les documents. L’activation des liens entre les contenus du Web permet de mettre en relation des informations et de créer des circuits de références dans une arborescence de renvois ;
- la possibilité de mettre en réseau des objets issus de corpus différents (par exemple réactiver des liens rompus entre des objets sur supports divers tirés de collections différentes, comme vous le faites dans PhotosNormandie) et de créer des liens entre artefacts numérisés et des sources de connaissance qui enrichissent leur contexte d'interprétation (soit en aggrégeant ces données dans une plate-forme, soit en créant des passerrelles entre plate-formes à l'aide d'hyperliens) ;
- une ouverture à la contribution des usagers dans le processus de (re)documentarisation (avec plus ou moins de succès).
J'utilise parfois le terme de "remédiation", moins centré sur une perspective information-documentation, mais dont la définition n'est pas pour autant plus précise que celle de "redocumentarisation". On trouve aussi le terme de "transmédiation" (traduit de l'anglais) pour caractériser un processus de transfert médiatique qui produit des effets de sens, chaque médium portant en lui les conditions d’un système de significations qui lui est propre.
Merci Nathalie pour ces intéressantes pistes de réflexion.
Le rappel concernant l'archive selon Foucault me semble en particulier très opportun.
Concernant le terme de "redocumentarisation", j'ai observé par ailleurs qu'il ne satisfait guère les personnes venant d'autres horizons que les SIC. Je le trouve moi aussi assez lourd, mais je l'ai conservé faute de mieux pour la dernière "catégorie" proposée dans mon billet.
Il s'agit en fait d'une interprétation libre des définitions qu'en donne(nt) Jean-Michel Salaün/Roger dont j'ai retenu surtout le point suivant : "bien des unités documentaires du Web ne ressemblent plus que de très loin aux documents traditionnels."
Ce que nous essayons de réaliser sur PhotosNormandie est je crois dans cette
ligne et nécessite comme je le dis de penser d'emblée les documents (en
l'occurence les photos) comme "plongées" dans le Web et non plus seulement
comme le média classique bien connu (négatifs, puis tirages papiers, puis
fiches documentaires, etc.).
Un exemple: nous sommes en ce moment à la recherche de séquences filmées qui correspondent à certaines images de notre corpus. C'est une tâche assez
aléatoire car il n'existe pas de véritables sources en ligne, et du point de vue documentaire, c'est une horreur. Nous en avons trouvé néanmoins plus
d'une centaine, et nous espérons bien en découvrir d'autres (il doit en exister beaucoup plus car les photographes et cinéastes du Signal Corps américain travaillaient presque toujours en binôme lors de la Seconde Guerre Mondiale).
Or ce lien entre le corpus d'images fixes et celui d'images animées semble avoir été négligé ou même rompu. On peut formuler deux hypothèses principales pour comprendre cela : la pratique archivistique de l'immédiat après-guerre traitait séparément les deux médias, et les contraintes techniques des supports de restitution
respectifs étaient totalement différents (papier pour les images fixes, écran pour les images animées). Mais avec le Web, nous ne sommes plus soumis à ces contraites et
pour moi, ce genre de redocumentarisation va au delà de l'enrichissement par les visiteurs de métadonnées déjà présentes préalablement. Ces photos deviennent alors, je crois, un autre média, un fragment du web en perpétuelle recomposition. Cela dit, je suis tout à fait prêt à troquer ce terme pour un autre, et pourquoi pas "transmédiation".
Bonjour,
Dans la 1ère catégorie : Constitution de corpus.
Une partie des sites réalisés grâce à la plate-forme d’édition (collections based web-based publishing platform, ouf) Omeka (http://omeka.org/showcase) développée par le Center for History and New Media.
Collecte d’images, d’histoires, de sons…
- Hurricane Digital Memory Bank (http://hurricanearchive.org/)
- Catawba River Docs (http://www.catawbariverdocs.com)
- Journey Stories (http://journeystories.org/)
- University of Minnesota Memorial Stadium: 1924-1992 (http://brickhouse.lib.umn.edu)
Merci Fabrice, je ne connaissais pas ces projets.
Je viens aussi d'apprendre que le projet de crowdsourcing "Clickworkers" de la NASA renaît sous le nom "Be a Martian":
http://www.telerama.fr/techno/deven...
Très intéressant Devenez martien, notamment le type de tâches à effectuer pour l’utilisateur. On ne tagge pas, on n’upload pas un document mais on « puzzle » et compte.
Plus classique et à une plus petite échelle (moins foule et plus chercheurs aussi) : les « Polar Bear Expedition Digital Collections » autour de l’enrichissement des instrument de recherche archivistique EAD par les utilisateurs du site.
http://polarbears.si.umich.edu/