Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

Tag - crowdsourcing

Fil des billets - Fil des commentaires

dimanche 15 novembre 2009

Une typologie du crowdsourcing appliqué aux images

Plusieurs applications actives sur le web proposent un espace d'expression sur les images et sollicitent la participation des utilisateurs. L'écriture de tags non contrôlés et de commentaires libres sur des photos constitue l'activité de crowdsourcing la plus connue. Mais il en existe d'autres. Ce billet propose une typologie de ces initiatives collaboratives diverses. J'ai retenu ici 6 catégories caractéristiques : constitution de corpus, relevé d'erreurs dans les descriptions, identification visuelle, indexation libre, indexation contrôlée, redocumentarisation. La suite de ce billet explique et illustre chacune de ces catégories.

Cette typologie ne constitue qu'une proposition et elle est évidemment provisoire. D'autres critères sont également importants et doivent être pris en compte. On peut ainsi distinguer les projets ouverts à tous et les projets qui sont destinés uniquement à un public de professionnels, les initiatives institutionnelles et celles qui sont portées par un collectif indépendant, l'utilisation d'une plate-forme grand public ou d'un développement spécifique, l'usage ou non de technologies Web 2.0, le recours ou non aux standards de métadonnées, etc. Les projets qui illustrent cette typologie sont ceux qui me semblent les plus représentatifs. Si vous en connaissez d'autres, n'hésitez pas à m'en informer en laissant un commentaire.

Une dernière précision : j'ai retenu pour chaque projet sa caractéristique principale; il est donc mentionné dans une seule catégorie. Mais si l'on entre dans le détail des projets, certains pourraient appartenir à plusieurs catégories. Ainsi, lors de la constitution d'un corpus de photos, celles-ci sont la plupart du temps également taggées ou décrites succinctement.

Je remercie Nathalie Casemajor Loustau, Jean-Pierre Dalbéra, Anne Reydellet, Claire Scopsi, Yannick Vernet, le collectif du blog Indicommons pour leurs informations.

Lire la suite...

lundi 2 novembre 2009

Contenu généré par les utilisateurs : quelle légitimité ?

Un bref billet paru dans la revue Archimag n° 227, septembre 2009 :

« La question de la légitimité et de la validité des contenus générés par les utilisateurs est bien connue dans les cas de Wikipédia et du journalisme citoyen, mais ne se pose pas dans les mêmes termes lorsque le crowdsourcing est d’envergure bien moindre, le sujet spécialisé et les méthodes différentes. PhotosNormandie est un projet collaboratif actif depuis janvier 2007. Il a pour but d’améliorer la description documentaire de photos historiques sur la bataille de Normandie en utilisant les possibilités de Flickr. Les participants réguliers connaissent tous fort bien le sujet et possèdent de nombreux ouvrages et revues de référence. Ils ont aussi une bonne connaissance locale et familiale de ces événements. Ce sont des amateurs passionnés qui ont développé des compétences pointues. Ce noyau de participants fonctionne comme un comité éditorial informel qui valide les informations proposées. Les critères sont simples. Si une information provient d’une source publiée, on doit la citer. Dans le cas contraire, il est nécessaire de produire des éléments visuels – observation de la photo, autres photos similaires, films, plans, cartes – ou bien d’autres arguments qui proviennent de témoignages directs ou indirects. Enfin, les informations plausibles doivent être explicitement mentionnées comme des hypothèses. 

Le travail collectif effectué tient sa légitimité de la qualité et de la vérifiabilité des résultats obtenus. Il est très facile du reste de comparer les légendes produites avec celles qui figurent sur le site d’origine, qui renferme de nombreuses erreurs. Ce projet, comme tout travail de redocumentarisation, est un work in progress. Il est conduit par des amateurs compétents, organisés collectivement, et qui sont plus soucieux de produire des contenus de qualité que de gloser indéfiniment sur leur légitimité. Les légendes de PhotosNormandie sont d’ailleurs reprises dans certains ouvrages spécialisés. »

Voir aussi le billet plus développé Sur la légitimité des contenus générés par les utilisateurs.

samedi 1 août 2009

Connaissez-vous Phineas Gage ?

Deux collectionneurs de photos, Jack et Beverly Wilgus, ont acquis il y a plus de trente ans un daguerréotype curieux.


Photograph by Jack and Beverly Wilgus - Meet Phineas Gage

Ils ont publié certaines images de leur collection sur Flickr sous le nom d'utilisateur photo_history, et en décembre 2007 ils ont téléchargé cette image sous le titre Daguerreotype - One Eyed Man with Harpoon. Ils pensaient alors que l'homme sur l'image tenait un morceau de harpon et ils ont sollicité l'aide des membres d'un groupe Flickr sur la chasse à la baleine. Mais laissons leur la parole :

Une discussion s'est engagée avec les membres du groupe sur la chasse à la baleine à propos de l'identification de l'objet que tient l'homme. Il a été établi qu'il était peu probable que ce soit harpon. Mais de quoi s'agissait-il ?
En décembre 2008, un message nous a fait prendre une nouvelle direction. Un membre de Flickr [Michael Spurlock] a posté le commentaire suivant : « peut-être avez-vous trouvé une photo de Phineas Gage ? Si tel est le cas, ce serait la seule photo connue ». Une recherche rapide sur Google nous a résumé l'étrange vie de Gage et nous avons alors été captivés. 

D'après Wikipedia en effet :

Phineas P. Gage (1823 – 21 mai 1860) est un contremaître des chemins de fer qui a subi un traumatisme crânien majeur auquel il a survécu ; il est devenu un cas d'école en neurologie. Le 13 septembre 1848, Phineas Gage travaille dans la périphérie de Cavendish dans le Vermont aux USA à la construction d'une ligne de chemin de fer. Suite à une explosion, une barre de fer lui traverse accidentellement le crâne, provoquant des dommages aux lobes frontaux de son cerveau .../... En 1994, les neuro-anatomistes Antonio et Hanna Damasio reconstituent par ordinateur ce qui doit être la trajectoire de la barre.
[sur l'histoire et le cas de Gage, lire The incredible case of Phineas Gage, by Mo]

Jack et Beverly Wilgus poursuivent :

Au cours des six derniers mois, nous avons lu, étudié, effectué des voyages et pris des contacts que nous n'avions jamais imaginé. Au Warren Anatomical Museum de la Harvard Medical School à Boston, nous avons vu un masque de Gage réalisé de son vivant, ainsi que son crâne et la barre de fer de son accident. Nous avons été à Cavendish dans le Vermont, le lieu du tragique accident de Gage. Nous avons correspondu et collaboré avec les plus grandes autorités mondiales sur le cas de Gage. Et plus surprenant encore, nous avons écrit un article qui sera publié dans le Journal of the History of the Neurosciences en août 2009. Nous avons également créé un site Web intitulé Meet Phineas Gage.

L'identification a été confirmée grâce au masque du Warren Anatomical Museum dont les traits et les cicatrices correspondent à l'image de l'homme sur le daguerréotype, ainsi que par les écritures qui figurent sur la barre de l'image et qui sont identiques à celles de la barre également conservée dans ce musée.

Selon les Wilgus, cette découverte représente la convergence de deux technologies à la mode chacune à leur époque : le daguerréotype au milieu du 19ème siècle et Internet au début du 21ème siècle. Elle montre l'un des intérêts de la publication sur une plate-forme de partage des images d'archives, des collections privées ou des institutions muséales. Comme le dit Kate Theimer sur le blog ArchivesNext : « toutes les images d'archives ainsi exposées n'obtiendront pas de résultats aussi spectaculaires que celle des Wilgus, mais si vous ne partagez pas vos images, vous avez peu de chance d'effectuer une identification comme celle-ci ».

Les identifications de personnages ou de localisations, pour être parfois spectaculaires, ne constituent qu'une partie de l'intérêt du crowdsourcing dans le domaine de l'image. Les différentes institutions qui participent au projet The Commons en fournissent d'autres exemples, ainsi l'identification d'un sanatorium en Norvège sur une photo datant de 1890, ou celle d'une scientifique britanique sur une photo du Smithsonian. Le groupe Flickr What's that picture? collecte d'ailleurs les photos anciennes dans l'espoir qu'un visiteur puisse aider à identifier un lieu, un personnage ou un objet. Et si vous avez ainsi résolu un "mystère" à l'aide de commentaires laissés par des utilisateurs de Flickr, vous pouvez poster votre photo sur le groupe The Astonishing Power of Flickr.

Pour aller au delà et effectuer un véritable travail de redocumentarisation, il est nécessaire de mettre en place un groupe solide d'intervenants réguliers et compétents sur un sujet précis. C'est ainsi que la bibliothèque de l'Université du Michigan va mettre en ligne son fonds de manuscrits islamiques et les présentera au public sur un wiki ou sur un blog pour aider à les identifier et à les cataloguer.

Références

mardi 30 juin 2009

Sur la légitimité des contenus générés par les utilisateurs

[Première version le 30 juin 2009, dernière modification le 2 juillet 2009]

Le Web 2.0 est contributif. Les contenus générés par les utilisateurs constituent l'une de ses caractéristiques fondamentales. Dès leur apparition, on s'est interrogé sur la légitimité et la validité de ces contenus issus du crowdsourcing ainsi que sur l'absence d'autorités de référence lors de leur production. Ces interrogations qui prennent souvent la forme de critiques sont bien connues dans le cas des entreprises emblématiques comme Wikipedia - comparé aux encyclopédies classiques - ou encore pour le journalisme citoyen tel qu'il s'exprime notamment à travers les blogs politiques et d'actualités ou les services de micro-blogging comme Twitter. Ces questions méritent également d'être abordées en ce qui concerne des projets collaboratifs d'envergure et d'audience bien moindres mais dont les méthodes et les enjeux sont d'une toute autre nature. Ce billet décrit en détail le processus de validation qui s'est naturellement mis en place dans le cadre du projet PhotosNormandie et examine en conséquence la question de la légitimité des contenus générés par les utilisateurs dans ce travail.

Lire la suite...

samedi 27 juin 2009

Les limites du crowdsourcing [signalement]

Larry Cebula, professeur d'histoire à l'Eastern Washington University, vient de publier un intéressant billet sur son blog :

"Lick This": LOC, Flickr, and the Limits of Crowd Sourcing

Il constate qu'une grande partie des contenus générés par les utilisateurs (notes, commentaires, tags, envois dans un groupe) sur une photographie proposée par la Library of Congress dans le cadre du projet The Commons sont sans intérêt. La plupart des notes par exemple sont anodines ou constituent des plaisanteries ; aucune n'apporte d'information historique. Le "bruit" est également très présent dans les commentaires et les tags ajoutés. Au final, Larry regrette que les rares informations valables générées par les utilisateurs soient noyées dans une masse de textes inintéressants et que l'extraction de ces pépites demande beaucoup de temps.

Dans la discussion à propos de ce billet, j'ai suggéré que ce phénomène est probablement lié à la popularité de la Library of Congress ; sur notre projet PhotosNormandie en tout cas, nous n'observons pas du tout ce genre de comportement de la part des utilisateurs et presque tous les commentaires proposés présentent un intérêt direct ou indirect avec les photos commentées.

Le billet est relayé sur le groupe Flickr Commons où la discussion qu'il provoque est très intéressante.