Kategorier: Alle - données - outils - comportement

af LE BRAS Yves 10 år siden

264

Culturomics

L'utilisation du numérique révolutionne la manière dont nous accédons et analysons les données culturelles. Des outils comme myPeers permettent de suivre les publications de ses collègues chercheurs, tandis que des sites tels que Google Public Data et des initiatives comme OpenData Rennes facilitent l'

Culturomics

CulturomicsLe numérique et la culture

Boîtes à outils (autres corpus numériques)

le site https://www.google.com/publicdata/directory s'apparente à celui de l'INSEE, mais exploitant les données des requêtes soumises par les internautes. (p.205)
Analyse des textes des messages Twitter : http://www.sentiment140.com (p.203)
SurveyMonkey est un outil de design d'enquête
Le mouvement OpenData (p.193)
La ville de Rennes ouvre les données des transports publics à la population sous un format convivial sous l'impulsion du collectif OpenData Rennes (p.194)
Les USA et la Grande Bretagne pionniers
Des données locales mises à disposition du publique
myPeers Mac (http://codon gestes.com/ myPeers is a codingseed application that allows you to follow your peer researchers and get updated on their latest publications and new ideas!
"Les immenses bases de données aujourd'hui disponibles forment un outil précieux pour de nombreuses disciplines, et singulièrement pour la psychologie, qui doit sans cesse se demander si Ses trouvailles sont intemporelles ou liées à des conjonctures" (p.58)
"n-gram viewer"

Principes et lois

La loi de Benford (p.155) : La loi du 1er chiffre significatif dit qu'il y a 60% de chance de rencontrer dans un article de presse un chiffre supérieur à 3, alors que tout celà semble équiprobable ! Il existerait un phénomène de décroissance des probabilités en fonction du rang du chiffre.
ordonnancement
il existe des ensembles de mots ou d'expressions qui sont naturellement ordonnés pour nous : une question culturelle, d'enseignement (ex : a,e,i,o,u). (p.41)on dit par habitude "fromage" puis "dessert". D'ailleurs le mot fromage est fréquent et particulièrement plus dans les années 40, suite à la publication de décrets qui le font figurer dans de nombreux écrits. (p.45)
Effet de primauté
Quand on je évoque les fruits, la pomme ou la fraise sont l'idée qui vient immédiatement à l'esprit (p.47)
Nous retenons mieux le premier mot que le second, qui sera lui-même mieux retenu que le troisème (p.41)
Effet et biais de positivité (mis en lumière par l'analyse des ''n-grammes'')
Un biais de positivité dont la présence est très marquée dans les messages twitters (p.38)
Ce phénomène peut être invalidé en littérature parce que l'intérêt et la curiosité des lecteurs portera plus pour des sujets graves ou tristes (p.38)
"Il semble bien que notre vision du monde soit faussée par ce biais de postivité qui accorde plus d'importance à ce qui est bien qu'à ce qui est mal, à ce qui est positif qu'à ce qui est négatif" (p.33)
"En psychologie de la mémoire, on a montré que les événements heureux sont mieux mémorisés que les événements tristes" (p.32)
"une prédilection das notre vie sentimentale pour ce qui est positif, bon, heureux" (p.32)
Quelles sont les vertus de ces informationsnumériques (p.11-14) ?
"sans support massif de stockage et sans traitement algorithmique, rien de cela ne serait possible. cette nouvelle ère de l'information totale est l'un des effets de la loi de Moore" (p.12)
les algorithmes permettent de traiter les données : filtrage, indexation, recherche
Manipulable : copiable, transférable, indépendante du support physique, répartissable géographiquement pour plus de sécurité
Pas de dégradation progressive dans les processus de réplication via les algorithme de correction d'erreur
Autorise une croissance rapide de l'information (p.11)
"Loi de Moore" (p.7)
le Disque dur IBM-2310 de 1964 avec son méga-octet est 1 milion de fois plus petit comparé à un disque du standard de 1 TB, soit un facteur de 1 million en 40 ans.
Un CPU comme le Intel ICore 7 contient 1,7 milliards de transistor contre 2300 pour l'intel 4004 d'origine : un facteur de 508695, soit un coefficient multiplicateur de 1,96 tous les 2 ans.
énoncée en 1965, précisée en 1975Capacité de calcul, stockage et de traitement doublée tous les 18 mois.
"Depuis 40 ans, notre capacité de traitement de l.information numérique a été multipliée par un million." (p.7)

Pourquoi nous nous souvenons nous ?

Une information acratopège
Elle est alors unanimement admise et mémorisable
Une information sans propriété particulière (p.26)

Problématiques

Prédire les comportements humains (psychohistoire)
Gloutonnerie de Facebook, Twitter et de la firme Apple : "prédateurs de données" (p.197)
"... les données personnelles, une fois agrégées, donnent une image précieuse de la population et permettent des analyses sociologiques." (p.197)
"Selon le monde (12 Septembre 2011), une analyse rétrospective montre que la digestion des articles par l'ordinateur aurait permit de découvrir la cache de Ben Laden, à 200 kilomètres près" (p.191)
L'auteur de science fiction Isaac ASIMOV a imaginé une science baptisée psychohistoire qui par l'analyse des comportements humains, prédirait les événements historiques à venir (p.191)
Les mathématiques où en sommes-nous ?
A propos des maths modernes : les situations peu élogieuses des Ministres de l'Education incapables de résoudre des problèmes de l'ordre des proportions associé au calcul mental (p.112-113)
Passage d'une géométrie "à la Grecque", à une géométrie connectée à l'analyse ou à l'algèbre (p.108)
Ces mutations se retrouvent dans les livres publiés et l'emploi de mots clefs associés
Déclin de la géométrie et règle de l'analyse et des probabilités (p.105)
Google est-il crédible ?
Quel est le top "n" des expressions ou mots ou informations les plus recherchées sur Google ? Réponse sur http://www.google.fr/trends/
Le nombre d'occurences trouvées dans une requête n'est pas corroboré par la liste exacte des liens (p.89) La requête avec plusieurs mots encadrés de guillemets peut retourner plus de résultats que sans guillemets ! C'est logiquement faux, mais possible avec Google (p.89)
Mesurer la notoriété et valeur des indicateurs bibliométriques
Les classements proposés à partir des bases de données se heurte à de nombreux biais, dont il est essentiel d'être informé afin de ne pas prendre des vessies pour des lanternes (Couverture de fin).
L'avis de l'INRIA invite a la prudence face aux résultats annoncés, à l'usage abusif de ces indicateurs (p.83)
Etude de cas d'un fake nommé Ike Antkare qui a monté un exploit pour nuire à la réputation du H-index (p.82)
Etude de cas de Grigori Perelman, mathématicien qui malgré son exceptionnel travail sur la Conjecture de poincaré en 2003, reçoit un h-index de 0 (p.81)
Un article jamais cité est-il pour autant mauvais ou inutile ?(p.68). Voir aussi (p.70 et 71) pour une illustration complète.
il faut rester prudent sur les techniques d'évaluations automatisées qui jaugent les travaux et les universitaires qui en sont les auteurs. Les algorithmes utilisés témoignent d'un certain parti pris ! (p.63)
"Plus on parle de vous - même en mal -, plus votre notoriété augmente, et mieux se vendent les produits rattachés à votre nom" (p.61)
L'indicateur de Hirsch (H-index)
Le facteur d'impact d'un magazine : "le facteur d'impact d'un journal pour l'année n, est le nombre moyen de citations des articles publiés dans ce journal faites par des articles publiés dans les autres journaux (d'une liste constituée à priori), durant les 2 années qui suivent l'année n." (p.64)
Les vertus des corpus numériques
Un instrument au service de discipline comme la psycholinguistique où en s'intéressant à la notion de ''temps de dénomination'' on peut mesurer l'évolution du lien entre la fréquence d'usage d'un mot et sa familiarité. (p.30)
Numérisation des livres par Google
Naissance d'un outil innovant, le "n-gramme" viewer qui permet de dénombrer le nombre d'occurence d'une expression de "n mots consécutifs" dans l'ensemble des livres numérisés.
A l'origine du nouveau terme de CULTUROMIQUE !
A qui appartient le fond constitué ? Quels sont les privilèges des auteurs ?
Centralisation par une entreprise commerciale unique !

Observations générales

Vie et mort des mots
A propos de l'expression "ça déchire" : l'expression a été introduite dans les années 40, mais son sens à muté jusqu'à maintenant. Ces sens techniques sont sources d'erreur et d'égalités abusives (p.142-143)
Les mots vives et disparaissent faute d'utilisateurs. Les corpus de texte sur InterNET sont le reflet de ces mouvements de mots (p.132)
Comment s'opère la collecte des données ?
Les moteurs de recherche : analyse et interprétation des requêtes rédigées par les internautes
Science des graphes et des réseaux : Facebook, ...
Data mining : fouille de données produites par les activités des Internautes
Masse de données analogiques Vs numériques
Le croisement des volumes de données analogiques Vs Numérique a eu lieu dans la décennie 2000-2010. C'est déjà du passé, au profit de l'information numérique.
"(...) on évalue que son volume total est en 2012 de l'ordre de 10^21 octets, alors que l'information papier stagnerait autour de 10^20 octets. L'information papier augmente en effet de quelques pour-cent par an" (p.15) alors que l'information numérique suit la loi de Moore.
Naissance de notre Double Numérique
"(...) composé des traces que nous laissons sur Internet, mais aussi des différents fichiers que des entreprises, un peu partout dans le monde, possèdent sur nous" (p.13)
La technologie à produit de grands corpus de textes comportant plusieurs milliards de texte
"Les 40 milliards de photos détenues en 2012 par Facebook représentent à elles seules au moins 40 000 téraoctets, soit environ 10 000 fois plus que Wikipédia" (p.13)
L'encyclopédie Collaborative Wikipédia :- Plus d'1 million d'articles en Français en 2012- 30 fois plus que l'Encyclopédie Universalis- L'organisation du travail autorise des performances de sécurité des informations (contrôles croisés), de mise à jour rapides (inégalables avec les versions papier) (p.12)- Qualités ? Volume, Variété, Diffusion, Universalité, Précision des articles (p.12)
Google, en exploitant les bibliothèques de 40 universités, a numérisé près de 5 millions d'ouvrages (soit environ 4% des livres publiés depuis Gutemberg) (p.19) Le corpus réuni représente 500 milliards de mots, ou 5 To de données (p.19)
Projet de numérisation de livres par Google avec le support d'Universites américaines
Accroissement des capacités des bases de données et des puissances des calculateurs (p.7)
Emergence d'un double du monde réel