CulturomicsLe numérique et la culture

Observations générales

Accroissement des capacités des bases de données et des puissances des calculateurs (p.7)

Emergence d'un double du monde réel

La technologie à produit de grands corpus de textes comportant plusieurs milliards de texte

Projet de numérisation de livres par Google avec le support d'Universites américaines

Google, en exploitant les bibliothèques de 40 universités, a numérisé près de 5 millions d'ouvrages (soit environ 4% des livres publiés depuis Gutemberg) (p.19)
Le corpus réuni représente 500 milliards de mots, ou 5 To de données (p.19)

L'encyclopédie Collaborative Wikipédia :- Plus d'1 million d'articles en Français en 2012- 30 fois plus que l'Encyclopédie Universalis- L'organisation du travail autorise des performances de sécurité des informations (contrôles croisés), de mise à jour rapides (inégalables avec les versions papier) (p.12)- Qualités ? Volume, Variété, Diffusion, Universalité, Précision des articles (p.12)

"Les 40 milliards de photos détenues en 2012 par Facebook représentent à elles seules au moins 40 000 téraoctets, soit environ 10 000 fois plus que Wikipédia" (p.13)

Naissance de notre Double Numérique

"(...) composé des traces que nous laissons sur Internet, mais aussi des différents fichiers que des entreprises, un peu partout dans le monde, possèdent sur nous" (p.13)

Masse de données analogiques Vs numériques

"(...) on évalue que son volume total est en 2012 de l'ordre de 10^21 octets, alors que l'information papier stagnerait autour de 10^20 octets. L'information papier augmente en effet de quelques pour-cent par an" (p.15) alors que l'information numérique suit la loi de Moore.

Le croisement des volumes de données analogiques Vs Numérique a eu lieu dans la décennie 2000-2010. C'est déjà du passé, au profit de l'information numérique.

Comment s'opère la collecte des données ?

Data mining : fouille de données produites par les activités des Internautes

Science des graphes et des réseaux : Facebook, ...

Les moteurs de recherche : analyse et interprétation des requêtes rédigées par les internautes

Vie et mort des mots

Les mots vives et disparaissent faute d'utilisateurs. Les corpus de texte sur InterNET sont le reflet de ces mouvements de mots (p.132)

A propos de l'expression "ça déchire" : l'expression a été introduite dans les années 40, mais son sens à muté jusqu'à maintenant. Ces sens techniques sont sources d'erreur et d'égalités abusives (p.142-143)

Problématiques

Numérisation des livres par Google

Centralisation par une entreprise commerciale unique !

A qui appartient le fond constitué ? Quels sont les privilèges des auteurs ?

A l'origine du nouveau terme de CULTUROMIQUE !

Naissance d'un outil innovant, le "n-gramme" viewer qui permet de dénombrer le nombre d'occurence d'une expression
de "n mots consécutifs" dans l'ensemble des livres numérisés.

Les vertus des corpus numériques

Un instrument au service de discipline comme la psycholinguistique où en s'intéressant à la notion de ''temps de dénomination'' on peut mesurer l'évolution du lien entre la fréquence d'usage d'un mot et sa familiarité. (p.30)

Mesurer la notoriété et valeur
des indicateurs bibliométriques

Le facteur d'impact d'un magazine : "le facteur d'impact d'un journal pour l'année n, est le nombre moyen de citations des articles publiés dans ce journal faites par des articles publiés dans les autres journaux (d'une liste constituée à priori), durant les 2 années qui suivent l'année n." (p.64)

L'indicateur de Hirsch (H-index)

"Plus on parle de vous - même en mal -, plus votre notoriété augmente, et mieux se vendent les produits rattachés à votre nom" (p.61)

il faut rester prudent sur les techniques d'évaluations automatisées qui jaugent les travaux et les universitaires qui en sont les auteurs. Les algorithmes utilisés témoignent d'un certain parti pris ! (p.63)

Un article jamais cité est-il pour autant mauvais ou inutile ?(p.68). Voir aussi (p.70 et 71) pour une illustration complète.

Etude de cas de Grigori Perelman, mathématicien qui malgré son exceptionnel travail sur la Conjecture de poincaré en 2003, reçoit un h-index de 0 (p.81)

Etude de cas d'un fake nommé Ike Antkare qui a monté un exploit pour nuire à la réputation du H-index (p.82)

L'avis de l'INRIA invite a la prudence face aux résultats annoncés, à l'usage abusif de ces indicateurs (p.83)

Les classements proposés à partir des bases de données se heurte à de nombreux biais, dont il est essentiel d'être informé afin de ne pas prendre des vessies pour des lanternes (Couverture de fin).

Google est-il crédible ?

Le nombre d'occurences trouvées dans une requête n'est pas corroboré par la liste exacte des liens (p.89)
La requête avec plusieurs mots encadrés de guillemets peut retourner plus de résultats que sans guillemets ! C'est logiquement faux, mais possible avec Google (p.89)

Quel est le top "n" des expressions ou mots ou informations les plus recherchées sur Google ? Réponse sur http://www.google.fr/trends/

Les mathématiques où en sommes-nous ?

Déclin de la géométrie et règle de l'analyse et des probabilités (p.105)

Ces mutations se retrouvent dans les livres publiés et l'emploi de mots clefs associés

Passage d'une géométrie "à la Grecque", à une géométrie connectée à l'analyse ou à l'algèbre (p.108)

A propos des maths modernes : les situations peu élogieuses des Ministres de l'Education incapables de résoudre des problèmes de l'ordre des proportions associé au calcul mental (p.112-113)

Prédire les comportements humains (psychohistoire)

L'auteur de science fiction Isaac ASIMOV a imaginé une science baptisée psychohistoire qui par l'analyse des comportements humains, prédirait les événements historiques à venir (p.191)

"Selon le monde (12 Septembre 2011), une analyse rétrospective montre que la digestion des articles par l'ordinateur aurait permit de découvrir la cache de Ben Laden, à 200 kilomètres près" (p.191)

"... les données personnelles, une fois agrégées, donnent une image précieuse de la population et permettent des analyses sociologiques." (p.197)

Gloutonnerie de Facebook, Twitter et de la firme Apple : "prédateurs de données" (p.197)

Pourquoi nous nous souvenons nous ?

Une information acratopège

Une information sans propriété particulière (p.26)

Elle est alors unanimement admise et mémorisable

Principes et lois

"Loi de Moore" (p.7)

"Depuis 40 ans, notre capacité de traitement de l.information numérique a été multipliée par un million." (p.7)

énoncée en 1965, précisée en 1975Capacité de calcul, stockage et de traitement doublée tous les 18 mois.

Un CPU comme le Intel ICore 7 contient 1,7 milliards de transistor contre 2300 pour l'intel 4004 d'origine : un facteur de 508695, soit un coefficient multiplicateur de 1,96 tous les 2 ans.

le Disque dur IBM-2310 de 1964 avec son méga-octet est 1 milion de fois plus petit comparé à un disque du standard de 1 TB, soit un facteur de 1 million en 40 ans.

Quelles sont les vertus de ces informationsnumériques (p.11-14) ?

Autorise une croissance rapide de l'information (p.11)

Pas de dégradation progressive dans les processus de réplication via les algorithme de correction d'erreur

Manipulable : copiable, transférable, indépendante du support physique, répartissable géographiquement pour plus de sécurité

les algorithmes permettent de traiter les données : filtrage, indexation, recherche

"sans support massif de stockage et sans traitement algorithmique, rien de cela ne serait possible. cette nouvelle ère de l'information totale est l'un des effets de la loi de Moore" (p.12)

Effet et biais de positivité (mis en lumière
par l'analyse des ''n-grammes'')

"une prédilection das notre vie sentimentale pour ce qui est positif, bon, heureux" (p.32)

"En psychologie de la mémoire, on a montré que les événements heureux sont mieux mémorisés que les événements tristes" (p.32)

"Il semble bien que notre vision du monde soit faussée par ce biais de postivité qui accorde plus d'importance à ce qui est bien qu'à ce qui est mal, à ce qui est positif qu'à ce qui est négatif" (p.33)

Ce phénomène peut être invalidé en littérature parce que l'intérêt et la curiosité des lecteurs portera plus pour des sujets graves ou tristes (p.38)

Un biais de positivité dont la présence est très marquée dans les messages twitters (p.38)

Effet de primauté

Nous retenons mieux le premier mot que le second, qui sera lui-même mieux retenu que le troisème (p.41)

Quand on je évoque les fruits, la pomme ou la fraise sont l'idée qui vient immédiatement à l'esprit (p.47)

ordonnancement

il existe des ensembles de mots ou d'expressions qui sont naturellement ordonnés pour nous : une question culturelle, d'enseignement (ex : a,e,i,o,u). (p.41)on dit par habitude "fromage" puis "dessert". D'ailleurs le mot fromage est fréquent et particulièrement plus dans les années 40, suite à la publication de décrets qui le font figurer dans de nombreux écrits. (p.45)

La loi de Benford (p.155) : La loi du 1er chiffre significatif dit qu'il y a 60% de chance de rencontrer dans un article de presse un chiffre supérieur à 3, alors que tout celà semble équiprobable ! Il existerait un phénomène de décroissance des probabilités en fonction du rang du chiffre.

Boîtes à outils 
(autres corpus numériques)

"n-gram viewer"

"Les immenses bases de données aujourd'hui disponibles forment un outil précieux pour de nombreuses disciplines, et singulièrement pour la psychologie, qui doit sans cesse se demander si Ses trouvailles sont intemporelles ou liées à des conjonctures" (p.58)


myPeers Mac (http://codon gestes.com/

myPeers is a codingseed application that allows you to follow your peer researchers and get updated on their latest publications and new ideas!

Le mouvement OpenData (p.193)

Des données locales mises à disposition du publique

Les USA et la Grande Bretagne pionniers

La ville de Rennes ouvre les données des transports publics à la population sous un format convivial sous l'impulsion du collectif OpenData Rennes (p.194)

SurveyMonkey est un outil de design d'enquête

Analyse des textes des messages Twitter : http://www.sentiment140.com (p.203)

le site https://www.google.com/publicdata/directory s'apparente à celui de l'INSEE, mais exploitant les données des requêtes soumises par les internautes. (p.205)