Big data à l'âge Petabyte - Norbert Deleutre - E-Book

Big data à l'âge Petabyte E-Book

Norbert Deleutre

0,0

Beschreibung

Les Nouvelles Technologies de l'Information et de la Communication (NTIC) sont intégrées à nos activités quotidiennes. En particulier, la prolifération des médias sociaux favorise une culture du bavardage, et une obsession à l'audienciation de soi. De sorte que, l'individu produit de plus en plus de données personnelles, intimes, sociales, ou sensibles. Dans ce contexte, les dispositifs de traitement de données " big data " présentent des enjeux importants pour le citoyen. Car en utilisant nos données intimes, ces technologies, dites " nouvelles ", s'exposent aux difficultés associées à leurs utilisations : le respect de la vie privée et des libertés fondamentales de " l'Homo numericus ". C'est l'objectif de ce travail de recherche, pour lequel notre questionnement a été suscité par la rhétorique des discours et la circulation triviale des imaginaires associées au « big data ». Pour répondre à la problématique, nous effectuons une analyse critique et distanciée à l'aide d'une méthodologie pluridisciplinaire : étymologique, sémiotique, rhétorique, mathématique, historique, juridique, sociologique, et communicationnelle. L'intérêt de cet ouvrage est multiple - d'un point de vue sociétal, il dévoile une réalité au citoyen et fournit des préconisations en matière de protection des données personnelles - d'un point de vue théorique, il rassemble les bases théoriques et la méthodologie pour analyser l'arrivée d'une NTIC, autant sur le plan appliqué que communicationnelle - d'un point de vue professionnel, il propose une réflexion et des recommandations sur les enjeux du « big data » pour les concepteurs et utilisateurs de NTIC.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 200

Veröffentlichungsjahr: 2021

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Pour mon fils Louis,

« Guide tes Passions vers la Sagesse »

SOMMAIRE

FIGURES

INTRODUCTION

PARTIE I CONTEXTUALISATION DES CONCEPTS

Déconstruction du concept « big data »

Syntaxe et sémantique

Rhétorique et représentations

Une nouvelle technologie de l’information ?

Variations sur la notion donnée

Cadre juridique et détournements

Notion de vie privée et protection des données

Notion de libertés fondamentales

Les possibilités de détournement

PARTIE II ANALYSE DU CORPUS

Des data au big data

L’essor de la donnée

L’émergence du « big data »

Analyse discursive

Polysémie lexicale et métaphorique

Promesse panoptique

Réactivation discursive

Association UFC-Que Choisir

Les défis du « big data »

Monétisation des données personnelles

Perte des libertés publiques

CONCLUSION

BIBLIOGRAPHIE

ANNEXES

ENTRETIENS

RÉSUMÉ

REMERCIEMENTS

FIGURES

Figure 1 : Intérêt de la recherche « big data »

Figure 2 : Les 3V du big data

Figure 3 : Logo du logiciel hadoop

Figure 4 : doudou hadoop

Figure 5 : « big data » - motif éléphant

Figure 6 : « big data » - motif éléphant

Figure 7 : « big data » - motif éléphant

Figure 8 : La pyramide des connaissances

Figure 9 : La chaîne linéaire du modèle des connaissances

Figure 10 : Niveaux de protection des données personnelles

Figure 11 : Modules sociaux

Figure 12 : Extrait article 01business

Figure 13 : Extrait article l’express

Figure 14 : « big data » - concept panoptisme

Figure 15 : « big data » - concept panoptisme

Figure 16 : Je garde la main sur mes données !

Figure 17 : Capture d’écran corpus Google image

Figure 18 : « big data » - silhouettes

Figure 19 : « big data » - oeil

Figure 20 : « big data » - tunnel

Figure 21 : « big data » - iceberg

Figure 22 : « big data » - immeubles

Figure 23 : Théorème du Brewer

Figure 24 : Les supports de stockage

Figure 25 : Journal des événements

Figure 26 : Nombre d’utilisateurs des réseaux sociaux

Figure 27 : Capture d’écran vidéo youtube

INTRODUCTION

Depuis quelque temps, un nouveau terme est apparu dans les technologies de l’information et de la communication, le « big data ». Selon l’outil Google Trends permettant de connaître la fréquence à laquelle un terme a été saisi dans son moteur de recherche, le nombre des requêtes mondiales a été multipliées par plus de six entre décembre 2011 et mars 2014, soit en moyenne 1,5 million de recherches mensuelles en France1.

Ce terme semble avoir une telle popularité que la commission générale de terminologie et de néologie, organisme placé sous l'autorité du Premier ministre en charge de favoriser l'enrichissement de la langue française, préfère la version française « mégadonnées » à l’anglicisme « big data ». Cette annonce2, parue le 22 août 2014 dans le Journal officiel de la République française, donne la définition suivante : « Données structurées ou non dont le très grand volume requiert des outils d'analyse adaptés. ».

En septembre 2013, le président de la république François Hollande a présenté avec le ministre du Redressement productif, Arnaud Montebourg le projet baptisé « nouvelle France industrielle ». Ce programme repose sur 34 plans d'actions3 qui seront érigés en « priorité nationale » par le gouvernement. Parmi ces plans on retrouve, le « big data », le cloud computing, la voiture autonome, la santé numérique, les objets connectés, la souveraineté télécom, la cybersécurité et les réseaux électriques intelligents. Le ministre se félicite : « Ces projets vont révolutionner nos modes de vie, nos moyens de transport, nos façons de nous soigner. »4.

Dans l’enseignement supérieur, l’École polytechnique et Télécom ParisTech ouvrent à la rentrée 2014 un nouveau Master en Mathématiques pour la science des masses de données. Ce Master national constitue la première formation en « big data » associant plusieurs acteurs académiques majeurs ayant comme vocation de devenir une référence dans le domaine des « Data Sciences » au niveau mondial.

Lors de la coupe du monde de football au Brésil 2014, l’équipe d’Allemagne a utilisé une technologie « big data ». Le manager de la sélection allemande, Oliver Bierhoff, donne des précisions sur cette technologie « Une application interactive qui compile des millions de données statistiques et biométriques sur les joueurs allemands, mais aussi sur leurs adversaires […] depuis les déplacements des joueurs jusqu'à l'alignement d'une défense, en passant par l'évolution de la possession ou le nombre de passes réussies. »5.

Aux États-Unis, la campagne présidentielle du président Barack Obama en 2012 a été bâtie à partir d’un dispositif « big data ». Selon le média Atlantico « L’analyse permit aux bénévoles de la campagne Obama de savoir, par exemple, quels arguments pousseraient plus les femmes célibataires, ou les jeunes, ou les hispaniques, à se mobiliser. Le big data permit de cibler les publicités, coups de fil et appels à donations. »6.

Dans le domaine de la recherche, Stéphane Grumbach, directeur de recherche à l'Institut national de recherche en informatique et en automatique (INRIA), indique que les données du « big data » sont « une matière première dont l'importance économique dépassera celle du pétrole »7.

D’autres observateurs8 comparent le « big data » à l’invention de Johannes Gutenberg : « Le big data serait une invention semblable à celle de l’imprimerie […] le big data apparaît lui aussi comme une immense innovation : celle de permettre à la fois la récolte, le stockage, le partage et l’analyse de données à des ordres de grandeurs radicalement nouveaux. ».

Au-delà de sa popularité, le « big data » semble porteur de multiples espoirs et promesses. Jean Pouly9, directeur du centre de formation et de recherche sur la communication et le numérique de l'Université de Saint-Etienne, dresse une liste des secteurs d’activité concernés par la récolte, l’analyse et la prise de décision à partir d’un dispositif « big data ». Il indique les finalités obtenues pour chacun des secteurs d’activité de « l’innovation big data » - banques, assurances, marketing, médecine et moyens de transport. Avec des finalités explicites telles que : la réduction des défauts bancaires, l’anticipation des risques des assurances, un meilleur ciblage du client sur l’analyse de l’ensemble de ses comportements d’achat, l’assistance des médecins dans leur diagnostic, et enfin l’amélioration de la fluidité des transports.

Le « big data » est le « nouvel Eldorado d’Internet »10, ce n’est rien d’autre qu’une « mine d’or »11, à partir de laquelle on extrait une « matière première »12 un « nouveau pétrole »13, pour atteindre le « nouveau graal de l’informatique »14, alors « Préparez-vous à la révolution ! »15.

Cependant ce « nouvel or noir du XXIème siècle »16, émane de nos usages des nouvelles technologies de l’information et de la communication. En effet, les données employées lors de la mise en œuvre de dispositifs « big data », sont en réalité les données personnelles des citoyens. En outre, le développement de technologies dites « big data » nécessite de bien comprendre les enjeux et les risques possibles pour les individus. Car en utilisant nos données personnelles, ces technologies s’exposent aux difficultés associées à leurs utilisations : le respect de la vie privée et des libertés fondamentales de « l’Homo numericus »17.

C'est l'objectif de ce travail de recherche, pour lequel notre questionnement a été suscité par la rhétorique des discours des promoteurs et la circulation triviale des imaginaires et utopies associées à notre thématique, notamment ceux liés aux imaginaires de pouvoir, de la souveraineté et à l’utopie révolutionnaire. Sommes-nous les acteurs-témoins d’une innovation sociologiquement radicale ? Ou bien sommes nous aveuglés par les hurlements des discours qui, de leurs chants intermédiatiques et leurs injonctions lyriques, nous éloignent de nos jugements critiques ?

En outre, le « big data » est-il vraiment une nouvelle technologie de l’information ? De quelle nouveauté parle-t-on ? Technique ? Sociale ? Médiatique ?

PROBLÉMATIQUE

Dès lors, quels sont les indices révélant les imaginaires convoqués dans les discours portant sur le « big data » ? En quoi les technologies de l’information et leurs utilisations ont participé à la mutation de la donnée en « big data » ? Quelles sont les tendances qui ont favorisé l’émergence du « big data » ? En quoi l’exploitation des données personnelles engendre des risques pour le respect de la vie privée et les libertés fondamentales des individus ?

Notre problématique naît ainsi du croisement de ces interrogations et pourrait être formulée de la sorte : « Dans quelle mesure le « big data » peut-il représenter un risque pour le respect de la vie privée et des libertés fondamentales des individus alors que paradoxalement le big data est alimenté par les individus ? »

HYPOTHÈSES

Afin d’apporter des réponses à la problématique définie précédemment, nous émettons les hypothèses suivantes :

Hypothèse 1 : L’individu participe aux risques d’exploitation des données personnelles. Il manque de compétences ou ne prend aucune précaution. Il est inconscient des récoltes effectuées par certains dispositifs.

Hypothèse 2 : Le système juridique est perméable en matière de protection des données personnelles. Les lois autour de la protection des données personnelles offrent des possibilités de détournement pour les concepteurs de dispositifs « big data ». Elles souffrent d’un manque d’harmonisation.

Hypothèse 3 : Les concepteurs des dispositifs médiatiques facilitent la validation des conditions générales d’utilisation ou ne respectent pas les obligations législatives. Ils rendent peu accessible la visibilité des conditions générales d’utilisation.

Ce travail de recherche doit nous permettre d’affirmer ou d’infirmer ces hypothèses.

CORPUS

Nous avons étudié les discours des acteurs mobilisés sur les concepts liés à notre thématique :

Les discours des promoteurs du big data : industriels, spécialistes, sites spécialisés et sites d’informations, journalistes, chroniqueurs.

Les hommes politiques : responsables politiques, sites web officiels.

Les hommes de loi : juristes, avocats, sites web sur l’actualité juridique.

Les défenseurs : associations, sites d’associations, chercheurs, CNIL.

Les discours médiatiques : émissions de radio ou de télévision, presse écrite, journalistes, éditorialistes, chroniqueurs, médias informatisés.

Nous avons bâti notre corpus avec plusieurs types de sources18 :

Nous avons programmé une alerte quotidienne par mail du 5 juillet 2014 au 15 octobre 2014 renvoyant les articles publiés comportant des mots-clés19 liés à la thématique, chaîne TV youtube, émissions télévisées.

Nous avons effectué des recherches sur internet, dans la presse d’articles liés à la thématique.

Nous avons appuyé notre étude sur d’autres textes de recherches :

Études et rapports déjà menés autour de notre thématique - thèse en mathématiques, science de la décision, Droit numérique - mémoires en science information et communication, Droit numérique - articles et ouvrages dans le domaine des sciences de l’information et de la communication et des mathématiques, et Droit numérique.

En complément, nous avons participé à trois manifestations :

« Premier forum culturel 100% DATA » - 9/09/2014 - Paris

« L’Homo numericus sera-t-il libre ? » - 23/10/2013 - Lyon

« MTO’2014» - 2/10/2014 - Nîmes - Conférence de Serge Proulx sur « La participation paradoxale des usagers à l’ère numérique »

Des entretiens20 ont été réalisés avec :

Francis Jauréguiberry Sociologue Professeur à l’Université de Pau et des Pays de l'Adour, directeur du laboratoire Société Environnement Territoire au CNRS. Il est, avec Serge Proulx, cofondateur et coresponsable du groupe de recherche « sociologie de la communication » de l’Association internationale des sociologues de langue française et responsable du projet « Déconnexions volontaires aux technologies de communication » (DEVOTIC) de l’Agence nationale de la recherche (ANR). Ses recherches portent sur les nouveaux rapports au temps et à l’espace générés par l’extension des technologies de l'information et de la communication, ainsi que sur les notions d’identité et de sujet dans une société hypermoderne.

Serge Abiteboul Professeur au Collège de France (Chaire d'Informatique et sciences numériques) et directeur de recherche à l’INRIA, a reçu le Royal Society Milner Award 2013 en reconnaissance de ses recherches sur les bases de données.

MÉTHODOLOGIE

Le « big data » est un sujet pluridisciplinaire d’une grande richesse communicationnelle. De nombreux questionnements sont possibles, entraînant des angles différents d’approches pour des conclusions distinctes. Dans un souci de balayer un spectre caractérisant au mieux l’objet « big data », notre démarche s’appuie en croisant diverses approches disciplinaires et plusieurs méthodologies. Nous neutralisons ainsi l’objet des concepts, discipline par discipline. Notre démarche consiste à déconceptualiser l’objet pour livrer ses valeurs intrinsèques.

Pour répondre à la problématique et aux hypothèses, nous effectuons une analyse critique et distanciée de notre sujet de recherche avec une mise en perspective à l’aide de notre démarche. Notre méthodologie entend déconstruire le terme « big data » avec des outils d’analyses étymologiques, sémiotiques et des sciences de l’information et de la communication. Nous identifierons les imaginaires avec une analyse croisée des représentations visuelles et des discours du « big data »; sous plusieurs concepts, symbolique, trivialité, récurrence, rhétorique. Nous analyserons l’émergence du « big data » avec une approche historique, sociologique et communicationnelle. De plus, nous avons récolté des informations de terrain avec des enquêtes non directives centrées de l’analyse des communications. Les conférences auxquelles nous avons assisté ont apporté des éléments de terrain à notre analyse.

Puis, à partir d’une approche juridique nous montrerons les risques que peuvent représenter le « big data » pour le respect de la vie privée et les libertés fondamentales des individus. Pour cimenter l’ensemble de notre démarche, nous avons croisé notre analyse avec des travaux de recherche pluridisciplinaire identifiés dans le corpus, et une étude communicationnelle discursive des éléments du corpus.

Afin de définir une bordure à l’objet de notre recherche, nous fixerons une définition générique d’un dispositif « big data » pour l’ensemble de ce travail de recherche. Cette définition décrit les opérations successives de tout dispositif « big data » :

Le « big data » est un dispositif de traitement de données pouvant mener à une prise de décisions. La finalité d’un dispositif « big data » trouve son existence dans sa réalisation au travers la décision finale qui sera mise en œuvre. Le traitement de données consiste à faire l’une, quelques-unes, ou l’ensemble des opérations suivantes : récolter - enregistrer - nettoyer - croiser - analyser. Les types de décisions possibles sont : prédiction - observation (visualisation ou surveillance).

De sorte que tout dispositif réalisant l’une des opérations précédentes sera considéré comme un dispositif « big data ». Par exemple, un dispositif réalisant seulement l’opération de récolte sera considéré comme tel.

PLAN DE L’ÉTUDE

Dans une première partie, nous réalisons un état de l’art des concepts de notre thématique « big data », vie privée, libertés fondamentales et données. Nous mettrons ainsi à jour une échelle de mesure entre les valeurs profondes de l’objet et celles représentées dans les discours. Puis nous identifierons les failles et les détournements possibles du cadre juridique.

Dans la deuxième partie, nous analysons les mutations de la donnée au travers les évolutions sociotechniques des technologies de l’information. Nous réalisons une étude attentive des articles dans les médias afin d’identifier les principaux traits du discours des promoteurs du « big data », et les imaginaires convoqués dans ces discours. Ensuite, nous étudierons les défis pour le respect de la vie privée, et les libertés fondamentales du « big data ».

L’objectif de cette étude est d’identifier les imaginaires circulant dans les discours d’escorte et les représentations de l’objet « big data », à l’aide d’une démarche scientifique enrichie par les travaux des disciplines concernées - des enquêtes décèleront les menaces effectives du « big data » pour la vie privée et les libertés fondamentales des individus.

1 Google Adwords.

2Legifrance, mis en ligne le 22/08/2014, [En ligne] <http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000029388087&dateTexte=&categorieLien=id>, consulté le 22/08/2014

3 Listes détaillées des plans : <http://proxy-pubminefi.diffusion.finances.gouv.fr/pub/document/18/17721.pdf>

4 BOUCHER Yannick, « Arnaud Montebourg pense à la reconquête industrielle du Nord - Pas-de-Calais! », La voix du nord , mis en ligne le 14/03/2014, [En ligne] <http://www.lavoixdunord.fr/france-monde/arnaud-montebourg-pensea-la-reconquete-industrielle-du-ia0b0n1985526>, consulté le 20/07/2014

5 MOMONT Julien, « Allemagne-Argentine : tactique et « Big Data » », Le monde, mis en migre le 13/07/2014, [En ligne] <http://www.lemonde.fr/coupe-du-monde/article/2014/07/13/bresil-2014-allemagne-la-tradition-dans-lamodernite_4456314_1616627.html>, consulté le 20/07/2014

6 GOBRY Pascal-Emmanuel, « Le pouvoir du "Big data" : Obama premier Président élu grâce à sa maîtrise de traitement de données ? », atlantico, mis en ligne le 9/11/2012, [En ligne] <http://www.atlantico.fr/decryptage/bigdata-et-obama-avait-gagne-election-americaine-grace-tendance-en-train-revolutionner-economie-pascal-emmanuelgobry-539455.html>, consulté le 20/07/2014

7 FEVRE Dominique, « Stéphane Grumbach, Inria :"Qui peut dire quelle sera la notion de 'vie privée' dans 20 ans ? », Emarketing, mis en ligne le 11/03/2013, [En ligne] <http://www.e-marketing.fr/Thematique/Profession-1008/Breves/-Qui-peut-dire-quelle-sera-la-notion-de-vie-privee-dans-20-ans--51790.htm>, consulté le 20/07/2014

8 LEVALLOIS Clément et GAUTHIER Thomas, « Le big data : Instrument de politique publique à l’ère de la gouvernance électronique », L’alambic, mis en ligne le 4/07/2014, [En ligne] <http://alternatives-economiques.fr/blogs/alambic/2014/07/04/le-big-data-instrument-de-politique-publique-a-lere-de-la-gouvernance-electronique/>, consulté le 20/07/2014

9 POULY Jean, « Big Data : nouvel or noir de la société de l'information ? », Youtube, mis en ligne le 6/04/2013, [En ligne] <https://www.youtube.com/watch?v=5U_4OBMeV0g&index=4&list=PLtqe2NyXeDUabutY-vg4qp9Hia-kGjSDz>, consulté le 20/07/2014

10 BELLIARD David, « ‘Big data’, le nouvel Eldorado d’Internet », Alternatives économiques, mis en ligne le 09/2013, [En ligne ] <http://www.alternatives-economiques.fr/-big-data---le-nouvel-eldorado-d-internet_fr_art_1227_64679.html>, consulté le 20/07/2014

11 BATTILANA Julie, « La mine d'or du Big Data » Economie, mis en ligne le 26/11/2012, [En ligne] < http://www.lemonde.fr/economie/article/2012/11/26/la-mine-d-or-du-big-data_1795865_3234.html>, consulté le 20/07/2014

12 ARNULF Sylvain, « Le Big Data, matière première de toute innovation pour le comparateur de voyages Kayak », L’usine digitale, mis en ligne le 28/05/2014, [En ligne] <http://www.usine-digitale.fr/article/le-big-data-matierepremiere-de-toute-innovation-pour-le-comparateur-de-voyages-kayak.N265326>, consulté le 21/07/2014

13 « Big Data : quand les données deviennent le "nouveau pétrole" de l’emploi », L’etudiant, mis en ligne le 24/04/2014, [En ligne] >http://www.letudiant.fr/metiers/big-data-quand-les-donnees-deviennent-le-nouveau-petrolede-l-emploi.html>, consulté le 21/07/2014

14 DE MALET Caroline, « Le marché du «big data», nouveau graal de l’informatique », Le figaro, mis en ligne le 02/04/2014, [En ligne] <http://www.lefigaro.fr/secteur/high-tech/2014/04/02/01007-20140402ARTFIG00116-lemarche-du-big-data-nouveau-graal-de-l-informatique.php>, consulté le 23/07/2014

15 « Big Data - Préparez-vous à la révolution ! », Futurmag, mis en ligne le 19/09/2014, [En ligne] < http://www.futuremag.fr/infographie/big-data-preparez-vous-a-la-revolution>, consulté le 19/09/2014

16 KOVACS Emilie, « Big data : l'or noir du XXIe siècle », Emarketing, mis en ligne le 08/02/2013, [En ligne] < http://www.e-marketing.fr/Thematique/Data-IT-1004/Fichiers-10022/Breves/2013-cap-sur-le-big-data-51320.htm>, consulté le 23/08/2014

17 Faisant référence à la conférence à laquelle nous avons participé le 23/10/2013, organisée par le CNRS, à Lyon « L’Homo numericus sera-t-il libre ? », <http://www.cnrs.fr/lesgrandsdebats/spip.php?article127>

18 Une centaine d’articles détaillés dans la bibliographie.

19 big data, risques, exploitation des données, données personnelles, vie privée.

20 Détails des entretiens p.128

PARTIE I CONTEXTUALISATION DES CONCEPTS

La première partie aura pour objectif de mettre à jour l’essence des notions caractérisant l’objet « big data », la rhétorique, la symbolique et les imaginaires circulant dans les médias informatisés autour de l’objet. Notre questionnement s’orientera sur l’appartenance de l’objet à la classe appelée « Nouvelles Technologies de l’Information et de la Communication ». Ensuite nous introduirons le cadre juridique dans le but de valider certaines hypothèses.

A. Déconstruction du concept « big data »

Pour comprendre l’objet, établir des vérités, lever des confusions, et déceler les imaginaires, nous allons méthodiquement déconstruire l’expression « big data » et déconceptualiser l’objet à l’aide de trois champs disciplinaires : l’étymologie, la sémiotique, et les sciences de l’information et de la communication. À partir des approches étymologique et sémiologique, nous observerons les constantes dans, les notions définissant le « big data », les imaginaires circulant dans les médias, et les symboles représentant le « big data ». Puis, nous répondrons aux questions suivantes : est-ce que le « big data » est une nouveauté ? Est-ce que le « big data » est une « technologie de l’information » ? Enfin, nous analyserons les variations entre les concepts de donnée - information - connaissance - sagesse.

La première approche est d’ordre étymologique, ce qui nous permettra de remonter à l’origine formelle et sémantique de l’objet, afin de caractériser le signifiant et le signifié.

1. Syntaxe et sémantique

Le choix de l’appellation linguistique « big data » n’est sans doute pas anodin. Yves Jeanneret nous explique que « l'imaginaire contenu dans les mots et les images fait davantage qu'accompagner les objets, il les constitue »21. En d’autres termes, nous nous faisons une représentation visuelle de l’objet et de la sorte, le nom choisi contient des sous-entendus. Nous proposons dans cette partie d’aller à la recherche de ces sous-entendus.

Le terme « big data » est une expression anglaise composée du mot « data », signifiant données, et du mot « big » signifiant grand. Toutefois, en langue anglaise, comme dans de nombreuses langues étrangères, une expression ne se traduit jamais mot à mot, car elles sont des tournures issues de la culture propre à chaque langue22.

Selon le Trésor de la Langue Française, une donnée désigne littéralement : « ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche […] Ensemble des indications enregistrées en machine pour permettre l'analyse et/ou la recherche automatique des informations »23. Il est intéressant de noter que, dès la définition, la donnée se veut conférée d’un pouvoir qui lui permettrait d’obtenir, de mettre à jour des informations, de participer et de construire un raisonnement, ou bien de faire une analyse. Autre point essentiel de cette définition, les données sont un « ensemble d’indications enregistrées en machine ». L’action d’enregistrer, par définition, revient à : « inscrire sur un registre de manière à conserver […] consigner […] garder la trace de manière à se souvenir […] graver le temps […] Recueillir et conserver »24. Ainsi les définitions des mots « données » et « enregistrer » portent en elles plusieurs notions : trace, recueil, inscription, temporalité, analyse.

Cependant la donnée n’est pas le seul constituant de l’expression « big data », puisqu’elle est qualifiée de « big ». Le dictionnaire Oxford de la langue anglaise définit plusieurs expressions construites à partir de l’adjectif « big », parmi lequel nous retiendrons (car elles sont caractéristiques de l’engouement vis-à-vis de l'expression « big data » dans les médias) : « Showing great enthusiasm […] Very popular »25. De sorte que la construction syntaxique de l’expression « big data » participe et encourage l’établissement d’une expression populaire par l’utilisation de l’adjectif « big ». Nous avons entrepris la mesure de la popularité de l’expression « big data » grâce aux outils à notre disposition.

Nous estimons une mesure de la popularité du « big data » à l’aide de l’outil Google Trends. Il s’agit d’un outil qui permet de connaître la fréquence à laquelle un terme (ou une expression) a été saisi dans le moteur de recherche Google. Nous constatons que les requêtes planétaires sur cette expression ont été multipliées par plus de six entre décembre 2011 et mars 2014.

Figure 1 : Intérêt de la recherche « big data »

Ce n’est cependant que le 13 juin 2014, que l’expression entre dans le dictionnaire de la langue anglaise : « data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data »26. D’une part, il est intéressant de noter les qualificatifs employés « very large », « significant logistical challenges », comme si tout paraissait démesuré, exagéré. Le dictionnaire Oxford définit le « big data » comme étant une grande quantités de données. Cependant les données doivent être grandes, au sens où leurs, manipulations, gestions, recueils, stockages, traitements, analyses, relèvent d’un défi logistique important. Ainsi selon le dictionnaire Oxford, seront qualifiées de « big data », des données pour lesquelles une partie du traitement devient d’une grande complexité. D’autre part, le dictionnaire Oxford élève l’expression « big data » au rang d’une branche des mathématiques « (also) the branch of computing », comme le sont la géométrie, les probabilités, l’arithmétique, l’analyse, etc. Il s’agit donc d’une synecdoque27, l’auteur fait sans doute allusion à la théorie du data-mining. En Mathématiques, il n’existe pas de branche de calcul baptisée « big data ».

Dans la version française « mégadonnées » - ayant pour définition « Données structurées ou non, dont le très grand volume requiert des outils d'analyse adaptés » - l’expression « mégadonnées » est un mot-valise constitué des termes « méga » et « données ». Le terme « méga » du grec « megas » signifie « grand » sans qualification a priori de taille. Pourtant dans le système international d’unités28, le préfixe méga est un multiplicateur29 qui représente une grandeur fixe et clairement quantifiée : le million. De plus, le dictionnaire de la langue française défini le terme « méga » de la façon suivante « élément entrant dans la construction de noms d'unité de mesure et de noms savants dans diverses sciences »30. Ainsi, de manière implicite, l’emploi du préfixe « méga » confère une connotation scientifique à la version française de l’expression « big data ».

De plus, la notion de pouvoir apparaît dans la sonorité de l’expression « mégadonnées ». En effet, le préfixe « méga » est couramment utilisé pour décrire les pouvoirs surnaturels des super-héros.

En conclusion, les deux définitions, Anglaise et Française, ne sont pas éloignées l’une de l’autre. Toutes les deux définissent un « très grand » ou « very large » ensemble de données, pour lequel l’analyse « requiert des outils adaptés » ou « present significant logistical challenges ».

Les deux définitions essayent de faire entrer le « big data » dans un cadre scientifique, à l’aide d’un sous-entendu pour la version Anglaise, ou en utilisant une construction syntaxique propre à la terminologie des sciences, pour la version Française. Ce désir commun, caractérise le besoin d’existence en tant que science du « big data », pour favoriser la valorisation de l’objet.

Pour finir, l’analyse étymologique, sémantique et syntaxique nous a permis de mettre à jour les notions constituant l’objet « big data » : science, populaire, trace, recueil, inscription, temporalité, analyse, pouvoir.

La prochaine section s’intéresse à la rhétorique et aux représentations visuelles du « big data » dans les médias.

2. Rhétorique et représentations