Lexique de la data : les 20 définitions à connaître

Publié le

6 décembre 2021

dans

Développement professionnel, Futur du travail, Tech & data,

Que l’on soit novice ou un pro de la data, difficile de nier la difficulté que l’on peut rencontrer à maîtriser l’ensemble de ses termes. Comment trouver une bonne définition de la data, des mégadonnées, ou même de l’Intelligence Artificielle ? Pour ceux qui veulent en faire leur métier, il est parfois difficile de naviguer dans le vaste paysage de la data.

Pourtant, il est crucial de s’accorder sur des définitions communes, ne serait-ce que pour se comprendre. Mais aussi pour façonner cette nouvelle Terra Incognita et s’assurer qu’elle se démocratise sans trop d’accrocs.

Ce petit lexique a donc pour but de démystifier les 20 termes les plus fréquemment utilisés dans le monde de la donnée. Ils sont regroupés en quatre grandes catégories : l’ingénierie des données, la business intelligence, la science des données et la prise de décision basée sur les data !

définition data

Le lexique de la Data Engineering

L’ingénierie des données est une discipline qui se concentre sur l’identification des sources, la collecte et le stockage des données. C’est le précurseur de toutes les autres disciplines de la data.

En terme de définition, il est important de connaître :

L’algorithme : une procédure, ou un ensemble de règles qui permettent de résoudre un problème particulier.

La gouvernance des données : un ensemble de pratiques qui permettent aux parties prenantes d’une organisation d’identifier et de répondre à leurs besoins en matière d’information.

La Data Warehouse (ou entrepôt de données) : un référentiel commun qui permet d’unifier la manière dont les données sont analysées et utilisées pour prendre des décisions éclairées.

Data Fabric : un ensemble de services de données permettant d’offrir des fonctionnalités cohérentes. Cette architecture unifiée intègre la gestion des données dans le cloud et sur site pour accélérer la transformation digitale d’une organisation. Elle permet ainsi de fluidifier l’accès et le partage des données dans un environnement distribué.

Le cloud computing, qui décrit les ressources informatiques stockées et exécutées sur des serveurs distants. Les ressources, y compris les logiciels et les données, sont accessibles depuis n’importe quel appareil connecté à Internet.

La définition de la data en matière de Business Intelligence

La Business Intelligence est la discipline qui consiste à analyser et transformer des données pour en extraire des informations commerciales pertinentes et permettre une meilleure prise de décision.

Pour en maîtriser le jargon, il faut connaître les définitions de :

Data mining : un processus d’extraction qui permet notamment de mettre en lumière des modèles dans un grand ensemble de données. Le Data mining implique d’utiliser des méthodes à l’intersection entre l’apprentissage automatique, les statistiques, et les systèmes de base de données ;

Reporting MIS (pour Management Information Systems). C’est le processus par lequel une entreprise peut obtenir les informations nécessaires pour exécuter ses activités commerciales quotidiennes. Il sert également à surveiller ses progrès. Ainsi, on peut mettre en place un reporting MIS dans des domaines comme la comptabilité, le management, mais aussi l’inventaire.

Définition de la data science : le lexique de la science des données

La science des données (ou Data Science) est la discipline consistant à appliquer des techniques d’analyse avancées pour extraire des informations à partir de données. Informations qui seront ensuite utilisées pour prendre de meilleures décisions commerciales et planifier les stratégies de son organisation. Elle rassemble des domaines assez vastes, comme le Data mining, mais aussi les statistiques, les mathématiques, l’IA ou encore la visualisation de données.

1. L’intelligence artificielle

L’intelligence artificielle (IA) est une définition centrale dans le monde de la donnée. Elle désigne la capacité d’une machine à imiter le fonctionnement du cerveau humain, et ce en particulier pour apprendre à partir d’exemples et d’expériences, par exemple pour analyser et réagir au langage, reconnaître des objets, etc. Mais elle est aussi utilisée pour résoudre des problèmes complexes et prendre des décisions éclairées ;

L’apprentissage automatique est un sous-produit de l’IA. Il permet aux systèmes d’apprendre et de s’améliorer de manière autonome, à partir d’expériences et sans être programmés pour le faire. Sa définition dans l’univers data ne fait pas encore le sujet d’un consensus mais on parle généralement de machine learning ;

Le Deep learning est une technique fondée sur des réseaux de neurones artificiels inspirés de la structure du cerveau humain. La machine apprend à partir de grandes quantités de données et est ainsi mieux à même de trouver des modèles à partir de données non structurées telles que du texte et des images ;

L’intelligence augmentée fait référence à un partenariat centré sur l’humain et l’IA afin d’améliorer ses performances cognitives. Elle est notamment utilisée pour booster les capacités d’apprentissage, de prise de décision et l’adaptation à de nouvelles expériences.

2. L’analyse de données

L’analyse descriptive est l’examen de données ou d’un contenu permettant de répondre à la question « Que s’est-il passé ? ».

L’analyse diagnostique est quant à elle une forme d’analyse avancée. Elle examine cette fois-ci les données permettant de répondre à la question « Pourquoi est-ce arrivé ? ». Les techniques utilisées pour ce faire sont celles du Data mining, des statistiques, et de l’apprentissage automatique ;

L’analyse prédictive examine les données pour répondre à la question « Qu’est-ce qui est susceptible de se passer ? » Elle repose essentiellement sur des outils tels que l’apprentissage automatique et l’intelligence artificielle.

3. La restitution de données

L’Information Design consiste à présenter l’information de manière à favoriser sa compréhension.

La Data visualisation (ou Dataviz) est un sous-produit de l’Information Design. Elle fait référence à la représentation visuelle d’informations, notamment sous forme de tableaux, de graphiques ou de cartes. Son but est de faciliter la prise de décision en favorisant la transmission d’idées pertinentes basées sur la donnée !

Le Data Storytelling est une pratique qui consiste à établir un récit à partir de données et de leur visualisation. Son but est de faciliter la transmission de leur contexte et de leur signification. Une stratégie qui permet de s’assurer que le message portée par les données soit plus puissant et convaincant !

Définition de la data en matière d’intelligence décisionnelle

L’intelligence décisionnelle est la discipline qui consiste à transformer l’information en décisions organisationnelles à grande échelle. Schématiquement, il s’agit donc d’appliquer la science des données dans le contexte précis d’un défi rencontré par l’entreprise.

Et dans cet univers, les mots clés à connaître sont :

Les systèmes d’aide à la décision (ou DSS pour Decision Support Systems). Ce sont des programmes informatiques utilisés pour rationaliser les jugements et actions d’une entreprise. Un DSS passe au crible et analyse des quantités massives de données, en compilant des informations complètes qui peuvent être utilisées pour résoudre des problèmes et faciliter la prise de décision.

La Data Literacy, ou la capacité à lire, écrire et communiquer des données en contexte. Elle implique une bonne connaissance et compréhension des différentes sources de données, techniques analytiques, applications commerciales. Et surtout de la valeur qui en résulte.

La Data culture, qui fait référence aux valeurs, comportements et normes partagés par la majorité des individus qui composent une organisation concernant les problèmes liés aux données. Elle fait globalement référence à la capacité d’une organisation à utiliser les data pour améliorer sa prise de décision.

Pour se familiariser avec le lexique de la Data, et maîtriser les domaines, si disparates, sur lesquels il repose, on peut s’inspirer d’Elon Musk. Le magnat de la tech conseille en effet de considérer ce nouveau champ de connaissances comme un arbre sémantique… Et ce faisant, de commencer par en comprendre les principes fondamentaux (le tronc de l’arbre), avant de s’attaquer aux domaines d’expertises (ses branches).

Tous nos programmes à distance