La plus innovante des solutions d'analyse exploratoire de données temporelles

ACTUALITÉS

Suivez nos actualités

23/09/2015
< Retour

Le mythe de l’algorithme, ou l’analyse exploratoire de données

A l’occasion du salon Big Data, Frederick Vautrain, Directeur Data Science VISEO, signe une tribune sur le mythe de l’algorithme et revient sur l’analyse exploratoire de données et de ses bénéfices.

Le New York Times, dans un article du 18 août 2014, décrit le quotidien d’un data scientist et l’apparente plus à celui d’un concierge («janitor work») qu’à celui d’un analyste. Celui-ci passerait jusqu’à 80% de son travail à la recherche, collecte, mise en forme, nettoyage, recodage et rapprochement, de données, qui sont autant de tâches nécessaires et fastidieuses et bien loin de celles auxquelles aspirent un data scientist.

Et le plus étonnant dans cet article, c’est que cela les étonne.

Récupérer des connaissances pertinentes, un mythe absolu?

En effet, le florilège de communications sur l’analyse prédictive ou le machine learning, laisse penser que ceux-ci sont les outils qui manquaient pour enfin créer de la valeur à partir de la donnée et qu’il suffit de cliquer sur une icône pour prévoir des comportements d’achats ou anticiper des dysfonctionnements de machines.

Pour simplifier, l’analyse prédictive est constituée d’un ensemble de méthodes qui vont permettre de modéliser des comportements et estimer la valeur future ou inconnue d’indicateurs à partir de données historiques ou de données de contexte connues (comme la CSP ou le cheminement sur un site internet).

Bien établis, ces modèles sont incontestablement des moyens de valoriser les données à disposition pour, par exemple, cibler des clients et leur proposer des contenus pertinents ou encore optimiser un budget marketing sur la base de l’estimation de son efficacité future dans l’acquisition ou la conversion.

Mais, comme le déclare Jeffrey Heer, co-fondateur et CXO de Trifacta, société américaine leader technologique sur la «data transformation» (levée de 25M de dollars en 2014), c’est un mythe absolu de croire que l’on peut lancer un algorithme sur des données quelconques et en récupérer des connaissances pertinentes.

L’analyse exploratoire des données

L’opérateur public Eau de Paris souhaitait mieux prévoir la consommation future d’eau à Paris (-30% en 20 ans) en analysant les données de capteurs qui fournissent l’évolution de la consommation quotidienne par abonné. Plutôt que de travailler sur un modèle global, une analyse exploratoire a mis en évidence des indicateurs particuliers (valeur, tendance, cycle, évolution de tendance, etc.)  permettant de segmenter près de 100 000 courbes de consommations. Croisées avec des données externes sur lesquelles on a mesuré une  corrélation significative avec ces segments, nous avons pu développer des modèles beaucoup plus fins de prévisions et ayant un sens pour le service marketing.

L’analyse exploratoire permet de comprendre rapidement leur contenu et d’élaborer des hypothèses qui permettront de choisir le ou les modèle(s) adéquat(s). Elle s’appuie sur un ensemble d’outils de visualisation et mathématiques qui résument et représentent visuellement les données et leurs variables, identifiant leur ressemblance et leur relation.

Le succès d’un projet data réside, avant tout, dans le cadrage métier du projet et dans le choix judicieux des données à disposition. L’analyse exploratoire permet d’établir des hypothèses qui seront à la base de la phase de modélisation.

Dans un contexte Big Data, la richesse et la démultiplication des sources de données accentuent ce besoin.

Pour le data scientist, la présence de données aberrantes, manquantes ou atypiques doit rapidement être actée pour savoir comment les gérer. Une compréhension des données et de leurs relations permettra de savoir comment les recoder, réduire leurs dimensions, en extraire des indicateurs et envisager le modèle le plus adapté.

Pour les métiers, comprendre le contenu des données et leurs relations aide à formaliser l’objectif, exprimer leur expertise et définir le critère de succès du projet

Par un dialogue continu avec l’IT et les métiers sur ces phases de cadrage et d’exploration, le data scientist va évaluer rapidement la faisabilité et la difficulté du projet avant même sa modélisation mathématique.

L’innovation par l’exploration

Une des caractéristiques de l’innovation est qu’elle est souvent basée, au début, sur l’absence d’attendus bien précis. Certains évoquent aussi ces moments de sérendipité, la conjonction de coïncidences heureuses qui amène à une innovation inattendue.

Une vertu indirecte de l’approche exploratoire, est qu’elle peut se réaliser sans a priori, sans idée préconçue sur ce qu’on en attend en termes d’objectifs. C’est une démarche empirique, basée sur l’observation détaillée et fonctionnant de manière itérative

L’analyse Exploratoire a la faculté de résumer rapidement et représenter visuellement de grands ensembles de données. Lorsqu’elle est orchestrée par les Data scientists, elle crée les conditions d’un «dialogue» entre les données et les métiers. L’analyse exploratoire devient alors un outil puissant, pouvant faire émerger de nouvelles idées sur l’activité des Data scientists.

En parallèle des grandes institutions et laboratoires de recherche, qui l’utilisent de plus en plus pour découvrir des relations entre leurs données, des entreprises investissent sur l’AED afin d’exploiter rapidement des sources de données très diverses et complexes.  Facebook l’utilise ainsi pour comprendre l’activité des utilisateurs et comment se propagent des idées dans le réseau; en mars 2014, elle a créé un MOOC sur le sujet: «Jump into a new dataset».

«Utiliser l’analyse de données exploratoire pour aider aux missions des Nations Unies», déclarait en Novembre 2014,  Atti Riazi, Chief Information Technology Officer de l’ONU, qui l’utilise dans son programme «Unite Ideas». Avant, et parfois même sans l’analyse prédictive, l’analyse exploratoire permet de délivrer des résultats opérationnels pour le pilotage des activités.