Predictive Analytics

La grande révolution des données approche à grands pas. Les entreprises sont à la recherche d’une nouvelle marque d’analystes, appelés “data scientists”, et les universités ont répondu à cette demande en introduisant des cours d’informatique et d’économie. Les rapports d’enquête montrent que les entreprises dépensent actuellement environ 36 milliards de dollars pour le stockage et l’infrastructure, et ce chiffre devrait doubler d’ici 2020.

Une fois que les entreprises recueillent et stockent des données détaillées sur l’ensemble de leurs relations clients et de leurs processus internes, que se passe-t-il ensuite ? Les entreprises sont susceptibles d’investir dans de grandes infrastructures de données parce qu’elles estiment qu’elles offrent un retour sur investissement positif. Cependant, si l’on examine les sondages et les rapports de consultation, il n’est pas clair quelles applications concrètes généreront ce RCI positif à partir des grandes données.

Notre objectif dans cet article est de fournir des études de cas spécifiques et réels pour montrer comment de grandes quantités de données sont utiles aux entreprises qui ont travaillé avec les équipes d’analyse de Microsoft. Ces cas montrent les circonstances dans lesquelles les grandes prévisions de données sont susceptibles de fournir des solutions nouvelles et de haute qualité et les situations dans lesquelles les bénéfices sont susceptibles d’être minimes.

Prévision de la demande. La première application est la prédiction de la demande pour les biens de consommation qui sont dans la longue traîne de la consommation. Les entreprises valorisent des prévisions précises de la demande parce que les stocks sont coûteux et que les stocks affectent à la fois les revenus à court terme et la fidélité des clients à long terme. Le chiffre d’affaires total agrégé est un mauvais indicateur, car les entreprises doivent distribuer leurs stocks géographiquement, ce qui nécessite des prévisions hyperlocales. La façon traditionnelle de résoudre ce problème est d’utiliser l’économétrie des séries chronologiques avec des données historiques sur les ventes. Cette méthode fonctionne bien pour les produits populaires dans les grandes régions, mais a tendance à échouer lorsque les données s’amincissent parce que le bruit aléatoire recouvre le signal sous-jacent.

Une solution majeure à ce problème est l’utilisation de données anonymes et agrégées de recherche sur le Web ou de données sur l’humeur, qui, en plus des données de séries chronologiques existantes, est liée à l’emplacement de l’entreprise respective. Les scientifiques de Microsoft ont utilisé cette approche pour aider une entreprise de prévision à prédire les ventes de voitures. La création de modèles avec des données de recherche sur le Web comme l’une des entrées réduit l’erreur de prévision absolue moyenne absolue, une mesure standard de précision des prévisions, pour des prévisions de ventes nationales mensuelles de l’ordre de 40 % par rapport à la base de référence pour les marques automobiles ayant des parts de marché relativement faibles par rapport aux modèles de séries chronologiques conventionnels. Bien que les taux de croissance des modèles les plus populaires aient été plus faibles au niveau national, l’amélioration relative augmente lorsque vous atteignez le niveau régional.

Dans ce cas, la grande solution de données utilise le point de données auparavant inutilisé que les gens utilisent pour effectuer un nombre considérable d’enquêtes sociales et de recherches en ligne avant d’acheter une voiture. La précision accrue des prévisions permet à son tour d’accroître considérablement l’efficacité – avec le bon inventaire au bon endroit.

Les données de recherche anonyme sur le Web se sont également révélées utiles pour d’autres prévisions, car les activités en ligne sont souvent un bon substitut pour les achats publics et les promotions. Les données supplémentaires ne suffisent pas à elles seules. Le traitement des données de recherche et leur combinaison avec les sources traditionnelles est crucial pour une prédiction réussie : nous avons constaté que le volume des requêtes de recherche n’est pas suffisant pour analyser les signaux qui correspondent à la demande réelle du produit.

Il faut faire preuve d’intelligence pour déterminer quels signaux doivent être tirés de grandes quantités de données, et les meilleures pratiques peuvent être liées à un cas particulier. Par exemple, les demandes individuelles d’un utilisateur peuvent être moins importantes que les demandes multiples d’un utilisateur. Bien que nous ayons utilisé des données de recherche dans cette étude de cas, une entreprise pourrait tout aussi facilement utiliser l’emplacement des utilisateurs qui visitent leur site Web ou lier des données de vente détaillées à l’emplacement d’un client.

L’utilisation d’un prix unique est économiquement inefficace, car une partie de la courbe de la demande qui pourrait être servie de façon rentable est exclue du marché. Par conséquent, les entreprises offrent régulièrement des rabais ciblés, des promotions et des prix basés sur les segments pour attirer les différents consommateurs. Les sites de commerce électronique ont un avantage distinct dans la poursuite d’une telle approche, car ils enregistrent des informations détaillées sur la navigation des clients, et non seulement sur les biens qu’ils achètent, et ajustent agressivement les prix au fil du temps. Ces ajustements de prix sont une forme d’expérimentation et, avec de grandes quantités de données, permettent aux entreprises d’en apprendre davantage sur le comportement de leurs clients en matière de prix.

Les commerçants hors ligne peuvent imiter les stratégies de prix nuancées du commerce électronique en suivant les consommateurs par le biais de la connectivité des téléphones intelligents et en enregistrant ce que les clients entrent dans le magasin, le type de marchandises qu’ils voient et s’ils font un achat. L’apprentissage machine appliqué à ces données peut générer de manière algorithmique des segments de clientèle en fonction de la réaction aux prix et des préférences, ce qui offre généralement une grande amélioration par rapport au ciblage démographique traditionnel.

Notre expérience avec la tarification de la publicité sur le moteur de recherche Bing est que l’utilisation de données importantes peut conduire à des profits importants si les annonceurs sont mieux adaptés aux consommateurs. Le succès du ciblage algorithmique est bien documenté et constitue un important moteur de revenus sur le marché de la publicité en ligne. Les progrès de la technologie de mesure permettent de plus en plus aux entreprises hors ligne de bénéficier de ces bénéfices grâce à une tarification plus efficace.

Maintenance prédictive. Le bon fonctionnement des chaînes d’approvisionnement est crucial pour la stabilité des profits. Les temps d’arrêt des machines entraînent des coûts pour les entreprises en raison des pertes de productivité et peuvent être particulièrement perturbateurs tant dans les chaînes d’approvisionnement complexes de production que dans les biens de consommation. Les gestionnaires d’industries à forte intensité d’actifs indiquent souvent que le principal risque opérationnel de leur entreprise est la perte inattendue de leurs actifs. Une vague de nouvelles données provenant de l’Internet des objets (IoT) peut fournir une télémétrie en temps réel sur les aspects détaillés des processus de production. Les modèles d’apprentissage machine basés sur ces données permettent aux entreprises de prédire la défaillance de diverses machines.

Les compagnies aériennes sont particulièrement intéressées à prévoir les défaillances mécaniques afin de réduire les retards ou les annulations de vols. Les scientifiques des données Microsoft de l’équipe de Cortana Intelligence Suite sont capables de prédire la probabilité de retards ou d’annulations d’avions à l’avenir en se basant sur des sources de données pertinentes telles que l’historique de maintenance et les informations sur les routes de vol. Une solution d’apprentissage machine basée sur des données historiques et appliquée en temps réel prédit le type de problème mécanique qui entraînera un retard ou l’annulation d’un vol dans les 24 heures qui suivent.

Des solutions de maintenance prédictive similaires sont également en cours de développement dans d’autres industries – par exemple, le suivi en temps réel des données de télémétrie pour prédire la durée de vie utile restante d’un moteur d’avion, l’utilisation de données de capteurs pour prédire l’échec d’une transaction de sortie de fonds, l’utilisation de données de télémétrie pour prédire l’échec des pompes submersibles électriques à produire du pétrole brut dans l’industrie pétrolière et gazière, pour prédire l’échec des cartes de circuits imprimés aux premières étapes du processus de fabrication, pour prédire les défaillances de crédit et pour prédire la demande d’énergie dans les régions hyperlocales afin de prédire les situations de surcharge des réseaux d’énergie. L’apprentissage machine rendra les chaînes d’approvisionnement moins fragiles et réduira l’impact des perturbations sur de nombreux biens et services.

Ces cas aident à mettre en évidence certains principes généraux :

La valeur dérivée de l’analyse peut dépasser de loin le coût de l’infrastructure. Cela suggère qu’il y aura une forte croissance des grands services de consultation de données et des fonctions spécialisées au sein des entreprises.
Les grandes données sont moins une question de taille que d’introduire des informations fondamentalement nouvelles dans les processus de prévision et de prise de décision. Cette information est particulièrement importante lorsque les sources de données disponibles ne sont pas suffisantes pour faire des prévisions précises ou réalisables – par exemple en raison de la petite taille des échantillons ou des ventes brutes historiques (petites régions efficaces, produits de niche, nouvelles offres, etc).

Les nouvelles informations sont souvent enfouies dans des protocoles de données détaillés et relativement non structurés (connus sous le nom de “lac de données”), et des techniques informatiques sont nécessaires pour obtenir des informations. Afin d’utiliser de grandes quantités de données, il est important que les ingénieurs de données talentueux, les statisticiens et les chercheurs en comportement travaillent ensemble. “Le terme ” scientifique des données ” est souvent utilisé pour désigner quelqu’un qui possède ces trois compétences, mais d’après notre expérience, les individus ont rarement les trois.
Des applications radicalement nouvelles. Les cas dont nous avons discuté concernent la question de savoir comment de grandes quantités de données peuvent être utilisées pour améliorer les processus existants (par exemple, des prévisions plus précises de la demande, de meilleures estimations de la sensibilité des prix, de meilleures prévisions des pannes de machines). Cependant, elle peut aussi être utilisée d’une manière qui perturbe les processus existants. Par exemple, les modèles d’apprentissage automatique qui utilisent des ensembles de données massifs, combinés à des conceptions sophistiquées qui tiennent compte de l’histoire médicale, doivent avoir le potentiel de révolutionner le diagnostic et le traitement de certaines maladies. Un autre exemple est l’adaptation de la production décentralisée d’électricité (par exemple, les capteurs solaires sur les toits) à la demande locale d’électricité, qui libère une valeur énorme en mettant sur un pied d’égalité l’offre et la demande d’électricité avec une production plus efficace.

La valeur décrite par des prévisions plus précises de la demande, une meilleure tarification et une maintenance prédictive sont les applications spécifiques qui justifient facilement les grandes entreprises investissant dans les grandes infrastructures de données et les sciences des données. Ces utilisations devraient conduire à une valeur de l’ordre de grandeur des investissements. La valeur des applications radicalement nouvelles est intrinsèquement difficile à comprendre et spéculative. Pour de nombreuses entreprises, des pertes sont attendues en raison d’investissements incertains et plus risqués, quelques entreprises générant des profits spectaculaires.

Your SEO optimized title page contents