Le Big Data, tête chercheuse du site VOYAGES-SNCF.COM

673

COMMENT VOYAGES-SNCF.COM UTILISE LE BIG DATA POUR PROPOSER DE MEILLEURS PRIX ET DES COMBINAISONS INÉDITES DE TRAJET ?

Avec 1,5 milliard de recherches par an, 33 millions de propositions de voyages possibles,  1 milliard d’emails envoyés et 100 téraoctets de données gérées par mois par ses infrastructures, Voyages-sncf.com est au cœur des problématiques Big Data. Le groupe utilise au quotidien les technologies Big Data pour assurer sa qualité de service et la personnalisation de ses offres. Aujourd’hui, le site va plus loin en utilisant ces technologies pour développer de nouvelles fonctionnalités et enrichir sa palette d’itinéraires. Le résultat : de nouveaux trajets, moins chers.

 Pour Gilles de Richemond, directeur de VSC Technologies : « Il nous a fallu deux ans pour mettre en place une structure solide et exclusive nous permettant de créer de nouvelles fonctionnalités pour que nos clients qui le souhaitent puissent voyager moins cher quitte à voyager un peu plus longtemps. C’est un excellent exemple de l’évolution des DSI qui contribuent aujourd’hui au développement de l’entreprise et son offre. »

LES « TRAJETS ALTERNATIFS » : LES TECHNOLOGIES BIG DATA, TÊTES CHERCHEUSES DU SITE VOYAGES-SNCF.COM

 Une recherche d’itinéraire actionne des masses de données gigantesques en agrégeant plus de 33 millions de possibilités de voyages. En effet, cette recherche doit tenir compte de nombreux facteurs : le nombre de trains qui circulent chaque jour x le nombre de destinations x le nombre d’itinéraires par jour x le nombre de tarifs en fonction des cartes de réductions et de places associées. Et cela pour une seule recherche ! Or, en moyenne, Voyages-sncf.com répond à plus de 150 millions de recherches par mois. Le challenge technique est donc important et le recours aux technologies Big Data est devenu indispensable.

Un système de cache intelligent grâce au Big Data

Les équipes de VSC Technologies ont d’abord mis en place un moteur de recherche d’itinéraires reposant sur un système de cache intelligent des prix et des disponibilités des offres distribuées par Voyages-sncf.com, construit sur la base des consultations effectuées par les clients web et mobile.

Ce système de cache s’appuie sur une analyse des réponses aux devis demandés par les clients (des logs, constituant un échantillon suffisamment représentatif pour en tirer une représentation statistique) et sur l’application de règles prédictives en complément (Machine Learning, règles conçues et maintenues par les Data Scientists).

Les trajets alternatifs : un nouvel algorithme

Une fois ce système de cache stabilisé, les équipes ont pu travailler sur d’autres applications. Elles viennent ainsi de mettre au point des solutions qui permettent au Groupe de proposer en exclusivité à ses clients des « trajets alternatifs ».

Pour ces trajets, le paramétrage de l’algorithme est différent : ce sont des destinations où le premier critère de sélection est le prix, devant le critère d’attente pour les correspondances. Cela permet la création de nouvelles combinaisons et l’apparition de trajets à des prix plus bas avec un temps de transport un peu plus long.

Concrètement, si un client entre une requête pour un trajet Lille – Aix en Provence par exemple, les systèmes combinent la composante d’optimisation de l’itinéraire et celle du prix pour une meilleure proposition au client. Ce client aura alors la possibilité de choisir un voyage qui mettra éventuellement un peu plus de temps et qui sera moins cher. Cette approche du Big Data permet au client final de bénéficier de meilleurs prix, grâce à des combinaisons inédites de trajets.

Aujourd’hui, cela concerne 10 destinations, généralement très demandées pour l’été et bien souvent complètes à cette période. Cette dizaine de destinations proposée devrait au moins tripler dans les prochains mois.

UNE ORGANISATION QUI INTEGRE LE BIG DATA DANS TOUTES LES EQUIPES

Aujourd’hui, le Big Data fait partie du quotidien des équipes et des projets. Une trentaine de collaborateurs y sont dédiés et la « data » est disponible via divers API au sein du SI.

 LES TECHNOLOGIES UTILISEES 

Flume (collecteur de logs), Green Plum (exploration de données), Hadoop/ Hive / Spark (pour le stockage et le traitement des données), Elastic Search (moteur de recherche et d’indexation distribué), HDF (ingestion de données, composant DataFlow qui permet de manipuler les flux de données en amont et en aval du stockage/traitements) et SAS, Qlik et ElastichSearch (outils de restitution).