Depuis octobre 2021, le pôle performance de l’Équipe cycliste Groupama-FDJ s’est doté d’un nouvel atout : un Data Scientist. Après quelques missions en tant que prestataire, Olivier Mazenot a en effet rejoint la structure pour apporter des compétences toutes particulières. Il nous en dit plus dans cet entretien.
Olivier, peux-tu nous présenter ton rôle de Data Scientist au sein de l’équipe ?
Au quotidien, je suis derrière mon ordinateur, et je programme principalement en Python, qui est le langage qu’utilisent beaucoup de Data Scientists pour traiter les données. Ma première mission est d’organiser la collecte, le tri et l’analyse des données, ce qui n’est pas une mince affaire car nous en avons beaucoup. Toutes ces données sont centralisées sur la plateforme de l’équipe et nous avons créé tout un écosystème pour être performants dans l’analyse des données. Ma deuxième mission est justement l’analyse statistique de ces données, qui proviennent essentiellement des compteurs GPS des coureurs, avec une donnée centrale que constitue la puissance, exprimée en watts. On recueille aussi d’autres données, comme la glycémie lors des stages. Au niveau des analyses, il y a d’une part les statistiques descriptives, et d’autre part les modèles statistiques, qui en plus d’expliquer les données ont une utilité prédictive. Les deux combinés permettent de mieux comprendre et analyser les données. Ma troisième mission est la création d’applications pour rendre le travail des deux premières missions opérationnel et utilisable par d’autres personnes, principalement les entraîneurs. Ces derniers utilisent déjà de nombreux sites et logiciels, mais nous avons en plus besoin d’outils spécifiques adaptés à une équipe professionnelle comme la nôtre. J’ai par exemple créé une application dans laquelle ils peuvent découper les séances d’entraînements et calculer des statistiques associées. Cela permet une automatisation du traitement des données.
« Au sein du pôle performance de l’équipe, on ne manque pas d’idées »
Es-tu finalement dans une position de « facilitateur » ?
L’objectif est effectivement de gagner du temps. Avec l’application, par exemple, l’idée est que les entraîneurs chargent les fichiers, cliquent sur un bouton, et que le site leur fournisse les graphiques, les découpages et le calcul des statistiques quasi-instantanément. Par exemple, une séance à Puissance Maximale Aérobie (PMA) avec répétitions de séries de 30’’-30’’ implique beaucoup de découpages. Si le programme fait bien son travail, ça se fait instantanément, alors que les entraîneurs mettaient auparavant environ dix minutes, en étant rodés et habitués. Dans une journée de stage où les 7-8 coureurs d’un entraîneur réalisent cette séance, on comprend vite que le programme peut permettre de gagner un temps précieux. Clairement, une de mes principales missions, et une des raisons pour lesquelles j’ai été engagé, est de permettre aux entraîneurs de gagner du temps sur certaines tâches répétitives. Lorsqu’on programme, on peut réaliser les analyses que l’on souhaite, et notamment sur l’ensemble des données des coureurs sur plusieurs saisons. Par exemple, on a étudié l’évolution du profil de pédalage des coureurs. En croisant plusieurs variables comme la puissance, la cadence de pédalage ou les données de terrains, les analyses statistiques permettent de pointer du doigt des variations dans le temps chez les coureurs, pour parvenir à des conclusions du type : « plus les saisons passent, plus tel coureur a tendance à tourner vite les jambes ». On peut ainsi obtenir une cartographie de l’ensemble des coureurs de l’équipe. Pour les entraîneurs, c’est aussi intéressant de comparer les coureurs entre eux.
Peux-tu nous en dire plus sur la réalisation de cette application ?
Je suis initialement professeur de mathématiques, et quand on est étudiant en fac de maths, on fait aussi un peu d’informatique, on apprend à programmer. Maintenant que j’ai dit ça, il y a trois ans, je ne connaissais pas tous les outils que j’ai utilisés pour créer ce programme. Je suis plutôt autodidacte de ce point de vue, mais c’est aussi comme cela que ça marche en informatique. Quand on a le goût pour ça, on apprend vite, on fait quelques tutos sur Internet et on apprend à se familiariser avec un langage. Aujourd’hui, le noyau dur du programme est finalisé, mais il y a toujours des fonctionnalités à ajouter. Comme n’importe quel logiciel, il peut toujours être perfectionné. Au sein du pôle performance de l’équipe, on ne manque pas d’idées pour améliorer le suivi de l’entraînement.
« Il ne faut pas croire que l’intelligence artificielle va tout révolutionner immédiatement »
Y a-t-il un enjeu de simplicité dans la mise en forme des statistiques ?
Quand tu crées des statistiques, la première version des graphiques n’est en général pas très jolie, pas très lisible. Il y a tout un travail à faire, de simplicité et d’esthétisme, pour que les courbes et diagrammes soient lisibles. L’idée directrice que l’œil de l’entraîneur, ou du coureur, puisse aller directement à l’essentiel. C’est un travail un peu caché, mais important et pas toujours simple à fournir pour que le résultat soit lisible, simple et joli. Les graphiques prennent énormément de formes : il y a les courbes bien sûr, mais aussi les diagrammes en barres, les histogrammes, les camemberts et beaucoup d’autres formes géométriques… Il y a de nombreuses manières de représenter les données. Le travail du Data Scientist est de trouver la manière la plus simple et la plus efficace de les faire parler. Un tableau de données est souvent difficile à lire. On a du mal à se rendre compte des différents ordres de grandeur entre les nombres. L’objectif des graphiques est de faire ressortir ces différences. J’ai d’ailleurs encore du travail à faire pour représenter les statistiques d’entraînement d’un point de vue graphique.
Quelle exploitation peut être faite de l’intelligence artificielle dans une équipe cycliste ?
Quand on parle « data » aujourd’hui, on ne peut pas ne pas évoquer l’intelligence artificielle. C’est un vaste domaine qui comprend entre autres les algorithmes de « Machine Learning », ou « Apprentissage Automatique » en français. De manière très simplifiée, ces algorithmes « apprennent » à partir de la force statistique de grosses bases de données, pour ensuite effectuer des prédictions. Prenons un col, et dix milles coureurs qui l’ont gravi, avec leurs caractéristiques physiques, leur niveau de puissances, les conditions météos, etc… Si on ajoute un nouveau coureur qui n’a pas encore gravi ce col, on va pouvoir prédire son temps d’ascension, en connaissant son profil, son niveau de forme actuel, la météo du jour. Plus on aura de données pertinentes, et plus on pourra prédire finement son temps d’ascension. Quand je discute avec d’autres Data Scientists, certains ont tendance à penser que j’utilise beaucoup d’algorithmes de Machine Learning, comme c’est le cas dans d’autres domaines. Mais en réalité, j’en fais relativement peu pour le moment, non pas que je manque d’idées, j’en ai plein, mais il s’agit plus d’une question de priorités, et de temps ! Cela ne signifie pas qu’à l’avenir l’intelligence artificielle ne sera pas utilisée par l’équipe, elle pourrait apporter un plus non négligeable pour le recrutement ou les stratégies de course en temps réel par exemple, mais il ne faut pas croire qu’elle va tout révolutionner immédiatement. Certains facteurs de la performance ont aussi un caractère trop chaotique pour pouvoir être facilement mis en équation. Je pense au vent, aux faits de course, à l’état de forme d’un coureur.
« J’ai aussi mon rôle à jouer »
Quelle est la richesse de cette base de données dont tu parlais ?
Je me suis amusé à calculer un ordre de grandeur du nombre de données que l’on peut récolter en une année, en comptant nos quarante coureurs, équipes Conti et WorldTour réunies. Les fichiers d’entraînement et de courses nous donnent approximativement 2,5 milliards de valeurs numériques par an. C’est à peu de chose près le nombre de secondes dans la vie d’un humain ! Ça a quelque chose de vertigineux. Les données nous permettent aussi de remonter dans le passé. Par exemple, si on veut connaître les performances d’Arnaud Démare sur tous ses Milan-Sanremo, c’est facile et rapide si la base de données est bien gérée. Ça peut au contraire prendre beaucoup de temps si on doit aller rechercher les fichiers un par un dans des dossiers. Notre base de données nous permet ainsi de suivre l’évolution de nos coureurs, sur l’ensemble de leur carrière pour certains.
Combien de variables ou paramètres couvrent ces « deux milliards de valeurs » par an ?
Si on s’en tient aux variables strictes données par un capteur de puissance à chaque seconde, on dénombre entre quinze et vingt variables, mais toutes n’ont pas la même importance. Il y a les données de pédalage : la puissance, la cadence de pédalage, l’équilibre jambe droite / jambe gauche, et d’autres plus techniques. Il y a aussi les données de positionnement : les coordonnées GPS, l’altitude ; ainsi que la température, la fréquence cardiaque et d’autres données plus anecdotiques. À côté de ça, on peut également relever des variables perceptives. Chaque jour, le coureur donne un score de 0 à 10 sur ses sensations de performance, de difficulté, sur son sommeil. Ces données perceptives ont aussi une grande importance. À partir des données de puissance, on calcule également les records de puissance d’un coureur pour différentes durées qui vont d’une, cinq, dix, vingt secondes, etc… échelonnées jusqu’à cinq heures. Ce sont là-aussi des données cruciales qui permettent aux entraîneurs de savoir à quel niveau évolue leurs coureurs avec des information du type : « aujourd’hui, dans la bosse finale de la course, le coureur a évolué à 97% de son record sur une minute qui date d’il y a deux ans ». Ce type d’information remis dans le contexte global de la course (difficulté, météo, fatigue des jours précédents), offre d’excellents repères au tandem coureur-entraîneur.
Quel rapport as-tu aux coureurs depuis ton poste ?
Je ne suis pas en contact avec les coureurs au quotidien, mais il y a deux-trois exceptions. Valentin Madouas, par exemple, effectue son stage de fin d’études à mes côtés. L’objectif est que l’on discute de ce que je fais, et que lui me partage son œil de coureur, qui est différent de celui de l’entraîneur, mais qui est très intéressant pour moi. Je traite les données, mais je ne les vis pas. En parler avec un coureur comme Valentin est un vrai apport. J’ai aussi travaillé spécifiquement sur les données de contre-la-montre de Stefan Küng. C’est un coureur très intelligent qui a une analyse très fine de ses données. C’est un méticuleux, et ce n’est pas un hasard qu’il soit au niveau auquel il est. J’ai aussi eu l’occasion de montrer ce que je faisais aux coureurs de la Conti à Besançon, et à d’autres coureurs de la WorldTour en stage. Chacun est plus ou moins intéressé, mais c’est toujours intéressant de discuter avec les coureurs. Ça leur permet aussi de se rendre compte de ce qui est fait en interne, et on fait beaucoup de choses. Le pôle performance est très actif. Au même titre que ceux qui travaillent à Villepinte au niveau administratif, je suis un travailleur de l’ombre. On ne va pas me voir sur les courses, mais j’ai aussi mon rôle à jouer et ma pierre à apporter à l’édifice.
Aucun commentaire