IA & Sport

Contexte

La performance sportive s’est imposée comme un domaine d’application privilégié de EuroMov Digital Health in Motion sur ce contrat. Elle est née de la communion des compétences conjointes en physiologie du sport et en intelligence artificielle de l’unité.

 Notre société est de plus en plus digitalisée grâce à l’utilisation d’un large éventail de technologies numériques qui génèrent des flux de données regroupés sous le terme Big Data. C’est notamment le cas des données liées au sport collectées par le biais de montres connectées, d’applications pour smartphones, de capteurs de positionnement géographique (GPS), ou encore via des textiles intelligents. Ces données doivent notamment permettre d’identifier les indicateurs clés de la performance et d’expliquer les différences dans les résultats d’événements sportifs. Elles peuvent aussi guider la prescription et la stratégie d’entraînement. De là à devenir un outil essentiel pour améliorer les performances ou prévenir les blessures, il n’y a qu’un pas. Ces données exploitées avec les outils de l’apprentissage machine ouvrent de nouvelles perspectives pour la recherche en sciences du sport et en sciences des données. C’est la perspective qui nous a incité EuroMov DHM à lancer plusieurs thèses durant le contrat Hcéres dans le domaine de la gestion de la performance sportive.

Résultats

Cette réflexion a été initiée avec la thèse de Frank Imbach. Les premiers modèles des effets de l’entrainement sur la performance athlétique sont connus sous le nom de modèles « Fitness-Fatigue » (FFM). Un inconvénient majeur des FFMs réside dans le fait qu’ils ne sont constitués que d’une seule donnée d’entrée, bien que la performance athlétique soit multifactorielle. La thèse a proposé plusieurs approches multivariées propres aux statistiques et à l’apprentissage automatique dans différentes applications sportives. La quantification de la charge d’entraînement pour l’entraînement en résistance constitue en effet une problématique de recherche à part entière. La thèse a proposé une méthodologie de modélisation basée sur la généralisation des modèles et a comparé un modèle FFM à des procédures de régularisation et des modèles d’apprentissage automatique multivariés chez des patineurs élites par exemple. Des approches en apprentissage automatique telles que les méthodes d’apprentissage ensemblistes ont été envisagées pour améliorer le pouvoir prédictif des FFMs.

Résultats

Les données collectées à partir des dispositifs portables fournissent des informations utiles pour comprendre l’activité d’un joueur, sa performance en compétition ou les blessures à l’entrainement. Pour se faire, une approche consiste à réaliser des analyses descriptives, de sorte à caractériser les intensités d’exercice et les performances au fil du temps et d’en faire émerger des relations analytiques. Des analyses inférentielles suivent en donnant des premières interprétations vis-à-vis des variables d’intérêt, provenant d’un ou de plusieurs outils technologiques. Les interprétations sur les relations entre les doses d’entraînement quotidiennes et les performances constituent un bon exemple. Avec suffisamment d’informations recueillies sur plusieurs mois voire plusieurs années, des analyses prédictives peuvent être déployées pour estimer une performance le jour « J » ou encore apporter des informations utiles aux entraîneurs, à l’équipe ou aux joueurs dans le but d’orienter les protocoles d’entraînement pour optimiser la prescription (volume, intensité et type d’exercice) et ainsi la performance. Par exemple, les résultats de l’étude de Vallance et al. (2020) au cours d’une saison sportive chez des joueurs de football élite montrent qu’en fonction de la complexité du modèle prédictif, la performance de classification pour prédire les risques de blessures peut atteindre 100%, en particulier avec un horizon temporel d’un mois. En outre, il apparaît que les variables subjectives (telles que la qualité du sommeil, la fatigue, la forme, l’humeur, la satisfaction et plaisir) s’avèrent être des facteurs importants dans la prédiction des risques de blessure, tout comme peut l’être la distance parcourue. Ces premières informations permettent de guider la programmation individualisée des entrainements de façon à réduire le risque de blessure. Ainsi, la thèse de Emmanuel Vallance a permis de montrer que le grand nombre de caractéristiques enregistrées par les capteurs GPS et inertiels (charge externe) et les questionnaires sur le bien-être (charge interne) peuvent être utilisés conjointement dans un modèle multidimensionnel non linéaire basé sur l’apprentissage automatique pour une meilleure prédiction des blessures sans contact.

Résultats

Dans la suite de ces travaux, la thèse en cours de Iwen Diouron avec le Montpellier Hérault Sports Club étudie des modèles d’apprentissage machine pour la mise en place d’indicateurs de forme du joueur de football professionnel à l’aide de modèles prédictifs. Elle s’intéresse plus particulièrement à l’évaluation des adaptations cardiaques des joueurs de football professionnels par l’étude des variations d’un indicateur de l’aptitude cardiovasculaire (appelé, ΔHR) sur une saison entière. Le calcul de ΔHR se base sur la prédiction de la fréquence cardiaque à partir de données de charges externes, perceptives et de données contextuelles (données multimodales) ainsi que sur des modèles non-linéaires performants sur ce type de tâche (Deep learning, Xgboost, random forest, etc).

Résultats

Une problématique commune aux différentes applications de l’intelligence artificielle et plus spécifiquement du machine learning est la nécessité de disposer de données, or dans le sport, certaines données sont renseignées par le biais d’une intervention humaine ce qui entraîne une problématique de gestion des valeurs manquantes lors de la collecte des données nécessaires à l’apprentissage des modèles d’IA. Par exemple, la quantification de la charge de travail ressentie par un athlète nécessite que celui-ci remplisse un formulaire à l’issue de son entraînement (le Rating of Perceived Exertion, RPE, est la mesure de la perception de l’effort par le sportif). Cette contrainte est à l’origine de nombreuses valeurs manquantes dans le suivi de l’athlète. Nous avons proposé une approche pour l’inférence du ressenti de la charge d’entrainement dans le cadre de la théorie des fonctions de croyances dans la thèse de Rayane Elimam. Notre approche se distingue par le fait qu’elle permet d’associer un niveau d’incertitude aux valeurs de remplacement des valeurs manquantes (valeurs imputées). En théorie, cela nous a conduits à étendre la méthode de classification Evidential K-Nearest Neighbor (EKNN) de T. Denoeux aux problèmes de régression et à évaluer l’impact de la modélisation de l’incertitude dans le processus d’imputation en ce qui concerne la tâche prédictive (Elimam et al., 2022).

L’imperfection des données relatives au sport nécessite donc d’avoir recours à des cadres mathématiques appropriés. Dans nos études, nous avons utilisé la théorie des fonctions de croyance (aussi appelée théorie de l’évidence de Dempster-Shafer) qui est un cadre mathématique utilisé pour modéliser et raisonner sur l’incertitude. Elle constitue une alternative aux probabilités classiques et est particulièrement utile lorsqu’on ne dispose pas d’informations suffisantes pour attribuer de probabilités précises. Elle permet ainsi d’attribuer une masse de croyance à chaque sous-ensemble de l’univers de discours. Cette masse est ensuite utilisée pour calculer la croyance totale et la plausibilité attribuables à chacun de ces sous-ensembles, l’écart entre les deux grandeurs permet alors d’associer un intervalle d’incertitude à chaque sous-ensemble de l’univers de discours. Ainsi, ce cadre formel nous a permis de mieux quantifier l’impact de l’incertitude et de l’imprécision des données sur la prédiction de performances, de mieux gérer la part de subjectivité dans la prédiction du RPE.

Nous avons alors montré comment des classifieurs alternatifs, que nous appelons classifieurs prudents, peuvent exploiter le cadre des fonctions de croyance pour remettre en question la forme classique des sorties des classifieurs qui se résume systématiquement à une classe précise. Nous avons proposé des sorties alternatives exprimant les doutes/hésitations du classifieur par le biais d’un sous-ensemble de classes potentielles lorsque prendre une décision plus précise sur la base du contenu informationnel des données exploitées nécessiterait une prise de risque non explicable. Ces travaux ont permis de proposer une contribution théorique à la décision prudente (Imoussaten et al., 2022) et se poursuivent dans le cadre de la thèse de Théo Dupuy. Celle-ci porte sur la prédiction du retour au jeu d’un athlète professionnel après une blessure grave (e.g. ishio-jambier). Il s’agit de suivre la dynamique du retour de blessure, en considérant des données sous forme de séries temporelles multivariées. La particularité de ce travail est la quantification dynamique de l’incertitude dans les données afin de mettre en place un système d’IA adaptatif et prudent.

Impacts

  • Des collaborations avec le sport d’élite comme le Montpellier Hérault Sports Club ou encore avec l’équipe nationale de Handball dans le cadre de France 2024 ;
  • Mise à disposition de grands jeux de données partagés avec des clubs de volley, football ou rugby ;
  • Des publications

Références

  • Vallance, E., Sutton-Charani, N., Imoussaten, A., Montmain, J., Perrey, S. (2020). Combining internal- and external-training-loads to predict non-contact injuries in soccer, Appl. Sci. 2020, 10(15), 5261, doi :Appl. Sci. 2020, 10(15), 5261 (https://doi.org/10.3390/app10155261)
  • Vallance, E., Sutton-Charani, N., Guyot, P., Perrey, S. (2023). Predictive modeling of the ratings of perceived exertion during training and competition in professional soccer players, Journal of Science and Medicine in Sport, 26 (6), pp. 322 – 327, DOI: 10.1016/j.jsams.2023.05.001
  • Gómez-Piqueras, P., Martínez-Serrano, A., Freitas, T. T., Gómez Díaz, A., Loturco, I., Giménez, E., Brito, J., García-López, D., Giuria, H., Granero-Gil, P., Huygaerts, S., Cos, F., Calleja-González, J., Vallance, E., Sáez de Villarreal, E., & Alcaraz, P. E. (2024). Weekly Programming of Hamstring-Related Training Contents in European Professional Soccer. Sports, 12(3), 73. https://doi.org/10.3390/sports12030073 73
  • Imbach, F., Sutton-Charani, N., Montmain, J., Candau, R, Perrey, S. (2022). The use of Fitness-Fatigue models for sport performance modelling: conceptual issues and contributions from machine-learning, Sports Medicine, 8(29), https://doi.org/10.1186/s40798-022-00426-x
  • Imbach, F., Perrey, S., Chailan, R., Méline, T., & Candau, R. (2022). Training load responses modelling and model generalisation in elite sports. Scientific reports. doi : https ://doi.org/10.1038/s41598-022-05392-8.
  • Imbach, F., Candau, R., Chailan, R., & Perrey, S. (2020). Validity of the Stryd power meter in measuring running parameters at submaximal speeds. Sports, 8(7), 103.
  • Elimam, R., Sutton-Charani, N., Perrey, S., Montmain, J. (2022). Uncertain imputation for time-series forecasting: Application to COVID-19 daily mortality prediction, PLOS Digit Health, 1(10),  https://doi.org/10.1371/journal.pdig.0000115
  • Elimam, R., Sutton-Charani, N., Perrey, S., Montmain, J. (2023). Multi-output regression for the prediction of world-class performances in women’s handball. IEEEAccess, reviewing process.
  • Abdelhak Imoussaten , Lucie Jacquin. (2022). Cautious classification based on belief functions theory and imprecise relabelling,  International Journal of Approximate Reasoning, 2022, 142, pp.130-146. ⟨10.1016/j.ijar.2021.11.009⟩

Médiations scientifiques

  • The Conversation – Football : quand les données se mettent au service de la performance
  • Stéphane Perrey, Université de Montpellier; Gérard Dray, IMT Mines Alès – Institut Mines-Télécom et Jacky Montmain, IMT Mines Alès – Institut Mines-Télécom, mars 2023
  • https://theconversation.com/football-quand-les-donnees-se-mettent-au-service-de-la-performance-199318
  • Podcast : Sport augmenté : le numérique en piste par Ingrid Colleau,
  • Invités : Jacky Montmain et Pierre Slangen, chercheurs à IMT Mines Alès, juin 2024.
  • https://imtech.imt.fr/2024/06/14/sport-augmente-le-numerique-en-piste/

Thèses soutenues :

  • Thèse de Frank Imbach , Modélisation des réponses aux charges d’entraînement pour guider la performance sportive, 2021 – https://theses.fr/2021MONT4005
  • Thèse de Emmanuel Vallance, Apports de modèles de prédiction en apprentissage automatique dans le suivi de l’entraînement en Football professionnel, 2023 – https://theses.fr/s234237
  • Thèse de Rayane Elimam, Apprentissage automatique pour la prédiction de performances : du sport à la santé, 2024 – https://theses.fr/2024EMAL0005

Thèses en cours :

  • Thèse de Iwen Diouron avec le Montpellier Hérault Sports Club – https://imt-mines-ales.hal.science/hal-04660824/document
  • Thèse de Théo Dupuy – Modèles prudents pour l’IA adaptative – https://theses.fr/s403497