Article
Yann Desmarais, Denis Mottet, Pierre Slangen, Philippe Montesinos.
A review of 3D human pose estimation algorithms for markerless motion capture.
Computer Vision and Image Understanding, 2021, 212, pp.103275.
DOI: https://doi.org/10.1016/j.cviu.2021.103275
HAL: https://hal.science/hal-03344404/
Preprint: https://arxiv.org/abs/2010.06449
Contexte
L’estimation de la pose humaine est un domaine de recherche très actif, stimulé par ses applications importantes dans les domaines de la robotique, du divertissement ou des sciences de la santé et du sport. Les progrès réalisés dans le domaine des réseaux convolutifs ont entraîné des améliorations notables dans l’estimation de la pose en 2D, ce qui a permis aux techniques modernes de capture de mouvement sans marqueur en 3D d’obtenir une erreur moyenne par articulation de 20 millimètres. Cependant, avec la prolifération des méthodes, il devient de plus en plus difficile de faire un choix éclairé.
Contribution
Nous passons ici en revue les principales méthodes d’estimation de la pose humaine des cinq dernières années, en nous concentrant sur les métriques, les critères de référence et les structures des méthodes. Nous proposons une taxonomie basée sur l’incertitude de mesure sur la précision, la vitesse et la robustesse que nous utilisons pour classer les méthodes et en déduire des orientations pour la recherche future.

Vue d’ensemble des différents niveaux d’estimation de la pose humaine en 3D sans marqueur.
A : Approches monoculaires d’estimation de la pose en 2D
B : Exploitation des caractéristiques 3D et détection 2D multi-vues comme entrée pour les détecteurs 3D.
C : Différentes familles d’estimation de la pose en 3D.
D : Exemples d’approches d’apprentissage appliquées à l’estimation de la pose humaine.
Taux de citation