Extracción de conocimiento espacial de transmisiones de pista y campo para la estimación monocular de la pose humana en 3D
HogarHogar > Blog > Extracción de conocimiento espacial de transmisiones de pista y campo para la estimación monocular de la pose humana en 3D

Extracción de conocimiento espacial de transmisiones de pista y campo para la estimación monocular de la pose humana en 3D

Sep 09, 2023

Scientific Reports volumen 13, Número de artículo: 14031 (2023) Citar este artículo

Detalles de métricas

Recopilar grandes conjuntos de datos para investigaciones sobre la locomoción humana es un proceso costoso y que requiere mucha mano de obra. Los métodos para estimar la pose humana en 3D en la naturaleza son cada vez más precisos y pronto podrían ser suficientes para ayudar con la recopilación de conjuntos de datos para el análisis de la cinemática en ejecución a partir de datos de transmisiones de televisión. En el ámbito de la investigación biomecánica, las pequeñas diferencias en los ángulos tridimensionales juegan un papel importante. Más precisamente, los márgenes de error del proceso de recopilación de datos deben ser menores que la variación esperada entre atletas. En este trabajo, proponemos un método para inferir la geometría global de las grabaciones de estadios de atletismo utilizando demarcaciones de carriles. Al proyectar esqueletos 3D estimados nuevamente en la imagen utilizando esta geometría global, mostramos que los métodos de estimación de pose humana 3D de última generación no son (todavía) lo suficientemente precisos para ser utilizados en la investigación cinemática.

La aplicación de la estimación de la pose humana (HPE) en los deportes ha ido ganando popularidad constantemente. Una revisión reciente muestra una gran cantidad de posibles aplicaciones1. Estos van desde la estimación de parámetros típicos de la marcha2, pasando por la detección de “malas posturas”3 hasta el entrenamiento de artes marciales4. Si bien hay una serie de publicaciones que demuestran un rendimiento notable en el reconocimiento de acciones específicas, no se han realizado muchas investigaciones sobre la aplicación de estos métodos para la adquisición de datos en la investigación en ciencias del deporte. Por ejemplo, utilizando grandes cantidades de datos cinemáticos de corredores de talla mundial, podríamos trabajar para responder preguntas como: ¿Cuáles son las características de una buena forma de correr? Esta pregunta aparentemente fundamental aún no ha sido completamente respondida5, ya que es necesaria más investigación sobre los patrones de movimiento de todo el cuerpo al correr.

Existe una gran variación en la locomoción humana y no existe una única forma o técnica de carrera correcta5,6. Sin embargo, se ha demostrado que la cinemática de la carrera representa hasta el 94% de la variación en la economía de carrera7 para los atletas novatos. Hasta el momento, no existe un modelo unificado para determinar la eficiencia de carrera y evaluar la cinemática de carrera. En cambio, la literatura trata aspectos aislados de la forma de correr, como la velocidad del talón o el ángulo de extensión del muslo8. Para hacer afirmaciones más generalizadas y construir un modelo de carrera más holístico, necesitaríamos conjuntos de datos grandes y detallados sobre la cinemática de carrera. La configuración de un laboratorio cinemático convencional es muy costosa y requiere mucho tiempo9. Utiliza marcadores que se fijan al atleta y utiliza cámaras de muy alta precisión y velocidad. Si bien existen enfoques para validar los sistemas de visión en el laboratorio10, las limitaciones del entorno de laboratorio persisten: es difícil conseguir que atletas de talla mundial se sometan a estas investigaciones y prácticamente imposible recopilar un conjunto de datos lo suficientemente grande como para tener en cuenta toda la variabilidad posible entre Atletas.

Por otro lado, un enfoque puramente basado en la visión para recopilar los mismos datos podría ser una alternativa barata y altamente escalable. Sin embargo, este enfoque debería validarse con mediciones estándar. Si es lo suficientemente confiable, permitiría aprovechar las grabaciones existentes de transmisiones de televisión para recopilar conjuntos de datos a gran escala. Debido a la densa historia de las grabaciones, sería posible realizar estudios a largo plazo en atletas individuales para monitorear sus cambios en la cinemática a lo largo del tiempo, así como en el transcurso de una sola carrera. Será posible estudiar factores como la fatiga en combinación con el ritmo y la estrategia de carrera, que no son accesibles en un laboratorio.

Para validar y utilizar la estimación de la pose humana en 3D en la naturaleza como herramienta de investigación para la ciencia del deporte, afortunadamente existe un gran subconjunto de eventos de carreras que deberían permitir la derivación de información adicional a partir de imágenes existentes: carreras en un estadio de atletismo. Las demarcaciones de los carriles, así como los marcadores adicionales de la línea de salida y de meta, están estandarizados entre las sedes. Utilizando estos marcadores, es posible triangular la cámara en el estadio y así reconstruir la escena completa en 3D.

En este artículo, demostramos que es posible extraer información de escenas 3D a partir de grabaciones de pista y campo ordinarias (e históricas). Construimos mediante programación todos los parámetros de cámara extrínsecos e intrínsecos posibles para un fotograma determinado. Además, encontramos la geometría de escena exacta para una serie de secuencias de vídeo de prueba. Utilizando esta geometría de escena real, demostramos las deficiencias y oportunidades de los métodos HPE 3D monoculares actuales.

La figura 1 ilustra el proceso común de estimación de la pose humana en 3D. Durante la captura, el esqueleto real (a) se proyecta en el metraje de la transmisión de televisión (b), eliminando información 3D sobre el mundo (e). Usar un esqueleto 2D (c) para estimar una pose 3D (d) implica una cierta geometría 3D (f) o incluso aprovecha suposiciones 3D explícitas sobre la escena. Los esqueletos de HPE 2D son consistentes con la pose y la geometría 3D reales (a)\(\circ \)(e)=(c), así como con la pose estimada y la geometría implícita (d)\(\circ \)( f)=(c) (\(\circ \)-operador: “esqueleto del proyecto usando geometría”). Si la geometría implícita fuera correcta (y por lo tanto igual a la geometría real), entonces la pose estimada coincidiría exactamente con la pose 3D real. En nuestros experimentos, medimos la desviación entre (d)\(\circ \)(e) y (c). Si la pose 3D real (a) es igual a la pose 3D estimada (d), entonces (d)\(\circ \)(e)=(c). Sin embargo, encontramos que (d)\(\circ \)(e) y (c) se desvían significativamente. Deducimos que el error esperado entre la pose 3D estimada y la pose 3D real hace que su uso sea inviable para la investigación cinemática.

Descripción general del proceso común de estimación de la pose humana (HPE) en 3D. El esqueleto 3D real del atleta (a) se proyecta en la imagen (b). Durante este paso, se pierde la geometría real de la escena (orientación de la cámara y ubicación con respecto al atleta) (e). Un esqueleto 2D se puede anotar o estimar de forma fiable mediante HPE 2D (c). Recuperar una pose 3D (d) a partir de las ubicaciones de las articulaciones 2D implica una cierta geometría (f). Ambas combinaciones de pose real más geometría (a) y (e) y pose estimada más geometría implícita (d) y (f) dan como resultado la misma proyección de ubicación de articulación 2D (c) (cf. flechas azules gruesas).

Las principales contribuciones de este trabajo son: (1) Demostramos que existe un error significativo al proyectar HPE monocular 3D en 2D para los métodos actuales en un escenario que no se ha observado en la sección de capacitación "Experimentos". (2) Para ello, desarrollamos un método novedoso para descubrir todas las geometrías de escena candidatas basándose únicamente en el conocimiento de un único punto de fuga: Sección "Método". (3) Llegamos a un único grado de libertad para elegir geometría 3D y anotar manualmente 158 fotogramas de actuaciones de atletas de élite internacionales. (4) Mostramos que los métodos HPE 3D monoculares actuales (incluso cuando se entrenan con datos adicionales) no se generalizan hacia estos datos.

Los métodos monoculares de estimación de la pose humana (HPE) en 3D actúan sobre información aplanada sobre el mundo: en el proceso de tomar la fotografía, las coordenadas reales del mundo en 3D se proyectan en el plano de la imagen en 2D. Recuperar una pose humana 3D a partir de esta información 2D implica que se intenta recuperar esta información perdida de la escena (cf. Fig. 1). Para HPE 2D, es posible anotar manualmente imágenes existentes sin acceder al proceso de grabación original. Los conjuntos de datos y puntos de referencia más comunes utilizan imágenes arbitrarias disponibles públicamente y las etiquetan densamente mediante crowdsourcing11,12. Utilizando estos conjuntos de datos y compitiendo en estos puntos de referencia, los métodos actuales de última generación en 2D HPE funcionan cada vez más cerca del rendimiento a nivel humano13,14,15. Por el contrario, para HPE 3D, es necesario registrar datos de pose reales para los datos de entrenamiento, lo que requiere una configuración de laboratorio más compleja. Por ejemplo, el conjunto de datos humanos de 3,6 millones consta de un conjunto de 11 actores en 17 escenarios diferentes, grabados con 4 cámaras sincronizadas y captura de movimiento basada en marcadores16.

Un enfoque para 3D HPE se basa en datos de vídeo. Si un sistema puede rastrear un esqueleto 2D en varios fotogramas posteriores, puede combinar estos fotogramas y resolver la tarea combinada de predecir un esqueleto 3D que explique todas las proyecciones 2D de los humanos en la escena17,18,19. Existe una gran cantidad de trabajos en este sentido, que buscan coherencia aprovechando la longitud de las extremidades17, el movimiento realista20 o el contexto temporal18. Otra clase de métodos intenta resolver el problema de recuperar la información 3D de las poses humanas prediciendo simultáneamente la profundidad de la imagen actual21,22,23. No es necesario combinar estos métodos con información de vídeo. Al predecir la distancia de cada objeto, persona y superficie en el encuadre a la cámara, estos métodos construyen la llamada imagen 2.5D que se puede combinar con HPE 2D para derivar poses 3D. Los enfoques modernos resuelven estas dos tareas simultáneamente, induciendo un sesgo en las posibles configuraciones del esqueleto 3D. En su estudio21, Sarandi et al. Además, modele los parámetros intrínsecos de la cámara para llegar a un sistema de última generación para HPE 3D monocular en la naturaleza (en lo sucesivo, denominado MeTRAbs).

Para estimar los parámetros de la cámara, también se pueden utilizar conocimientos del dominio específico de los deportes24,25,26,27. Estos métodos comparan una plantilla de cancha o campo conocida con la imagen visible para derivar una transformación de proyección. En particular, estas plantillas contienen esquinas y líneas ortogonales, lo que hace identificables distintos puntos de fuga. Por el contrario, nuestro método deriva la geometría 3D de la escena usando solo restricciones de líneas paralelas (con distancia conocida), usando un único punto de fuga y consistencia temporal.

Visión por computadora para la cinemática en los deportes Dentro del alcance de la investigación actual sobre la cinemática de la marcha y la carrera, los métodos de aprendizaje automático encuentran cada vez más aplicaciones para la recopilación de datos28 y el descubrimiento de señales en grandes conjuntos de datos29,30. Existe una gran variación en la ejecución de carrera entre sujetos5,6. Por lo tanto, estudiar la cinemática de todo el cuerpo al correr y descubrir señales más allá de la comparación de aspectos individuales requiere conjuntos de datos combinados de muchos corredores. Es bien sabido que reconocer características particulares de la marcha requiere grandes cantidades de datos31,32.

Xu et al.31 experimentaron con una combinación de datos cinemáticos (movimiento) y cinéticos (fuerzas) para tratar de comprender las diferencias en los patrones de marcha de corredores de bajo y alto kilometraje. Encuentran que el tobillo y la rodilla transmiten señales en el plano sagital (vista ortogonal a la dirección del movimiento) del corredor. Utilizando un conjunto de datos del orden de cientos de corredores, entrenan una red neuronal para clasificar en diferentes categorías discretas de kilometraje semanal y luego analizan los pesos aprendidos. Sin embargo, los autores reconocen que la gran variación en los patrones de marcha hace que sea inviable inferir declaraciones de orden superior más allá de predecir el kilometraje semanal.

Hay problemas a la hora de traducir los hallazgos de laboratorio sobre correr en cinta a la naturaleza. Por ejemplo, investigaciones independientes que midieron la progresión del ángulo de la rodilla entre carreras en interiores y exteriores mostraron diferencias de 2–3\(^{\circ }\)33,34. Incluso diferencias de ángulos tan pequeñas pueden cambiar la economía de carrera de los atletas novatos7. Rendos et al.9 muestran que en los triatletas hay una diferencia significativa de 2–4\(^{\circ }\) en la flexión de la rodilla entre el calentamiento y durante la fase de transición de una carrera. En general, estos hallazgos indican que la carrera se estudia mejor en el campo y que se requiere una alta precisión angular (por debajo de 3\(^\circ \) error). Esto motiva nuestro estudio: nuestro objetivo es validar la precisión del HPE 3D monocular a partir de grabaciones televisivas de carreras en el campo.

Calibración de cámara y registro de campos deportivos La calibración de la cámara a partir de imágenes de transmisión existentes se ha utilizado para analizar eventos deportivos. Los siguientes trabajos aprovechan el hecho de que las dimensiones y las marcas de líneas son bien conocidas en los deportes de pelota: Chen y Little generan datos sintéticos con correspondencias 2D-3D conocidas para entrenar una red siamesa que predice aproximadamente la orientación de una cámara fija. Refinan la suposición inicial utilizando las diferencias entre la escena simulada y los bordes de la imagen real35. Chu et al.36 amplían esta idea permitiendo puntos clave escasos en lugar de detecciones de líneas completas. Theiner y Ewerth proponen un método que resuelve la tarea de una sola vez en lugar de refinar una suposición inicial37. Todos estos métodos detectan primero puntos clave y esquinas de líneas conocidas en la imagen y luego calculan una homografía que asigna los puntos de la imagen a una escena 3D, que a su vez determina la posición absoluta de la cámara en el estadio. En nuestro escenario, tales enfoques no son aplicables, porque solo conocemos la distancia entre líneas paralelas, pero no sabemos exactamente a qué posición en el estadio apunta la cámara. Además, sólo utilizamos líneas que son todas paralelas entre sí. Debido a la colinealidad resultante de nuestros datos de entrada, no se puede calcular una homografía. En su lugar, resolvemos dos subtareas, a saber, la detección de carriles y los puntos de fuga.

Detección de carriles El algoritmo clásico de detección de segmentos de línea es Hough Line Transforms38, que utiliza un esquema de votación sobre todos los píxeles de la imagen para determinar líneas para un umbral específico. Este método es propenso a errores al cambiar las condiciones de la imagen y es costoso desde el punto de vista computacional. Los enfoques modernos siguen siendo computacionalmente complejos, pero están orientados a la ejecución paralela en GPU: Dai et al.39 utilizan una red neuronal convolucional para resolver la tarea. Xu et al.40 utilizan los mecanismos de autoatención de la reciente arquitectura de transformadores para superar el desafío de seleccionar los umbrales correctos. Li et al.41 amplían los métodos anteriores para que también funcionen de forma fiable en imágenes con grandes distorsiones de la lente. Los segmentos de línea ahora se pueden combinar de una manera semánticamente significativa para inferir los marcadores del carril de carrera. Nuestro enfoque refleja fielmente el trabajo de Mammeri et al.42, quienes proponen un método basado en la transformada de Hough y el seguimiento en el tiempo para lograr coherencia.

Puntos de fuga Por último, en nuestro enfoque, combinamos los carriles detectados para luego inferir el punto de fuga principal. Este punto de fuga, en combinación con los carriles, es la única base de nuestro enfoque de calibración. Al igual que con los otros pasos anteriores, existen algunos enfoques populares de aprendizaje profundo. Experimentamos con el enfoque más moderno de Zhou et al.43. En lugar del típico esquema de votación de Hough, realizan una transformación en un espacio cónico en el que agregan directamente información sobre los puntos de fuga, mientras prácticamente omiten la parte del segmento de línea del método. Si bien este método funciona excepcionalmente bien en sus puntos de referencia objetivo, observamos algunos problemas y desviaciones menores en nuestros datos: las líneas que apuntaban hacia los puntos de fuga resultantes no se alineaban con los marcadores de carril visibles. Por lo tanto, nos apegamos a un enfoque similar al de Mammeri et al.42.

Múltiples parámetros de cámara plausibles para un solo cuadro. La curva graduada de color muestra todos los parámetros posibles y la ubicación relativa de la cámara resultante, consistente con el punto de fuga del carril. Se muestran cuatro de estos conjuntos de parámetros y su representación 2D/3D (con coincidencia de colores). Izquierda: Proyección 2D de escena con carriles (negro) y esqueleto. Centro: Escena 3D con esqueleto 3D ubicado consistente con la Proyección 2D. Derecha: Superposición de todos los esqueletos proyectados en 2D para las respectivas geometrías. Esqueleto correcto de 2D HPE en negro discontinuo. Mejor visto en color.

A continuación, primero presentamos nuestra línea argumental y luego damos detalles sobre el método de extracción que utilizamos para mostrar las deficiencias de los métodos actuales y las oportunidades para enfoques futuros. Introducimos un método que extrae un conjunto denso de posibles configuraciones de cámara que son consistentes con los carriles en una escena determinada desde un solo punto de fuga (ver Fig. 2).

Nuestro método funciona únicamente a partir del conocimiento de un único punto de fuga. A partir de ahí, determinamos los parámetros extrínsecos de la cámara para la rotación \({\textbf{R}} = {\textbf{R}}_x \cdot {\textbf{R}}_y \cdot {\textbf{R}}_z \ en {\mathbb {R}}^{3\times 3}\) (azimut, elevación y balanceo de la cámara), así como la ubicación de la cámara con respecto a la escena \({\textbf{t}}\in {\mathbb {R}}^{3\times 1}\). Suponemos que tenemos píxeles cuadrados, no sesgados y definimos el punto principal de nuestra cámara virtual en el centro exacto del encuadre, dejando así sólo el campo de visión como parámetro intrínseco libre. Determinamos el campo de visión y creamos la matriz de cámara intrínseca \({\textbf{K}} \in {\mathbb {R}}^{3\times 3}\) y la matriz de proyección general \({\textbf {P}} = {\textbf{K}} \cdot [{\textbf{R}} | {\textbf{t}}] \in {\mathbb {R}}^{3\times 4}\). Para proyectar un punto 3D (X, Y, Z) nuevamente en coordenadas de píxeles (x, y), calculamos:

El último factor restante de la cámara de transmisión que este modelo no ha tenido en cuenta es la posible distorsión de la lente. Mostramos que esta distorsión es insignificante para nuestro argumento en el material complementario.

Resumen de nuestro enfoque. En la fila inferior (1, 4, 5, 6), la mejor estimación actual para la geometría de la escena se indica en azul. En (2) y (3) ilustramos los pasos de cálculo y procesamiento. Ver texto para más detalles.

La figura 3 ilustra nuestro enfoque como un diagrama de flujo. La fila inferior muestra la estimación actual de la geometría de la escena después de los pasos respectivos. Cada uno de los pasos en el siguiente listado se refiere a las subfiguras con la misma letra Fig. 3(1)–(6).

Comenzamos con una suposición aleatoria de la geometría de la escena. Como puede verse, las demarcaciones de los carriles blancos y la proyección azul de la geometría estimada de la escena no se alinean en absoluto (cf. Fig. 3(1)).

Primero extraemos segmentos de línea recta de la imagen usando una transformada lineal de Hough (mitad izquierda, segmentos azules) y agrupamos estos segmentos de línea en los carriles de la pista principal \({L_j}\) (mitad derecha, líneas amarillas). Determinamos el punto de fuga principal \(v_0\) como la intersección de los carriles \(L_j\) (indicado por líneas grises Fig. 3(2)).

A continuación, determinamos un conjunto denso de posibles pares de azimut y elevación que sean consistentes con el punto de fuga \(v_0\). La Fig. 3(3) muestra isolíneas de elevación. Cada una de las curvas (gris y degradado) tiene una elevación fija y los cambios en el azimut de la cámara conducen al movimiento indicado del punto de fuga simulado. A medida que la cámara azul en la Fig. 3(3) se desplaza de izquierda a derecha (púrpura a amarillo), el punto de fuga se desplaza de derecha a izquierda y se mueve a lo largo de la línea indicada. Cada intersección (puntos rojos) en la línea entre el centro de la imagen y \(v_0\) (línea discontinua) describe un par candidato de elevación y azimut. Cada uno de los pares azimut/elevación define una cámara C (cf. Fig. 3(3)).

Calculamos el giro de la cámara suponiendo que la línea del horizonte es horizontal. De este modo determinamos la matriz de rotación \({\textbf{R}}^C\) y actualizamos la estimación de la geometría de la escena para cada una de las cámaras candidatas C. Observe que en la Fig. 3(4), las líneas de la geometría de la escena apuntan parcialmente en la dirección correcta (línea verde central). Las líneas azules circundantes aún no son consistentes con la imagen visible, debido a un campo de visión (fov) incorrecto. El fov y la matriz intrínseca \({\textbf{K}}^C\) se pueden determinar utilizando la distancia de los puntos de intersección rojos en la Fig. 3(3) desde el punto de fuga objetivo \(v_0\). Adaptamos \({\textbf{K}}^C\) para desplazar el punto de fuga simulado a \(v_0\) (cf. Fig. 3(4)).

Esto da como resultado una geometría de escena que coincide con \(v_0\), lo que significa que las líneas paralelas proyectadas están alineadas con las demarcaciones de carriles en la pista. Sin embargo, todavía hay cierta diferencia entre la geometría de la escena calculada y los carriles determinados. Para manipular el ancho de las líneas proyectadas, adaptamos la distancia d de la cámara y desplazamos la cámara para alinearla perfectamente con la imagen. Usando d, el objetivo de visión de la cámara y la rotación \({\textbf{R}}^C\), podemos rastrear la ubicación exacta de nuestra cámara simulada y, por lo tanto, la traducción \({\textbf{ t}}^C\) (ver Fig. 3(5)).

Finalmente, calculamos la matriz de proyección general \({\textbf{P}}^C = {\textbf{K}}^C \cdot [{\textbf{R}}^C | {\textbf{t}}^ C]\) y llegar a la calibración candidata representada en la Fig. 3(6).

Como se indica en la Fig. 1, para que la pose 3D estimada coincida estrechamente con la pose 3D real, la geometría implícita debe coincidir con la geometría de la escena real. Los lectores pueden convencerse fácilmente de esto girando mentalmente un esqueleto 3D frente a una cámara (lo que equivale a que la cámara se mueva alrededor del objeto). Cualquier cambio en el acimut, la elevación o el giro de la cámara cambiará la proyección 2D del esqueleto. Por lo tanto, en la dirección inversa (levantar un esqueleto 2D a una escena 3D), el esqueleto 3D también debe cambiar con una cámara en movimiento para seguir proyectándose exactamente sobre el mismo esqueleto 2D fijo. De ello se deduce que un método HPE 3D perfecto utilizará implícitamente la geometría de escena correcta. No tenemos acceso a la geometría implícita de diferentes métodos monoculares 3D HPE. Pero podemos probar geometrías individuales proyectando la pose estimada (cf. Fig. 1d) usando la geometría real (e) en la imagen y comparándola con el esqueleto 2D original (c). Si esta proyección no coincide con el esqueleto 2D, entonces el método HPE 3D monocular implicaba una geometría de escena incorrecta. Nuestros experimentos (ver sección "Experimentos") investigarán este aspecto con más detalle. Como método auxiliar, también introducimos un esquema para derivar la geometría real utilizando las demarcaciones de carriles de la recta final en un estadio de atletismo.

Las demarcaciones de carril apuntan y se cruzan en el punto de fuga \(v_0\), que se encuentra en algún lugar fuera de la esquina superior izquierda de la imagen (cf. Fig. 3(2)). Nuestro método encuentra todos los conjuntos de parámetros de la cámara que dan como resultado puntos de fuga (\(v_0\), \(v_1^k\)), de manera que \(v_0\) siempre coincide con los carriles y \(v_1^k\) es el segundo punto de fuga definido por líneas ortogonales a las demarcaciones de carril en 3D (\(v_1^k\) se encuentra en algún lugar en la parte superior derecha de la imagen). La figura 2 (izquierda) muestra 4 geometrías ejemplares diferentes para el mismo \(v_0\) y diferente \(v_1^k\).

En la Fig. 2, se muestra el efecto en la proyección 2D para diferentes geometrías 3D. Demuestra la diferencia entre el mismo esqueleto 3D renderizado usando diferentes ubicaciones de cámara, todas las cuales son consistentes con los carriles visibles. Para ello, construimos una escena 3D mínima (ver Fig. 2, izquierda, líneas de cuadrícula negras) con dimensiones típicas de pista y campo. Simulando una cámara estenopeica y el proceso de renderizado, podemos limitar el posible conjunto de parámetros de la cámara a una línea en el espacio 3D (cf. Fig. 2, línea curva con gradación de color). Cada una de estas configuraciones de cámara tiene una posición de cámara única que se encuentra a lo largo del camino mostrado. Al renderizar la cuadrícula negra de la escena 3D (centro) en una cámara simulada y superponerla a la imagen de televisión original, se obtienen 4 proyecciones diferentes a la izquierda (parámetros correctos = marco naranja). Para cada una de las 4 cámaras simuladas, mostramos las posiciones 3D absolutas estimadas del atleta (centro). Utilizando un método HPE 3D monocular disponible en el mercado, colocamos al atleta en la escena y proyectamos los esqueletos 3D previstos nuevamente en 2D. La misma pose 3D da como resultado 4 proyecciones 2D diferentes (derecha), dependiendo de la geometría implícita de la escena. El HPE 2D original se muestra en negro/discontinuo. Observe que la reproyección de la geometría correcta (naranja) también difiere del esqueleto 2D correcto.

Nuestro método propuesto permite extraer la geometría de la escena y los parámetros de la cámara de una imagen con marcas típicas de carriles de pista y campo. Para nuestro enfoque, hacemos las siguientes suposiciones: cámara estenopeica; sin zoom digital; ubicación fija de la cámara (es decir, sin cámara araña); los dos principales puntos de fuga son horizontales; La estimación de la pose humana en 2D funciona perfectamente. Estos supuestos están validados empíricamente en el material complementario.

Nuestro método se sitúa a medio camino entre un enfoque de búsqueda en cuadrícula analítico y constructivo. En la sección "Discusión" analizamos por qué esto era preferible a un método basado en gradientes en este caso de uso. A continuación, primero describimos el impacto en \(v_0\) de cambiar diferentes parámetros en el proceso de simulación y luego trabajamos hacia atrás a partir de estos cambios para construir paso a paso conjuntos densos de parámetros que expliquen la imagen actual. Para ello, primero hacemos algunas observaciones generales sobre el proceso de renderizado a continuación. Los parámetros de nuestro proceso de renderizado son: posición de la cámara (x, y, z), orientación de la cámara (azimut, elevación, balanceo), campo de visión fov y distancia focal F.

Debido a las fuertes marcas en el suelo de los estadios de atletismo, podemos determinar fácilmente un punto de fuga \(v_0\) a partir de la imagen utilizando únicamente métodos de visión por computadora de bajo nivel, es decir, una transformada de Hough. Para hacer coincidir \(v_0\), invertimos el proceso de renderizado, investigando cada parámetro libre de la cámara e informando su impacto en el desplazamiento de \(v_0\).

Definimos el principal punto de fuga de la escena como el punto donde se cruzan los carriles de circulación (ver Fig. 3 (2, 3)). Para encontrar este punto, extraemos segmentos de línea de la imagen usando una Transformación de Línea Hough (implementación predeterminada de OpenCV, https://opencv.org/). Agrupamos los segmentos de línea resultantes y filtramos solo los segmentos que apuntan aproximadamente en la misma dirección. Además, combinamos segmentos de línea por sus ángulos de imagen exactos para llegar a una aproximación de los carriles para correr. Combinar las intersecciones por pares de estos carriles y realizar una votación mayoritaria conduce al punto de fuga del marco \(v_0\). En el material complementario, investigamos el impacto que la distorsión de la lente podría tener en nuestro método.

Posición de la cámara (\({\textbf{t}}\)). La óptica básica nos dice que mover la cámara sin cambiar su dirección da como resultado el mismo punto de fuga.

Orientación de la cámara (\({\textbf{R}}\)). En la Fig. 3(3) mostramos cómo se mueve el punto de fuga al realizar una panorámica (azimut) e inclinar (elevación) la cámara: Fig. 3(3) Sea el punto verde el punto de fuga de las demarcaciones de carril. Manteniendo fijos todos los demás parámetros de la cámara, si desplazamos la cámara (punto azul) hacia la izquierda, el punto de fuga se moverá hacia la derecha y se curvará hacia arriba. La línea gruesa y graduada muestra el curso del punto de fuga a medida que el acimut de la cámara cambia de 89\(^{\circ }\) (el más oscuro) a 1\(^{\circ }\) (el más brillante). Las curvas grises muestran la progresión del cambio de acimut para distintos valores de elevación.

Campo de visión y distancia focal (\({\textbf{K}}\)). Tanto el campo de visión como la distancia focal cambian las dimensiones del plano de la imagen en relación con la escena. Manteniendo fija la posición y orientación de la cámara, un cambio en estos parámetros significa un recorte mayor o menor de una superficie plana de imagen de tamaño infinito. Por lo tanto, los puntos de fuga se mueven en línea recta hacia el centro de la imagen (punto principal) al variar fov o F. Sin pérdida de generalidad, mantenemos F fijo en el futuro y solo consideramos cambios en fov. La línea negra discontinua en la Fig. 3(3) indica el cambio del punto de fuga al cambiar el fov. Cada intersección de la línea negra discontinua con una isolínea de elevación define un par de azimut/elevación que puede explicar el punto de fuga actual.

Para los siguientes experimentos, seleccionamos manualmente la geometría correcta del conjunto resultante de posibles opciones utilizando todas las pistas visuales adicionales anteriores.

En esta sección, utilizamos nuestro método para determinar la geometría de la escena (consulte la Sección "Método") para demostrar que los métodos actuales de estimación de la pose humana monocular 3D de última generación no tienen en cuenta con precisión la geometría de la escena subyacente, lo que resulta en discrepancias significativas entre las poses 3D estimadas y las poses 3D reales. Demostramos esta discrepancia intercambiando la geometría de la escena implícita por la geometría aproximadamente correcta (usando nuestro método) y registrando las diferencias resultantes en la imagen proyectada (cf. Fig. 1).

En este experimento, determinamos un esqueleto 2D fijo para cada uno de los atletas/estructuras evaluados. Este método HPE 2D se basa en una red troncal ResNet-50, entrenada en MPII12,21. Elevamos cada pose 2D a 3D usando diferentes métodos monoculares 3D HPE (ver más abajo). Colocamos los esqueletos 3D resultantes en una escena simulada y proyectamos esta escena nuevamente en la imagen 2D, utilizando la geometría de la escena real, según lo determinado con nuestro método. Ahora podemos comparar esta reproyección con el esqueleto 2D original.

En términos de la Fig. 1: tomamos un esqueleto 2D (c) y lo elevamos hasta convertirlo en un esqueleto 3D (d). Este proceso monocular 3D HPE implicaba alguna geometría desconocida (f). Usamos nuestro método para determinar la geometría real de la escena (e) y proyectar el esqueleto 3D (d) nuevamente en la imagen 2D (c) usando esta geometría correcta. Mostramos que la reproyección resultante difiere del esqueleto 2D original, lo que a su vez debe significar que la geometría implícita (f) difiere de la geometría real (e) y que la pose 3D estimada (d) difiere de la pose 3D real (a). ).

Cuantificamos el error de reproyección y estimamos el error 3D subyacente que causó el error de reproyección. Además, proporcionamos evidencia de un pequeño experimento del mundo real de que nuestro método se aproxima mucho a la geometría correcta de la escena y que nuestra aproximación de los errores implícitos del ángulo de la rodilla 3D es razonable.

También proporcionamos experimentos contradictorios adicionales en el material complementario que demuestran que los resultados a continuación no son solo artefactos del modelo de cámara estenopeica limitada. Por último, también copiamos la configuración de escena típica en nuestra pista local y comparamos nuestro método con mediciones de verdad del terreno verificadas por láser en la Sección "Evaluación de la verdad del terreno".

Anotamos fotogramas de cinco secuencias de vídeo de diferentes lugares, atletas y distancias de los principales eventos deportivos retransmitidos (por ejemplo, Juegos Olímpicos, Liga Diamante,...). Para estos, revisamos manualmente todos los cuadros para asegurarnos de que nuestros resultados calculados sean consistentes con todas las pistas visibles en la escena. Utilizando demarcaciones de carriles, nuestro algoritmo genera automáticamente un conjunto exhaustivo de parámetros de cámara candidatos. Luego podemos determinar los parámetros correctos de la cámara para cada cuadro usando una herramienta de anotación que permite al anotador deslizarse a través de los diversos parámetros plausibles de la cámara hasta que se alineen perfectamente con todas las pistas visuales adicionales. Utilizando la geometría de la escena resultante de cada fotograma, trazamos la ubicación 3D exacta del atleta cada vez que toca el suelo. Determinamos los fotogramas que representan la fase de aterrizaje de la zancada de los atletas analizando la progresión del pie en la estimación de la postura humana en 2D. Escalamos el esqueleto 3D y, además, escalamos y traducimos la proyección 2D para minimizar la distancia a la pose 2D original. Sólo utilizamos atletas que son completamente visibles para evitar errores debido a oclusiones de otros atletas. Este proceso da como resultado un total de 355 fotogramas, que evaluamos a continuación.

Comparamos 3 métodos de última generación para HPE 3D monocular: Strided Transformers18, RIE17 y MeTRAbs21. Mientras que los dos primeros métodos se entrenan únicamente en Human3.6m16, MeTRAbs también se entrena en datos externos y se construye específicamente para HPE 3D en la naturaleza. Para todos estos algoritmos, ejecutamos 3D HPE, luego detectamos la posición absoluta del pie de un atleta en la escena y colocamos el esqueleto 3D en esa ubicación. La orientación y escala previstas de los esqueletos 3D dependen de las correspondencias 2D/3D en los datos de entrenamiento. Como los esqueletos 3D no necesariamente cumplen con la geometría real de la escena y la orientación de la cámara, ajustamos la escala para que coincida con la altura de la proyección. También alineamos la orientación del esqueleto 3D predicho con los ejes de la escena construida (cf. Fig. 2).

Un análisis preliminar mostró que MeTRAbs tiene un rendimiento superior a los otros dos métodos. Además, comparamos MeTRAbs con versiones ligeramente mejoradas de sí mismo. Inyectamos información en el algoritmo base que normalmente no está disponible para él. El propósito de estas modificaciones es mostrar que todavía existe una compensación entre la proyección del esqueleto 3D y el HPE 2D real en la imagen original, incluso cuando mejoramos el método aprovechando el conocimiento adicional del dominio y la escena.

MeTRAbs + conocimiento del movimiento. Investigamos exclusivamente imágenes de carreras en las que los atletas corren en la recta final. Por lo tanto, sabemos que los esqueletos 3D en la escena siempre deben mirar en la misma dirección y moverse en línea recta. El movimiento panorámico de la cámara que sigue al atleta afecta la orientación relativa del atleta con respecto a la cámara. Esto a menudo da como resultado que la porción de elevación 3D del HPE 3D monocular describa una trayectoria curva. Enderezar el camino del atleta conduce a una primera mejora, aprovechando el conocimiento del dominio sobre la escena.

MeTRAbs + conocimiento de rotación. En segundo lugar, comparamos el algoritmo base con una estrategia de mejora en la que idealmente rotamos el esqueleto 3D utilizando la orientación relativa de la cámara con respecto al esqueleto. Usamos el mismo razonamiento que antes: los atletas siempre deben mirar en la misma dirección. Solo que esta vez colocamos y rotamos directamente al atleta de manera que mire hacia la línea de meta. Podemos realizar esta rotación del esqueleto porque sabemos dónde está ubicada la cámara en relación con el atleta usando nuestro método descrito y, por lo tanto, nuevamente inyectamos conocimiento del dominio.

Ambas mejoras aprovechan información que no está disponible para el algoritmo base.

Idealmente, para un algoritmo 3D HPE perfecto, colocar el esqueleto 3D en la geometría global de la escena derivada correctamente y luego proyectarlo en la imagen usando los parámetros derivados de la cámara debería dar como resultado una superposición perfecta del esqueleto 2D y el esqueleto 3D reproyectado. Siendo realistas, siempre habrá cierto margen de error. A continuación, medimos este error para los métodos 3D HPE de última generación existentes. Investigamos más a fondo el error esperado en un tamaño de muestra de 16 atletas y videos desde diferentes ángulos de cámara y grabaciones con zoom panorámico, lo que da como resultado 355 puntos de datos.

No tenemos datos 3D HPE reales para los videos investigados, por lo que no podemos realizar el análisis típico de 3D MPJPE (error medio por posición de articulación). En cambio, el error de reproyección descrito anteriormente se expresa en el espacio de la imagen 2D. Además, para cada uno de los atletas estudiados, simulamos un movimiento en su rodilla en un espacio 3D y registramos los cambios resultantes en la imagen proyectada. A continuación se muestra una descripción detallada de nuestras métricas de evaluación; los resultados se pueden encontrar en la Tabla 1. Consideramos 17 ubicaciones de articulaciones principales, comúnmente utilizadas en los puntos de referencia de HPE: cabeza, cuello, pecho, ombligo, pelvis, 2\(\times \) hombro, 2\(\times \)codo, 2\(\times \)muñeca, 2\(\times \)cadera, 2\(\times \)rodilla y 2\(\times \)tobillo.

Error de reproyección. Utilizando la geometría 3D descubierta de la escena, proyectamos el esqueleto 3D en la imagen y calculamos el desplazamiento promedio por articulación del esqueleto 2D correspondiente en píxeles. Para ello, utilizamos las 17 definiciones conjuntas predeterminadas de humanos de 3,6 millones16. Además, dado que se conoce la geometría exacta de la escena (los carriles de la pista tienen \(1,22\pm 0,01\) m de ancho), escalamos este valor según la altura de la palabra real frente a los píxeles del atleta. Esta no es la distancia de unión correcta en mm, sino sólo una aproximación que incorpora la escala de la imagen. Para una medida de distancia real, necesitaríamos información del esqueleto 3D real sobre el terreno. Incluimos esta medida porque representa con mayor precisión la distancia del atleta a la cámara y el zoom de la cámara.

Error de rodilla 2D. Para las investigaciones cinemáticas, no estamos particularmente interesados ​​en la posición absoluta de cada una de las articulaciones, sino más bien en su relación entre sí. Como se indicó en el apartado "Trabajos relacionados", queremos investigar los ángulos de las rodillas del deportista. Como no conocemos los esqueletos 3D correctos ni la cinemática de carrera detallada en nuestros datos de prueba, medimos el error del ángulo de la rodilla para las poses 2D.

Aprox. Error de rodilla 3D. Si tuviéramos una vista ortogonal de la rodilla del atleta, el ángulo visible de la rodilla en 2D (y su error) correspondería aproximadamente al ángulo de la rodilla en 3D. Sin embargo, en ángulos cada vez más pronunciados de la cámara hacia el plano sagital del deportista, esta correspondencia se rompe. Para valores mayores del acimut de la cámara, los errores de rodilla 2D dan como resultado errores de rodilla reales más graves. Nos aproximamos al error de rodilla 3D simulando el movimiento en la rodilla del esqueleto 3D previsto y registrando su efecto sobre el error del ángulo de rodilla 2D. Luego, el error de rodilla 2D medido se escala en consecuencia para cada uno de los fotogramas evaluados.

El error de rodilla 3D mejor aproximado en nuestra comparación es 8,45\(^{\circ }\) con una desviación estándar de 13,19\(^{\circ }\) (consulte la Tabla 1). Este margen de error es mayor que los niveles de cambio para diferencias significativas en la cinemática de carrera y la economía de carrera implícita como se detalla en la literatura5,7,9,31 (cf. Sección "Trabajo relacionado"), lo que representa el estado actual de la carrera. -métodos artísticos inviables para la recopilación de datos destinados a investigaciones cinemáticas.

Realizamos un pequeño estudio de validación utilizando un traje de captura de movimiento Xsens (MVN Link, Xsens Technologies BV, Enschede, Países Bajos, https://www.xsens.com/products/mvn-analyze). Este sistema de captura de movimiento basado en IMU ha sido validado de forma independiente con errores de ángulo de \(< 2,6 \pm 1,5^{\circ }\)44. Instalamos múltiples ubicaciones de cámaras en las gradas cercanas a la línea de meta, para coincidir con las imágenes de transmisión típicas y triangular las posiciones de las cámaras utilizando un telémetro láser y métodos ópticos. La imagen utilizada en las Figs. 1, 2 y 3 muestran una imagen fija de nuestras propias grabaciones de vídeo, que es representativa de la posición y la configuración del vídeo transmitido. En nuestro experimento, un atleta corre en la recta final de la pista y grabamos simultáneamente captura de movimiento en 3D y secuencias de video, realizando las operaciones de cámara típicas de un televisor: giro, inclinación y zoom (hasta 30x). Utilizamos el método descrito en la sección "Método" para extraer posibles parámetros de la cámara. Para 50 cuadros, elegimos manualmente los parámetros de la cámara que mejor alinean el esqueleto 3D proyectado con la imagen del atleta. Hablando en términos de la Fig. 1, registramos la pose 3D real Fig. 1a, anotamos la geometría de la escena Fig. 1e y filmamos el esqueleto Fig. 1c. Ahora los comparamos con la pose estimada, Fig. 1d.

Primero, evaluamos qué tan bien nuestro método predice la geometría real y la ubicación de la cámara en la escena. Nuestro modelo se basa en una cámara estenopeica, mientras que en realidad filmamos con una cámara convencional con múltiples lentes. Por lo tanto, no podemos esperar que nuestro método encuentre la posición exacta de la cámara real, sino sólo de una cámara virtual. Encontramos que la ubicación prevista de la cámara está dentro del 5,5% de la posición correcta de la cámara (con respecto a la distancia de la cámara al atleta). El desplazamiento promedio de la cámara prevista con respecto a la cámara real en la dirección x/y/z es 1,75 m/2,67 m/0,72 m (mín.: 0,09 m/0,18 m/0,01 m, máximo: 4,48 m/9,50 m/2,05 m) . El atleta se encuentra a una distancia media de 37,56 m con respecto a la cámara (mín.: 14,57 m, máx: 71,41 m).

A continuación, comparamos el HPE 2D para estos 50 fotogramas con la proyección del esqueleto 3D Xsens grabado utilizando la geometría de escena correcta, lo que da como resultado un RMSE de \(7,56 \pm 3,75\) píxeles, lo que equivale a \(50,42 \pm 28,51\) mm.

Finalmente, evaluamos el error de ángulo 3D en la rodilla y el codo entre los esqueletos registrados y estimados (ver Fig. 1a,d). La rodilla izquierda/derecha tiene un error promedio de: \(8.39 \pm 4.41^{\circ }\) / \(7.94\pm 5.84^{\circ }\), que está en línea con nuestro error 3D aproximado en la Tabla 1. El codo izquierdo/derecho tiene un error promedio de: \(15.81\pm 7.80^\circ \) / \(11.85 \pm 5.65^\circ \), lo que produce un error general esperado en la predicción del ángulo 3D de \(11.00 \pm 5.93^\circ\).

En esta investigación, demostramos una técnica para descubrir los parámetros extrínsecos de la cámara para una secuencia de video contigua en un estadio de atletismo. Utilizando únicamente métodos de visión por computadora de bajo nivel (transformación de Hough), aprovechamos las extensas marcas en el suelo para generar parámetros de cámara candidatos. Combinarlos para todos los fotogramas bajo algunas restricciones de coherencia permite la reconstrucción de toda la progresión de la escena 3D en el vídeo. En nuestro entorno experimental, utilizamos los parámetros de la cámara descubiertos para proyectar predicciones de estimación de pose humana en 3D nuevamente en la imagen utilizando los parámetros de cámara correctos y compararlos con sus contrapartes HPE 2D predichas. Los márgenes de error esperados resultantes en el ángulo de la rodilla para una pequeña muestra de grabaciones de atletismo son mayores que la variación del mundo real que se esperaría en la cinemática de carrera. Los errores superan el nivel de diferencias significativas entre corredores, lo que hace imposible recopilar datos para estudiar la cinemática de la carrera utilizando únicamente secuencias de vídeo monoculares y los métodos de última generación actuales en la estimación de la postura humana en 3D en la naturaleza. Abogamos por inyectar la información fácilmente disponible sobre geometría 3D en futuras iteraciones de sistemas monoculares 3D HPE.

Es importante señalar que nuestro enfoque no se extiende más allá de las paredes y carriles de un estadio de atletismo y no es generalizable. El objetivo aquí no era resolver la amplia tarea de estimar aproximadamente las poses humanas en todo tipo de situaciones, sino que apuntamos a aproximar con precisión la cinemática de las poses humanas en un dominio muy limitado para producir datos para investigaciones posteriores. El uso de grandes cantidades de datos provenientes de documentación en video disponible gratuitamente sobre eventos de carreras atléticas de clase mundial, así como datos históricos y progresiones de cambios a largo plazo, podría abrir la posibilidad de estudiar la locomoción humana, o al menos permitir un modelado más preciso. Nos gustaría que los lectores consideren el potencial sin explotar de la visión por computadora como herramienta de investigación en las ciencias del deporte.

En nuestros experimentos en la Sección "Experimentos", mejoramos la reproyección de un método existente inyectando algún conocimiento de dominio específico en su resultado. Modificamos el monocular 3D HPE utilizando los parámetros derivados de la cámara. La evidencia de que todavía hay errores significativos bajo esta utilización ideal de la información 3D significa que el HPE 3D monocular no está simplemente desplazado en traslación, escala y rotación del esqueleto 3D correcto, sino que es inconsistente con la pose general. Por lo tanto, un método HPE 3D monocular específico de pista y campo debería incorporar esta información de escena 3D, en lugar de simplemente usarla para corregir su salida.

Una implementación sencilla e ingenua de esta idea podría verse como una extensión de los métodos HPE 2.5D: realizar HPE 2D, encontrar parámetros completos de la cámara y rastrear cada uno de los puntos 2D en la escena. En los métodos 2,5D, se crea un mapa de profundidad para la imagen, que describe la distancia de cada objeto y persona a la cámara. Usando nuestro método, podemos recuperar la geometría 3D de los carriles, pero no de ningún objeto o persona en la imagen. Dado que podemos recuperar la geometría general de la escena en lugar de la distancia de las personas a la cámara, este enfoque ingenuo podría considerarse un método 2.75D, aunque limitado a la configuración de pista y campo en el alcance.

A primera vista, la tarea de determinar los parámetros correctos de la cámara utilizando el punto de fuga y algunas líneas en la imagen parece un excelente ejemplo de una solución de aprendizaje profundo basada en gradientes. Además del método descrito (consulte la sección "Método"), experimentamos con éxito descubriendo algún conjunto de parámetros de cámara extrínsecos que emplean renderizado diferenciable. El proceso de simulación descrito en la sección "Método" se puede implementar completamente en TensorFlow (o cualquier motor de diferenciación automática de su elección) y luego optimizarlo para que coincida con los puntos de fuga y ciertos puntos de referencia en la imagen, tal como nuestro enfoque. El inconveniente de este método es que siempre encontrará alguna solución, pero no todas las soluciones. En nuestro enfoque, tomamos muestras de un número denso pero discreto de posibles pares de parámetros. Barrimos el espacio de parámetros a una frecuencia de muestreo de \(0.5^{\circ }\) acimut. Luego se pueden interpolar conjuntos de parámetros vecinos para llegar a una representación continua de todos los parámetros posibles de la cámara. Con eso, creamos una interfaz que permite a los expertos en el campo mover un control deslizante para adaptar la altura o ubicación de la cámara para el segundo punto de fuga, mientras adaptamos siempre los parámetros de la cámara para mostrar una proyección de la escena 3D que sea consistente con el fotograma actual.

Una clara limitación de nuestro método es el modelo de proyección utilizando una cámara estenopeica. En realidad, las cámaras tienen múltiples lentes que distorsionan la imagen y doblan las líneas rectas, lo que afecta la base de nuestro método, la transformada de Hough. Además, el modelo de cámara estenopeica supone que podemos dibujar líneas rectas desde la escena a través del plano de la imagen hasta el centro de la cámara, mientras que en realidad la lente refractará ese haz de la cámara y acercará el centro efectivo de la cámara al punto focal y a la escena. . Nuestro experimento de validación en la Sección "Experimentos" demuestra que, si bien podemos encontrar la geometría de la escena correcta, ignoramos los detalles más minuciosos de las distorsiones de la lente y, por lo tanto, nuestra ubicación 3D prevista se desvía de la cámara en un promedio de 5,5%. En el dominio de interés, asumimos que el efecto de distorsión del metraje que estamos investigando no es demasiado grande, ya que el tipo de tomas que analizamos utilizan cámaras con telezoom.

Proporcionamos experimentos adicionales en el material complementario para demostrar aún más este punto. En los experimentos, optimizamos de manera adversa tanto la distorsión de la lente como la ubicación exacta de la cámara (dentro del radio estimado del 5,5%) para mejorar los resultados de la Tabla 1. Ejecutamos 200 optimizaciones separadas en las que los parámetros calculados de nuestro método se adaptan para minimizar la reproyección. error. Los experimentos contradictorios dan como resultado mejoras en el error de reproyección de 0,36 ± 0,48 píxeles (distorsión de la lente) y 0,66 ± 0,48 píxeles (ubicación de la cámara), respectivamente. Por lo tanto, las limitaciones de nuestro modelo de cámara no son lo suficientemente graves como para explicar el efecto observado en el error de reproyección.

Incluso con esta limitación, persiste la afirmación de este artículo. Para un punto de fuga determinado, podemos encontrar un conjunto de parámetros de cámara que permiten renderizar todas las escenas para segundos puntos de fuga variables. Al seleccionar manualmente la perspectiva correcta entre estas opciones, mostramos que los métodos actuales de HPE 3D monoculares no son consistentes con la geometría de la escena. Proyectar las poses 3D estimadas en la imagen 2D utilizando la geometría correcta produce grandes errores. Por lo tanto, la geometría utilizada implícitamente por el monocular 3D HPE difiere de la geometría real.

Este estudio pretende ser un punto de partida para el uso de métodos de visión por computadora para extraer datos de videos disponibles gratuitamente que pueden usarse en futuras investigaciones sobre la cinemática de carrera. Nuestro método ya podría usarse para comenzar a anotar datos tal como están. La estimación de la pose humana en 2D es, por naturaleza, fácil de anotar. Toda la información necesaria para resolver idealmente esta tarea se proporciona en la imagen y responder a la pregunta: "¿Qué píxel en la imagen visible está más cerca de la articulación del codo" se puede resolver con precisión utilizando algunos juicios de los anotadores. Para realizar la misma tarea en 3D, se requiere información adicional más allá de la ubicación de un píxel 2D. Diseñamos nuestro método de una manera que nos permitió crear una herramienta de anotación que se puede usar para ajustar rápidamente la geometría correcta de la escena usando un solo control deslizante. Este mismo proceso se puede repetir para una amplia gama de vídeos. Utilizando el enfoque ingenuo mencionado en la sección "Discusión", podríamos generar un gran conjunto de datos cinemáticos. Por supuesto, nos gustaría hacerlo mejor y reducir aún más la carga de las anotaciones manuales. Aún así, para poder utilizar datos en una investigación científica deportiva, un investigador siempre tendrá que poder confirmar y ajustar manualmente alguna muestra de los datos para aproximarse al error de registro.

Un aparente inconveniente de nuestro método es que actualmente sólo funciona en los tramos rectos del estadio de atletismo. Una ampliación natural sería tener en cuenta todas las ubicaciones de las cámaras y puntos de vista en el estadio, ya que en las curvas también hay tantas marcas en el suelo como en otros eventos deportivos (ver apartado "Trabajos relacionados"). Una extensión de este tipo debería desarrollarse utilizando métodos de visión de nivel superior y, muy probablemente, un enfoque de aprendizaje profundo similar a la línea de investigación actual de campos de radiación neuronal45. Como se menciona a lo largo de este documento, abogamos por el desarrollo de métodos HPE 3D monoculares que incorporen el conocimiento específico del dominio que extraemos con nuestro método. Es poco probable que esto dé como resultado una solución generalizable, pero podemos mejorar aún más la estimación de la pose humana en 3D de un dominio específico para respaldar las investigaciones sobre el análisis cinemático de carrera a gran escala.

Nuestro método se basa y analiza datos de vídeo disponibles públicamente de eventos profesionales de carreras de media distancia. Una lista completa del material de video utilizado, así como datos de verdad sobre el terreno para el estudio de validación en la Sección "Evaluación de la verdad sobre el terreno" está disponible del autor correspondiente a solicitud razonable.

Badiola-Bengoa, A. & Mendez-Zorrilla, A. Una revisión sistemática de la aplicación de la estimación de la pose humana basada en cámaras en el campo del deporte y el ejercicio físico. Sensores 21, 5996. https://doi.org/10.3390/s21185996 (2021).

Artículo ADS PubMed PubMed Central Google Scholar

Lei, F., An, Z. y Wang, X. Estimación de postura del movimiento humano complejo. En Ma, M., Song, G. & Wang, H. (eds.) Actas de la 3.ª Conferencia Internacional sobre Procesamiento de Imágenes y Vídeo (ICVIP), 153–156, https://doi.org/10.1145/3376067.3376084 ( 2019).

Wang, J., Qiu, K., Peng, H., Fu, J. y Zhu, J. Entrenador de IA: Estimación y análisis profundos de la postura humana para asistencia personalizada en el entrenamiento atlético. En Amsaleg, L., Huet, B. & Larson, M. (eds.) Actas de la 27ª Conferencia Internacional ACM sobre Multimedia (MM '19), 374–382, https://doi.org/10.1145/3343031.3350910 ( 2019).

Wu, E. & Koike, H. Futurepose: entrenamiento de artes marciales de realidad mixta que utiliza pronóstico de pose humana en 3D en tiempo real con una cámara RGB. En Medioni, G., Bowyer, K. y Dickinson, S. (eds.) Conferencia de invierno del IEEE de 2019 sobre aplicaciones de visión por computadora (WACV), 1384–1392, https://doi.org/10.1109/WACV.2019.00152 ( 2019).

Moore, IS ¿Existe una técnica de carrera económica? Una revisión de los factores biomecánicos modificables que afectan la economía de carrera. Medicina deportiva. 46, 793–807. https://doi.org/10.1007/s40279-016-0474-4 (2016).

Artículo PubMed PubMed Central Google Scholar

Patoz, A., Lussiana, T., Breine, B., Gindre, C. y Hébert-Losier, K. No existe un patrón de carrera global más económico que otro a velocidades de carrera de resistencia. En t. J. Fisiol Deportivo. Realizar.https://doi.org/10.1123/ijspp.2021-0345 (2022).

Artículo PubMed Google Scholar

Moore, IS, Jones, AM y Dixon, SJ Mecanismos para mejorar la economía de carrera en corredores principiantes. Medicina. Ciencia. Ejercicio deportivo. 44, 1756-1763. https://doi.org/10.1249/MSS.0b013e318255a727 (2012).

Artículo PubMed Google Scholar

Pizzuto, F., Rago, V. y Sirimarco, F. Parámetros biomecánicos correlacionados con la economía de carrera en corredores de larga distancia. En Actas del Congreso Norteamericano de Biomecánica (2015).

Rendos, NK, Harrison, BC, Dicharry, JM, Sauer, LD & Hart, JM Cinemática del plano sagital durante la carrera de transición en triatletas. J. Ciencias. Medicina. Deporte 16, 259–265. https://doi.org/10.1016/j.jsams.2012.06.007 (2013).

Artículo PubMed Google Scholar

Jebeli, M., Bilesan, A. & Arshi, A. Un estudio sobre la validación de KinectV2 en comparación del sistema Vicon como sistema de captura de movimiento para su uso en ingeniería sanitaria en la industria. Ing. no lineal. 6, 95–99. https://doi.org/10.1515/nleng-2016-0017 (2017).

ADS del artículo Google Scholar

Lin, T.-Y. et al. Microsoft COCO: objetos comunes en contexto. En Fleet, D., Pajdla, T., Schiele, B. & Tuytelaars, T. (eds.) Actas de la 13.ª Conferencia Europea sobre Visión por Computador (ECCV), 740–755, https://doi.org/10.1007 /978-3-319-10602-1_48 (2014).

Andriluka, M., Pishchulin, L., Gehler, P. & Schiele, B. Estimación de la pose humana 2D: nuevo punto de referencia y análisis de última generación. En Dickinson, S., Metaxas, D. & Turk, M. (eds.) Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) (2014).

Cao, Z., Simon, T., Wei, S.-E. & Sheikh, Y. Estimación de pose 2D de varias personas en tiempo real utilizando campos de afinidad de partes. En Chellappa, R., Zhang, Z. & Hoogs, A. (eds.) Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) (2017).

Jin, S. y col. Estimación de la postura humana de todo el cuerpo en la naturaleza. En Vedaldi, A., Bischof, H., Brox, T. y Frahm, J.-M. (eds.) Actas de la 16.ª Conferencia Europea sobre Visión por Computador (ECCV), https://doi.org/10.1007/978-3-030-58545-7_12 (2020).

Xu, Y., Zhang, J., Zhang, Q. y Tao, D. ViTPose: líneas base de transformadores de visión simples para la estimación de la postura humana. arXiv2204.12484 (2022).

Ionescu, C., Papava, D., Olaru, V. y Sminchisescu, C. Human3.6M: Conjuntos de datos a gran escala y métodos predictivos para la detección humana en 3D en entornos naturales. Transacciones IEEE sobre análisis de patrones e inteligencia artificial36, 1325–1339 (2014).

Shan, W., Lu, H., Wang, S., Zhang, X. y Gao, W. Mejora de la robustez y la precisión mediante la codificación de información relativa en la estimación de la pose humana en 3D. En Actas de la 29.ª Conferencia Internacional ACM sobre Multimedia, 3446–3454 (2021).

Li, W. y col. Explotación de contextos temporales con transformador de paso para estimación de pose humana en 3D. Traducción IEEE. Multimedia 25, 1282–1293 (2022).

Artículo de Google Scholar

Hu, W., Zhang, C., Zhan, F., Zhang, L. y Wong, T.-T. Convolución de gráfico dirigido condicional para estimación de pose humana en 3D. En Shen, HT, Zhuang, HT & Smith, JR (eds.) Actas de la 29.ª Conferencia Internacional ACM sobre Multimedia (MM '21), 602–611, https://doi.org/10.1145/3474085.3475219 (2021).

Xu, J. y col. Análisis cinemático profundo para la estimación de la pose humana monocular en 3D. En Boult, T., Medioni, G. & Zabih, R. (eds.) Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR) (2020).

Sárándi, I., Linder, T., Arras, KO y Leibe, B. MeTRAbs: mapas de calor robustos al truncamiento a escala métrica para una estimación absoluta de la pose humana en 3D. Traducción IEEE. Biom., Comportamiento, Ciencia de la Identidad. 3, 16–30. https://doi.org/10.1109/TBIOM.2020.3037257 (2021).

Artículo de Google Scholar

Pavlakos, G., Zhou, X., Derpanis, KG y Daniilidis, K. Predicción volumétrica de gruesa a fina para una pose humana en 3D de una sola imagen. En Chellappa, R., Zhang, Z. & Hoogs, A. (eds.) Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones (CVPR) (2017).

Sun, X., Xiao, B., Wei, F., Liang, S. y Wei, Y. Regresión integral de la postura humana. En Actas de la Conferencia Europea sobre Visión por Computadora (ECCV) (2018).

Citraro, L. et al. Estimación de la pose de la cámara en tiempo real para campos deportivos. Mach. Vis. Aplica. 31, 16. https://doi.org/10.1007/s00138-020-01064-7 (2020).

Artículo de Google Scholar

Farin, D., Krabbe, S., With, de, P. & Effelsberg, W. Calibración robusta de cámara para vídeos deportivos utilizando modelos de cancha. En Yeung, M., Lienhart, R. y Li, C.-S. (eds.) Métodos y aplicaciones de almacenamiento y recuperación para multimedia, San José (CA), Actas de SPIE, 80–91, https://doi.org/10.1117/12.526813 (SPIE, Estados Unidos, 2004).

Tsurusaki, H., Nonaka, K., Watanabe, R., Konno, T. y Naito, S. [artículo] calibración de cámaras deportivas mediante selección y refinamiento de intersecciones flexibles. ITE Trans. Tecnología de medios. Aplica. 9, 95-104. https://doi.org/10.3169/mta.9.95 (2021).

Artículo de Google Scholar

Sha, L. y col. Calibración de cámara de extremo a extremo para videos transmitidos. En 2020, Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (CVPR) 13624–13633 (2020).

Phinyomark, A., Petri, G., Ibáñez-Marcelo, E., Osis, ST & Ferber, R. Análisis de Big Data en biomecánica de la marcha: tendencias actuales y direcciones futuras. J. Med. Biol. Ing. 38, 244–260. https://doi.org/10.1007/s40846-017-0297-2 (2018).

Artículo PubMed Google Scholar

Figueiredo, J., Santos, CP y Moreno, JC Reconocimiento automático de patrones de marcha en trastornos motores humanos mediante aprendizaje automático: una revisión. Medicina. Ing. Física. 53, 1-12. https://doi.org/10.1016/j.medengphy.2017.12.006 (2018).

Artículo PubMed Google Scholar

Boyer, KA, Freedman Silvernail, J. y Hamill, J. El papel del kilometraje en los patrones de coordinación al correr. J. Aplica. Biomecánica. 30, 649–654. https://doi.org/10.1123/jab.2013-0261 (2014).

Artículo PubMed Google Scholar

Xu, D. y col. Explicar las diferencias en los patrones de marcha entre corredores de alto y bajo kilometraje con aprendizaje automático. Ciencia. Rep. 12, 2981. https://doi.org/10.1038/s41598-022-07054-1 (2022).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Nigg, BM, Baltich, J., Maurer, C. y Federolf, P. Efectos de la dureza, el sexo y la edad de la entresuela del zapato en la cinemática de las extremidades inferiores durante la carrera. J. Biomecánica. 45, 1692–1697. https://doi.org/10.1016/j.jbiomech.2012.03.027 (2012).

Artículo PubMed Google Scholar

Riley, PO y cols. Una comparación cinemática y cinética de la carrera sobre el suelo y en cinta rodante. Medicina. Ciencia. Ejercicio deportivo. 40, 1093-1100. https://doi.org/10.1249/MSS.0b013e3181677530 (2008).

Artículo PubMed Google Scholar

Wank, V., Frick, U. & Schmidtbleicher, D. Cinemática y electromiografía de los músculos de las extremidades inferiores al correr sobre el suelo y en cinta rodante. En t. J. Medicina deportiva. 19, 455–461. https://doi.org/10.1055/s-2007-971944 (1998).

Artículo CAS PubMed Google Scholar

Chen, J. & Little, JJ Calibración de cámaras deportivas mediante datos sintéticos. En Actas de la conferencia IEEE/CVF sobre talleres de visión por computadora y reconocimiento de patrones, 0–0 (2019).

Chu, Y.-J. et al. Registro de campos deportivos a través de la condición de etiqueta con reconocimiento de puntos clave. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, 3523–3530 (2022).

Theiner, J. & Ewerth, R. Tvcalib: Calibración de cámara para registro de campos deportivos en fútbol. arXivhttps://doi.org/10.48550/ARXIV.2207.11709 (2022).

Duda, RO & Hart, PE Uso de la transformación gruesa para detectar líneas y curvas en imágenes. Comunitario. ACM 15, 11-15 (1972).

Artículo MATEMÁTICAS Google Scholar

Dai, X., Gong, H., Wu, S., Yuan, X. y Yi, M. Análisis de líneas totalmente convolucional. Neurocomputación 506, 1–11. https://doi.org/10.1016/j.neucom.2022.07.026 (2022).

Artículo de Google Scholar

Xu, Y., Xu, W., Cheung, D. & Tu, Z. Detección de segmentos de línea mediante transformadores sin aristas. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, 4257–4266 (2021).

Li, H. y col. Ulsd: Detección unificada de segmentos de línea en cámaras estenopeicas, de ojo de pez y esféricas. ISPRS J. Fotograma. Remoto. Sensaciones 178, 187–202. https://doi.org/10.1016/j.isprsjprs.2021.06.004 (2021).

ADS del artículo Google Scholar

Mammeri, A., Boukerche, A. & Lu, G. Sistema de seguimiento y detección de carriles basado en el algoritmo mser, transformada de hough y filtro de Kalman. En Actas de la 17ª conferencia internacional ACM sobre modelado, análisis y simulación de sistemas inalámbricos y móviles, MSWiM '14, 259–266, https://doi.org/10.1145/2641798.2641807 (Association for Computing Machinery, Nueva York, NY, Estados Unidos, 2014).

Zhou, Y., Qi, H., Huang, J. & Ma, Y. Neurvps: escaneo del punto de fuga neuronal mediante convolución cónica. Avances en los sistemas de procesamiento de información neuronal32 (2019).

Cottam, DS y cols. Medición del movimiento del tronco uniplanar y específico del deporte utilizando unidades de medición magnetoinerciales: la validez concurrente de los sistemas Noraxon y Xsens en relación con un sistema retrorreflectante. Postura de la marcha 92, 129-134. https://doi.org/10.1016/j.gaitpost.2021.11.012 (2022).

Artículo PubMed Google Scholar

Mildenhall, B. y col. NeRF: representación de escenas como campos de radiación neuronal para síntesis de vistas. En ECCV (2020).

Descargar referencias

Financiamiento de Acceso Abierto habilitado y organizado por Projekt DEAL. Esta investigación fue financiada en parte por el "Ministerio Federal Alemán de Educación e Investigación" (BMBF), subvención n.º 16DHB4014.

Instituto de Entrenamiento Físico e Informática Deportiva, Universidad Alemana del Deporte, Colonia, Alemania

Tobías Baumgartner y Stefanie Klatt

Centro Alemán de Investigación sobre Inteligencia Artificial, Berlín, Alemania

Benjamín Paassen

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

TB: curación de datos; Metodología; Software; Implementación; Adquisición de datos; Investigación; Análisis formal; Visualización; Elaboración del borrador original. BP: Validación; Revisión y edición. SK: Adquisición de financiación; Administración de proyecto; Supervisión; Revisión y edición. Todos los autores revisaron el manuscrito.

Correspondencia a Tobias Baumgartner.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Baumgartner, T., Paassen, B. & Klatt, S. Extracción de conocimiento espacial de transmisiones de pista y campo para la estimación monocular de la pose humana en 3D. Representante científico 13, 14031 (2023). https://doi.org/10.1038/s41598-023-41142-0

Descargar cita

Recibido: 14 de septiembre de 2022

Aceptado: 22 de agosto de 2023

Publicado: 28 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-41142-0

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.