El impacto de las anotaciones humanas inconsistentes en la toma de decisiones clínicas impulsada por la IA
HogarHogar > Blog > El impacto de las anotaciones humanas inconsistentes en la toma de decisiones clínicas impulsada por la IA

El impacto de las anotaciones humanas inconsistentes en la toma de decisiones clínicas impulsada por la IA

Jun 08, 2023

npj Digital Medicine volumen 6, número de artículo: 26 (2023) Citar este artículo

3203 Accesos

5 citas

18 altmétrica

Detalles de métricas

En el desarrollo de modelos de aprendizaje supervisado, a menudo se utilizan expertos en el dominio para proporcionar etiquetas de clase (anotaciones). Las inconsistencias en las anotaciones ocurren comúnmente cuando incluso expertos clínicos con mucha experiencia anotan el mismo fenómeno (p. ej., imagen médica, diagnóstico o estado de pronóstico), debido a sesgos, juicios y deslices inherentes de los expertos, entre otros factores. Si bien su existencia es relativamente conocida, las implicaciones de tales inconsistencias no se han estudiado en gran medida en entornos del mundo real, cuando se aplica el aprendizaje supervisado a datos etiquetados tan "ruidosos". Para arrojar luz sobre estos problemas, realizamos extensos experimentos y análisis en tres conjuntos de datos de Unidades de Cuidados Intensivos (UCI) del mundo real. Específicamente, se construyeron modelos individuales a partir de un conjunto de datos común, anotado de forma independiente por 11 consultores de UCI del Hospital Universitario Queen Elizabeth de Glasgow, y las estimaciones de rendimiento del modelo se compararon mediante validación interna (κ de Fleiss = 0,383, es decir, acuerdo justo). Además, se llevó a cabo una validación externa amplia (tanto en conjuntos de datos estáticos como de series temporales) de estos 11 clasificadores en un conjunto de datos externo HiRID, donde se encontró que las clasificaciones de los modelos tenían bajos acuerdos por pares (κ de Cohen promedio = 0,255, es decir, acuerdo mínimo) . Además, tienden a estar más en desacuerdo en la toma de decisiones de alta (κ de Fleiss = 0,174) que en la predicción de la mortalidad (κ de Fleiss = 0,267). Dadas estas inconsistencias, se realizaron análisis adicionales para evaluar las mejores prácticas actuales para obtener modelos estándar y determinar el consenso. Los resultados sugieren que: (a) puede que no siempre haya un “superexperto” en entornos clínicos agudos (utilizando el desempeño del modelo de validación interna y externa como indicador); y (b) la búsqueda de consenso estándar (como el voto mayoritario) conduce sistemáticamente a modelos subóptimos. Sin embargo, un análisis más detallado sugiere que evaluar la capacidad de aprendizaje de las anotaciones y utilizar sólo conjuntos de datos anotados "aprendibles" para determinar el consenso logra modelos óptimos en la mayoría de los casos.

El aprendizaje automático supervisado clásico supone que las etiquetas de los ejemplos de entrenamiento son todas correctas, ignorando la presencia de ruido de clase e imprecisiones1. En el ámbito de la atención sanitaria, esta suposición puede no ser válida incluso cuando médicos altamente experimentados proporcionan estas etiquetas, debido al grado de ruido, la subjetividad del observador y el sesgo involucrado. Si se descuidan en el entrenamiento de un sistema de soporte de decisiones de aprendizaje automático (ML-DSS), las inconsistencias en las anotaciones pueden resultar en una versión arbitrariamente parcial de la verdad fundamental y en consecuencias clínicas impredecibles posteriores, incluidas clasificaciones erróneas2,3,4.

Idealmente, las etiquetas de clase se obtienen a través de un proceso de adquisición de conocimiento, que implica elegir el "estándar de oro" apropiado en el que basar estas etiquetas de clase de verdad fundamental, para construir un Sistema Basado en Conocimiento (KBS). En el ámbito sanitario y biomédico, a menudo se recurre a expertos en el ámbito clínico para proporcionar estas etiquetas5. Sin embargo, en muchas áreas clínicas, estas verdades fundamentales son difíciles de encontrar y definir, debido a las incertidumbres fisiopatológicas, diagnósticas y pronósticas inherentes a la medicina2,6.

La Psicología Cognitiva ha demostrado experimentalmente que los humanos (y por tanto los expertos) cometen “deslices”, por ejemplo, debido a una sobrecarga cognitiva y a sesgos. Por otro lado, el campo de los sistemas expertos y KBS ha asumido que para (la mayoría de) las disciplinas existen expertos altamente calificados “libres de resbalones”, y la tarea clave es cómo se pueden identificar objetiva o subjetivamente a dichos expertos. Sin embargo, cada vez hay más evidencia de la literatura que muestra que, en conjuntos comunes de tareas (por ejemplo, clasificación), los grupos de expertos a menudo discrepan significativamente entre sí5,7,8. En 2021, Kahneman et al.9 publicaron una importante contribución a este tema llamada Ruido: un defecto en el juicio humano, que argumenta de manera convincente que los colegas expertos en muchas disciplinas difieren. Estos autores9 hacen distinciones entre juicios y opiniones: en los primeros, se espera que los expertos proporcionen una respuesta a partir de un conjunto (fijo) de alternativas, mientras que las opiniones son mucho más abiertas. En este artículo nos ocupamos de tareas que requieren que los distintos expertos emitan juicios.

Hay cuatro fuentes principales de inconsistencias en las anotaciones2,8,10,11,12,13,14,15,16,17: (a) Información insuficiente para realizar un etiquetado confiable (por ejemplo, datos de mala calidad o pautas poco claras); b) conocimientos especializados insuficientes; (c) Error humano (es decir, resbalones y ruido); (d) Subjetividad en la tarea de etiquetado (es decir, juicio y sesgo). En este estudio, donde se utilizaron anotadores clínicos altamente experimentados y la tarea de etiquetado se entendió bien con 60 instancias para anotar, creemos que la principal fuente de inconsistencia investigada es la variabilidad entre evaluadores resultante del sesgo, el juicio y el ruido del observador. A lo largo de este artículo, definimos "ruido" como ruido del sistema, es decir, variabilidad no deseada en juicios que idealmente deberían ser idénticos9.

Kahneman et al.9 señalan que el ruido entre personas (es decir, la variabilidad entre evaluadores) en la profesión médica es más común cuando se requiere que los médicos emitan juicios, en lugar de seguir un diagnóstico rutinario o en gran medida mecánico (es decir, que consiste en pruebas establecidas o pruebas cuantitativas). normas); Kahneman et al. esbozar una serie de ejemplos. Jain et al.18. encontraron que en el diagnóstico de lesiones proliferativas mamarias, el acuerdo entre patólogos solo era "justo" (κ de Fleiss = 0,34). Regier et al.19 demostraron que psiquiatras especialistas altamente capacitados sólo coincidieron en un diagnóstico de "trastorno depresivo mayor" entre el 4 y el 15% de las veces (κ de Fleiss = 0,28)20. Halford et al.21 mostraron un acuerdo mínimo entre los expertos en EEG para la identificación de descargas periódicas en registros continuos de EEG en la UCI (κ de Cohen por pares promedio = 0,38). Moor et al.22 describen los importantes problemas de desacuerdos sobre la definición de sepsis, una de las principales causas de muerte en las UCI en todo el mundo. Zhang et al.23 investigaron las derivaciones de los médicos del Departamento de Emergencias (SU) a equipos de pacientes hospitalizados y encontraron que en el 39,4% de las admisiones, los pacientes fueron admitidos en un equipo de pacientes hospitalizados diferente al remitido inicialmente por el SU. Xia y Yetisgen-Yildiz24 casi no mostraron acuerdo entre los anotadores clínicos que identificaron neumonía a partir de informes de radiografías de tórax (κ de Cohen = 0,085), y que “la formación médica por sí sola no es suficiente para lograr un alto acuerdo entre anotadores”. La presencia de ruido es claramente omnipresente en una variedad de ámbitos médicos, incluidos los entornos de la UCI.

El uso de estos médicos para establecer la base de conocimientos da como resultado una verdad fundamental "cambiante", dependiendo de qué expertos se utilicen. Se ha demostrado empíricamente que el ruido de las etiquetas en los datos de entrenamiento produce4,11,25,26,27,28: menor precisión de clasificación, mayor complejidad de los modelos inferidos (por ejemplo, aumento del tamaño de los árboles de decisión), mayor número de muestras de entrenamiento necesarias y una dificultad en la selección de características. Hasta donde sabemos, este artículo es uno de los primeros estudios que investiga sesgos/inconsistencias entre un número considerable (11) de médicos en escenarios de toma de decisiones clínicas agudas (ambientes de UCI), utilizando un conjunto de datos de validación externa.

Con frecuencia, se utilizan dos enfoques para abordar el ruido de las etiquetas de clase en el desarrollo de ML. El primero implica utilizar métodos de limpieza de datos, donde las etiquetas ruidosas se identifican y se vuelven a etiquetar/eliminar antes del entrenamiento. El segundo implica el uso de algoritmos tolerantes al ruido de las etiquetas, donde el ruido de las etiquetas se tiene en cuenta durante el aprendizaje10,12,29. Además, la aplicación de estos métodos puede dar como resultado la pérdida de diferencias sutiles y potencialmente importantes entre las etiquetas de clase de los anotadores. (Este último tema se aborda en la sección Trabajo adicional). Existe literatura informativa que analiza métodos para mejorar la calidad de las etiquetas clínicas, incluido el establecimiento de pautas de anotación claras24 y el modelado de errores de anotación de los expertos humanos30. Sin embargo, la mayor parte de esta literatura considera tareas de clasificación de imágenes; faltan estudios empíricos sobre cómo mejorar la calidad de las etiquetas simbólicas dentro de las tareas de anotación médica.

El objetivo de este estudio es evaluar la (in)consistencia de las anotaciones humanas para el desarrollo de modelos de IA y el impacto en la toma de decisiones clínicas del mundo real en entornos de UCI. La calidad general de la etiqueta de clase se ve fuertemente afectada por los desacuerdos entre los anotadores. El objetivo de este estudio es investigar el impacto y la utilización efectiva de los desacuerdos de los expertos (a través de sus anotaciones) en el desarrollo de modelos de ML en lugar de resolver la desviación de sus juicios para formar una "verdad básica". Llevamos a cabo extensos experimentos que demuestran cómo las diferencias en los juicios entre anotadores expertos clínicos pueden conducir a modelos de clasificación con rendimiento variable (por lo tanto, utilidad clínica variable) y cómo obtener un consenso óptimo a partir de dichas diferencias, para facilitar la toma de decisiones clínicas impulsada por la IA. Específicamente, Sleeman et al.5,7 informaron que los expertos clínicos a veces no están de acuerdo al etiquetar la gravedad de un paciente de la Unidad de Cuidados Intensivos (UCI) en una escala de cinco puntos (EA), basada en los valores de seis variables clínicas. El estudio actual aborda la pregunta: "¿Cuáles son las implicaciones de estas diferencias de juicio sobre el rendimiento del modelo clasificador resultante y la toma de decisiones clínicas en la UCI en el mundo real?" Por lo tanto, propusimos la hipótesis de que los clasificadores M, derivados de conjuntos de datos etiquetados individualmente por expertos clínicos M, producen clasificaciones consistentes cuando se aplican a un conjunto de datos externo relevante. Los objetivos de este estudio son: 1) Construir clasificadores a partir de los 11 conjuntos de datos de UCI del Queen Elizabeth University Hospital (QEUH) anotados individualmente. 2) Evaluar el desempeño de los clasificadores en los resultados del alta del mundo real (dados de alta vivos de la UCI y fallecidos en la UCI) en un conjunto de datos de la UCI externo: HiRID. 3) Evaluar varios enfoques para abordar las inconsistencias en las anotaciones, ya que con frecuencia crean modelos de IA subóptimos.

Este estudio se centra en un escenario de uso de tecnologías de inteligencia artificial para facilitar un problema de toma de decisiones clínicas que los consultores de la UCI enfrentan en el día a día, como se describe a continuación.

¿Podemos utilizar una escala (AE) del Sistema de puntuación de pacientes de la UCI (ICU-PSS) de cinco puntos para abordar la pregunta “¿Qué tan enfermo está el paciente?”, donde E representa inestabilidad cardiovascular grave y A representa un paciente relativamente estable. La Figura 1a proporciona una descripción de la escala ICU-PSS y la Tabla complementaria 1 contiene más detalles.

a Categorías de anotación ICU-PSS. b Casos de ejemplo de un conjunto de datos anotado de QEUH ICU.

El conjunto de datos de entrenamiento se obtuvo del sistema de gestión de pacientes de la UCI del Hospital Universitario Queen Elizabeth de Glasgow (QEUH). Contiene 60 casos de datos descritos por seis características clínicas: dos variables farmacológicas (adrenalina y noradrenalina) y cuatro parámetros fisiológicos (FiO2, SpO2, presión arterial media (PAM) y frecuencia cardíaca (FC)). Tenga en cuenta que las seis variables son las que los médicos utilizan habitualmente en la UCI para evaluar qué tan enfermo está un paciente en particular. En la Fig. 1b se muestran anotaciones de ejemplo. El conjunto de datos QUEH puede contener datos de pacientes de UCI con y sin traumatismos.

Nuestro objetivo principal es evaluar la (in)consistencia de las anotaciones humanas para el desarrollo de modelos de IA y el impacto en la toma de decisiones clínicas del mundo real en entornos de UCI. Esto se desglosa en los siguientes aspectos.

Configuración de la evaluación: (a) los modelos ML se desarrollan utilizando los conjuntos de datos anotados QEUH; (b) se preparan conjuntos de datos de validación externa y todas las evaluaciones del desempeño del modelo deben realizarse con estos conjuntos de datos.

Cuantificación de la coherencia: elegimos la escala κ de Cohen31,32 y la κ33,34 de Fleiss para medir en qué medida los modelos de IA de los anotadores asignan la misma categoría a la misma instancia. Los valores más altos en estas escalas sugieren niveles más fuertes de acuerdo. La escala de Cohen se puede resumir como: 0,0–0,20 (Ninguno); 0,21–0,39 (mínimo); 0,40–0,59 (débil); 0,60–0,79 (moderado); 0,80–0,90 (fuerte); > 0,90 (Casi Perfecto).

Impacto en la toma de decisiones del mundo real: elegimos dos escenarios reales de toma de decisiones en la UCI, los cuales son tareas de clasificación binaria. Primero, si un paciente debería ser dado de alta de la UCI en la próxima hora; en segundo lugar, si un paciente va a morir en la UCI en la próxima hora. Investigamos dos métodos de validación externa: uno que utiliza instantáneas horarias de datos de pacientes (es decir, datos estáticos) y otro que utiliza datos de series temporales (es decir, datos temporales).

Evaluamos las “mejores prácticas” actuales para obtener el estándar de oro: evaluamos (a) si existe un “súper experto” cuyo juicio deba usarse como estándar de oro cuando ocurren desacuerdos; (b) si se puede obtener un consenso de todos los juicios de expertos para lograr el estándar de oro?

En la Fig. 2 se encuentra una descripción general del enfoque experimental descrito anteriormente.

El componente izquierdo (con tres cuadros) ilustra la derivación del modelo, incluido el conjunto de datos, los modelos y los métodos de validación interna. El componente superior con dos cuadros verdes indica la selección y preparación del conjunto de datos de validación externa. El componente central (encerrado en un círculo con una línea discontinua) muestra los experimentos de validación externa. El componente derecho (con cuatro cuadros rosas) describe los detalles del experimento de validación externa, incluidas mediciones inconsistentes, métodos de búsqueda de consenso y toma de decisiones considerando patrones cambiantes.

Recuerde que la hipótesis central de este estudio es: los clasificadores M, derivados de los conjuntos de datos etiquetados individualmente por expertos clínicos M, producen clasificaciones idénticas cuando se aplican a un conjunto de datos externo relevante.

Los clasificadores de árbol de decisión (DT) y bosque aleatorio (RF) se construyeron a partir de conjuntos de datos anotados por QEUH, en parte porque ambos son opciones populares en la literatura clínica sobre aprendizaje automático. Se seleccionó DT porque los diagramas de árbol resultantes se pueden usar para inferir el proceso de toma de decisiones de los modelos aprendidos, así como para comparar las diferentes complejidades entre los modelos anotadores. Se utilizó RF para comparar si modelos más potentes (en comparación con DT) harían que la inconsistencia fuera menos significativa, lo cual mostraremos en subsecciones posteriores que no es el caso.

Se derivaron 11 clasificadores de cada uno de los conjuntos de datos anotados de los 11 consultores, que contenían datos para 6 variables clínicas (adrenalina, noradrenalina, FiO2, SpO2, PAM, FC) y las etiquetas de clase de gravedad (AE). El etiquetado de anotaciones (AE) en las 60 instancias de entrenamiento difiere entre los 11 anotadores, como se muestra en la Fig. 3a. Tenga en cuenta que probamos técnicas de equilibrio de clases para equilibrar las etiquetas de clase dentro de los conjuntos de datos anotados antes del entrenamiento; sin embargo, esto no resultó en una diferencia de rendimiento significativa (consulte la Tabla complementaria 2). Por lo tanto, decidimos crear clasificadores utilizando los conjuntos de datos anotados originales. A los 11 consultores que anotaron los conjuntos de datos QEUH se les asignaron aleatoriamente nombres en clave anónimos (C1-C11) después del ejercicio de anotación en el estudio anterior de Sleeman et al.5. A lo largo de este documento se hace referencia a estos nombres en clave. El clasificador de RF correspondiente a cada consultor se denomina Cn-RF, donde n se refiere a los consultores 1 a 11.

a Distribuciones de anotaciones en todos los conjuntos de datos de capacitación QEUH etiquetados por todos los consultores (C1-C11). b Distribuciones de etiquetas previstas en los modelos multiclase de RF de los consultores, ejecutadas en el conjunto de datos de validación HiRID. c Valores κ de Cohen por pares en todos los pares de consultores para las etiquetas predichas realizadas por los modelos de RF multiclase en el conjunto de datos de validación HiRID externo.

Los modelos entrenados predicen las etiquetas (AE) de ICU-PSS para un paciente, indicando su nivel de gravedad. Un experimento de validación interna estándar en múltiples conjuntos de datos anotados implica primero establecer una verdad fundamental, muy probablemente mediante la votación mayoritaria de todos los anotadores para cada instancia. Luego, cada modelo de consultor capacitado se compararía con esta verdad básica para establecer el desempeño de la validación interna. Desarrollamos y utilizamos un método diferente, más relevante para este estudio, donde cada modelo entrenado se comparó con las anotaciones originales de las que aprendió; por lo tanto, estos resultados de validación interna indican la "capacidad de aprendizaje" de los conjuntos de datos anotados originales, es decir, qué tan bien Se pueden aprender las asociaciones entre las variables de atributos y las anotaciones proporcionadas y, a su vez, con qué facilidad se puede reproducir la toma de decisiones del anotador. Esta puntuación F1 (micro) de validación interna oscila entre 0,50 y 0,77 en los 11 clasificadores de RF, como se ve en la Fig. 5a. La importancia de la característica entre las seis variables predictivas difiere entre los clasificadores, como se muestra en la Fig. 4.

El eje x enumera los 11 clasificadores y el eje y es el valor de importancia con un rango de 0 a 1, donde 1 denota la mayor importancia.

Con todos los experimentos de validación externa, la atención se centra en predecir los dos escenarios clínicos extremos (dado de alta vivo de la UCI o muerto en la UCI). En este primer experimento de validación externa, los modelos entrenados se ejecutaron en un conjunto de datos de prueba HiRID, para predecir etiquetas de gravedad (EA) en 2600 instancias que contienen datos para las mismas 6 variables clínicas (1300 de estas instancias corresponden a pacientes que son dados de alta con vida de ese UCI, y otros 1300 pacientes que murieron en esa UCI). Como nuestro enfoque es una tarea de clasificación binaria (estado de alta), asignamos las clasificaciones de etiquetas de gravedad de AE ​​multiclase a clasificaciones binarias de alta/muerte de la siguiente manera:

En la última hora antes de que un paciente sea dado de alta (vivo) de la UCI, su clasificación en la escala ICU-PSS es 'A'.

En la última hora antes de que un paciente fallezca en UCI, su clasificación en la escala ICU-PSS es 'E'.

Tenga en cuenta que, en el conjunto de datos de HiRID, no todos los pacientes con clasificación 'A' fueron dados de alta en la siguiente hora. De manera similar, no todos los pacientes con clasificación 'E' murieron dentro de la hora siguiente; Muchos pacientes al llegar a la UCI están extremadamente enfermos y, a menudo, se les califica con una 'E'.

Las etiquetas previstas en las instancias de prueba de 2600 HiRID difieren entre los anotadores, como se muestra en la Fig. 3b. Al revisar este diagrama se desprende claramente que existe una gran variación en las clasificaciones de los modelos de los expertos, y sólo unos pocos modelos tienen etiquetas comparables. Los acuerdos entre anotadores (IAA) por pares correspondientes para estas etiquetas predichas de AE, utilizando la escala de Cohen, oscilan entre −0,01 (Bajo/Ninguno) y 0,48 (Débil) en todos los modelos de anotadores, y se muestran en la Fig. 3c. La puntuación κ de Cohen promedio por pares es 0,255 (acuerdo mínimo). La κ de Fleiss para estas etiquetas predichas es 0,236 (acuerdo justo). Tenga en cuenta que IAA se utiliza como abreviatura de “Acuerdo entre anotadores” en todo este documento.

Estos resultados se obtuvieron utilizando los clasificadores Random Forest35, entrenados en los conjuntos de datos anotados de los 11 consultores. Los clasificadores correspondientes obtenidos utilizando el algoritmo del árbol de decisión25 dieron resultados comparables, ver ref. 36. Los clasificadores entrenados con XGBoost y SVM también dieron resultados comparables a los modelos de RF, como se muestra en la Figura complementaria 3.

Además, consideramos que las decisiones reales que los clasificadores de los 11 consultores de QEUH tomaron con respecto al conjunto de datos de validación HiRID que recordarán, contenían 1300 instancias que corresponden a que el paciente fue dado de alta con vida en la siguiente hora (es decir, la etiqueta ICU-PSS 'A ', como se describe en el mapeo anterior) y 1300 casos en los que el paciente murió en la UCI dentro de la hora siguiente (es decir, etiqueta ICU-PSS 'E'). Estos resultados se resumen en la Fig. 5a. Recuerde que los clasificadores capacitados predicen las etiquetas de clasificación (EA) de ICU-PSS para un paciente, indicando su nivel de gravedad. En este primer experimento de validación externa, tratamos los modelos entrenados como si predijeran tres clases: CL1 = A, CL2 = B/C/D y CL3 = E. Las puntuaciones F1 de validación externa informadas en la Fig. 5a se calculan utilizando el micro F1. promedio: calcular un puntaje F1 promedio global contando las sumas de los verdaderos positivos, los falsos negativos y los falsos positivos. La puntuación F137 es la media armónica de la precisión y sensibilidad del clasificador, donde una puntuación más alta indica un modelo de mayor rendimiento.

a Realizaciones de validación interna y externa de los modelos RF de los consultores. Para cada clasificador, se informa el número de etiquetas "Descargado vivo" y "Descargado muerto" correctamente clasificadas en el conjunto de datos externo HiRID. b Gráfico de matriz de confusión de validación externa para el Consultor 1, que muestra las etiquetas verdaderas del conjunto de datos HiRID y las etiquetas predichas del modelo de RF en las cinco clases (AE): 0 = etiqueta 'A' de ICU-PSS, 4 = etiqueta 'E' de ICU-PSS.

La Figura 5a informa el número de etiquetas "Descargado vivo" y "Descargado muerto" correctamente clasificadas en los 11 clasificadores. Estos resultados sugieren que C10 es el "más reacio" a dar de alta a los pacientes, con el menor número de clasificaciones correctas de "dados de alta vivos", en referencia al número de admisiones correctamente pronosticadas dadas de alta con vida en 1 h. Por el contrario, C2 y C4 son los que "tienen más probabilidades" de dar de alta a los pacientes, con el mayor número de casos correctos de "dados de alta vivos".

Centrándonos únicamente en los casos en los que el paciente fue dado de alta con vida, observamos que el acuerdo promedio entre anotadores por pares (κ de Cohen) es 0,21 (acuerdo mínimo). κ de Fleiss para estas etiquetas predichas es 0,174 (ligero acuerdo).

Centrándonos ahora en los casos en los que el paciente murió en la UCI, observamos que el acuerdo promedio entre anotadores por pares (κ de Cohen) es 0,28 (acuerdo mínimo). κ de Fleiss para estas etiquetas predichas es 0,267 (acuerdo justo).

Esto sugiere que los expertos en el ámbito clínico están más de acuerdo a la hora de predecir la mortalidad, en comparación con las decisiones de alta. Tenga en cuenta que, debido al bajo número de etiquetas 'E' en los conjuntos de datos anotados, se pueden inferir comparaciones y conocimientos limitados para estas etiquetas "muertas" previstas. En futuros estudios relacionados adquiriremos conjuntos de datos más equilibrados para abordar este problema.

La Figura 5b muestra un ejemplo de un gráfico de matriz de confusión de un consultor (C1), que describe la distribución de las etiquetas predichas de RF cuando se ejecuta en el conjunto de datos de validación HiRID. Las etiquetas previstas 0 a 4 corresponden a las etiquetas AE de ICU-PSS, respectivamente. La etiqueta verdadera = 0 corresponde al alta viva del paciente de la UCI dentro de la siguiente hora (es decir, la etiqueta 'A' de ICU-PSS); y la etiqueta verdadera = 4 corresponde a que el paciente murió en la UCI dentro de la siguiente hora (es decir, la etiqueta 'E' de ICU-PSS). Esta matriz de confusión muestra que C1-RF clasificó correctamente al paciente como "dado de alta vivo" en 337 casos y clasificó correctamente al paciente como "dado de alta muerto" en 229 casos. Los modelos entrenados fueron tratados como si predijeran tres clases: CL1 = A, CL2 = B/C/D y CL3 = E.

Como los datos de entrenamiento de QEUH consisten en instantáneas horarias de lecturas fisiológicas/farmacológicas del paciente, ejecutamos este experimento de validación externa con un conjunto de datos de validación HiRID que contiene datos igualmente estáticos. Sin embargo, la Fig. 5a muestra que el rendimiento de la validación externa es significativamente menor que el rendimiento de la validación interna. Esto podría indicar que la toma de decisiones extremas en las UCI (predecir el alta/muerte) puede requerir un seguimiento continuo (es decir, el uso de datos de series temporales); esto se explora más a fondo en la subsección posterior 'Evaluación de métodos de validación externa de series temporales'. Además, las distribuciones de anotaciones que se muestran en la Fig. 3a sugieren que es menos probable que los anotadores humanos elijan categorías de etiquetas extremas (es decir, A o E) cuando se les presenta una tarea de etiquetado multiclase, lo que a su vez da como resultado un rendimiento deficiente al predecir estos escenarios.

Para los clasificadores que tuvieron un alto rendimiento de validación interna (C2-RF, C4-RF, C8-RF), podemos inferir que los conjuntos de datos anotados de estos consultores eran altamente aprendibles (recuerde, la 'capacidad de aprendizaje' indica qué tan bien las asociaciones entre las variables de entrada y si se pueden aprender las anotaciones y, a su vez, con qué facilidad se puede reproducir el fundamento clínico del anotador). A pesar de tener un rendimiento de validación interna similarmente alto, los consultores C2 y C8 difieren en sus distribuciones de anotaciones QEUH iniciales y en las distribuciones de importancia de características posteriores, como se describe en las Fig. 3a y 4, lo que da como resultado distribuciones diferentes en sus etiquetas predichas en el conjunto de datos de validación HiRID. Como se muestra en las Figs. 6a y 6b, el conjunto de datos anotado C2 QEUH consta de un 3,3 % de etiquetas 'C' y un 10,0 % de etiquetas 'E', mientras que el conjunto de datos anotado C8 consta de un 36,7 % de etiquetas 'C' y un 1,7 % de etiquetas 'E'. Las etiquetas predichas del clasificador C2-RF inferido constan de 1,4 % de etiquetas 'C' y 11,2 % de etiquetas 'E', mientras que las etiquetas predichas del clasificador C8-RF inferido constan de 12,5 % de etiquetas 'C' y 1,5 % de etiquetas 'E'. En general, los clasificadores C2-RF y C8-RF tienen una concordancia mínima entre sus clasificaciones cuando se ejecutan en el conjunto de datos HiRID (κ de Cohen por pares = 0,27).

a Distribuciones de anotaciones en los conjuntos de datos etiquetados QEUH para C2, C4 y C8. b Distribuciones de etiquetas previstas generadas por los clasificadores C2-RF, C4-RF y C8-RF cuando se ejecutan en el conjunto de datos de validación HiRID.

En esta subsección, evaluamos dos tipos de mejores prácticas para obtener el estándar de oro de expertos en múltiples dominios:

(a) Súper experto: utilice las etiquetas de un anotador de mayor rango o utilice decisiones de un árbitro cuando surjan desacuerdos; (b) Voto mayoritario: buscar el consenso de todos los juicios diferentes como verdad básica38,39,40.

Con respecto al supuesto de "súper experto", no pudimos hacer esta evaluación directamente, ya que no sabemos qué anotadores tienen mayor rango, debido a la anonimización del conjunto de datos. Para solucionar este problema, utilizamos la correlación entre el desempeño del modelo interno y externo como indicador indirecto. Esto se debe a que, si se cumple el supuesto del superexperto, se podría suponer que los modelos con mayor (o menor) desempeño interno probablemente tengan desempeños mayores (o menores) en validaciones externas. La Figura 5a enumera los resultados de la validación interna y externa. La correlación de Pearson entre los dos resultados es de 0,51, lo que significa que no están fuertemente asociados. Los resultados de este análisis sugieren que la suposición del superexperto, es decir, que el estándar de oro siempre puede ser proporcionado por el colega de mayor rango, no siempre es cierta. Observamos que incluso los modelos que funcionan bien en validación interna no funcionan tan bien en conjuntos de datos externos (por ejemplo, C4-RF y C8-RF). De hecho, las anotaciones iniciales del conjunto de datos QEUH muestran niveles similares de desacuerdo entre los consultores como se muestra en el conjunto de datos de validación HiRID. Como mostraremos más adelante, a menudo se puede lograr un modelo superior considerando diversos juicios en un enfoque selectivo de mayoría de votos.

Además, investigamos tomar un consenso de las anotaciones de todos los expertos (una práctica común). La Figura 5a muestra el variado rendimiento de la validación interna en los conjuntos de datos QEUH, lo que indica una diferencia en la capacidad de aprendizaje en los 11 conjuntos de datos anotados. Los modelos con mayor rendimiento de validación interna indican una capacidad de aprendizaje más fácil (por ejemplo, C8), lo que potencialmente refleja reglas de anotación más consistentes y un proceso de toma de decisiones más simple. Los modelos con menor rendimiento interno indican una peor capacidad de aprendizaje, con reglas de clasificación potencialmente menos consistentes/más complejas (por ejemplo, C7).

Para evaluar la confiabilidad de tomar un consenso, comparamos el desempeño de la validación externa de un modelo de Voto Mayoritario (MV) de consenso, construido a partir de las etiquetas de voto mayoritario en los 11 conjuntos de datos anotados, con un modelo de Voto Mayoritario Superior (TMV), construido a partir de las etiquetas de voto mayoritario en los modelos de consultores de mejor rendimiento (donde la validación interna F1 micro > 0,7). La Figura 7 muestra que TMV (F1 micro = 0,438) funciona significativamente mejor que MV (F1 micro = 0,254). De hecho, TMV supera a casi todos los modelos de consultores. Esto indica que es importante evaluar la capacidad de aprendizaje de los juicios de cada experto en cada dominio antes de crear un consenso, porque los juicios (de expertos) que no se pueden aprender con frecuencia conducen a desempeños deficientes.

El voto mayoritario (MV) se refiere a un modelo de consenso de mayoría total de votos. Top Majority Vote (TMV) se creó a partir de las etiquetas de voto mayoritario en los modelos de consultores de mayor rendimiento.

Después de una discusión adicional con los profesionales de la UCI, establecimos que la toma de decisiones clínicas de los consultores de la UCI comúnmente considera la tendencia en los parámetros fisiológicos y farmacológicos del paciente durante el período de tiempo previo a la evaluación (p. ej., durante las 5 a 10 h anteriores). Por lo tanto, incorporamos un componente de series de tiempo en este segundo experimento de validación externa e investigamos cómo esto afecta el rendimiento de los clasificadores QEUH. Creemos que este experimento es una evaluación clínicamente más relevante de los modelos expertos, ya que proporciona la tarea más realista de clasificar el estado del alta dadas las lecturas de los parámetros del paciente durante un período de tiempo (en lugar de una sola instantánea).

En este segundo experimento de validación externa, comparamos el rendimiento de los clasificadores DT, entrenados en los conjuntos de datos anotados QEUH, en conjuntos de datos HiRID tanto estáticos como temporales. El conjunto de datos estáticos de validación de HiRID contiene 1064 registros (de 1064 pacientes únicos), donde todas las instancias de datos son lecturas dentro de 1 hora antes de que el paciente sea dado de alta con vida (es decir, etiqueta 'A' de ICU-PSS) o dentro de 1 hora antes de que el paciente muriera ( es decir, etiqueta 'E' de ICU-PSS). Los conjuntos de datos de validación temporal de HiRID contienen 5320 registros (de los mismos 1064 pacientes únicos), compuestos por cinco registros por paciente: una lectura para cada una de las 5 h antes del alta/muerte.

Para evaluar el rendimiento de los clasificadores DT entrenados en los conjuntos de datos de validación temporal, para cada momento del paciente se calculó la suma ponderada de las cinco predicciones (por hora) de ICU-PSS y se obtuvo un valor medio (lo que resultó en 1.064 clasificaciones de gravedad dentro del tiempo). conjuntos de datos). Estas etiquetas previstas de AE ​​se trataron como una escala ordinal del 1 al 5, por lo tanto, los valores de la suma ponderada estaban todos en el rango del 1 al 5. Nuevamente, los modelos entrenados fueron tratados como si predijeran tres clases: CL1 = A, CL2 = B/C/D y CL3 = E. Exploramos dos métodos para asignar los valores de la suma ponderada (1 a 5) a estas tres clases, con diferentes límites, como se muestra a continuación. Se describen más detalles en la sección Métodos.

'Extremo': CL1 = 1, CL2 = > 1–4, CL3 = > 4.

'Neutral': CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

Dentro de este experimento, además de los modelos de consenso MV y TMV, se construyó un modelo adicional de "Consenso Difuso" (FC). Este modelo FC se construyó combinando los resultados de los modelos individuales considerando sus resultados como valores de confianza para la tarea de clasificación binaria en los conjuntos de datos de validación externa temporal (dados de alta vivos versus fallecidos). Tratamos las etiquetas predichas de AE ​​como predicciones en una escala ordinal del 1 al 5 (es decir, A = 1, B = 2, C = 3, D = 4, E = 5). En esta escala, A representa el alta viva dentro de la hora siguiente y E representa la muerte dentro de la hora siguiente. Dentro de este método de consenso, todas las predicciones se capturan e interpretan como etiquetas "borrosas"41 al calcular la predicción general del estado de alta de cada paciente. Para cada predicción horaria, por paciente, se promediaron los resultados del modelo (1 a 5), ​​pero se excluyeron las etiquetas predichas '3' (es decir, 'C') en este cálculo. Se excluye '3' ya que este valor de confianza se encuentra directamente en el centro de la escala de 1 a 5 y, por lo tanto, se interpreta como "incierto". Después de este cálculo promedio, para cada momento del paciente se calculó la suma ponderada de las cinco predicciones (por hora) de ICU-PSS, utilizando los puntos de corte 'Extremo' y 'Neutral' descritos anteriormente. Los resultados se muestran en la Fig. 8a. Se encuentran más detalles sobre el cálculo del modelo FC en la sección Métodos. También se construyó un modelo de 'Top Fuzzy Consensus' (TFC) a partir de las etiquetas de voto mayoritario en los modelos de consultores de mayor rendimiento (donde la validación interna F1 micro > 0,7).

a Comparación del rendimiento de la validación externa en conjuntos de datos de validación HiRID estáticos y temporales. b Etiquetas de "dado de alta vivo" y "muerto de alta" correctamente clasificadas realizadas en conjuntos de datos de validación externa HiRID estáticos y temporales. c Las distribuciones de odds ratio del modelo de regresión logística entrenado en HiRID predijeron etiquetas 1 a 5 h antes del alta/muerte.

La Figura 8a muestra que todos los modelos de anotadores funcionan mejor en el conjunto de datos de validación temporal (neutral), en comparación con los conjuntos de datos temporales (extremos) y estáticos. Los modelos tienen un mayor rendimiento en el conjunto de datos generado con un mapeo de clasificación más neutral, en comparación con el mapeo más extremo, ya que el método de mapeo extremo excluye una cantidad mucho mayor de puntos de datos de pacientes de las clases CL1 y CL3 (recuerde, solo las clases CL1 y CL3 son presente en los conjuntos de datos de validación HiRID). Se investigó un mapeo adicional utilizando los siguientes puntos de corte: CL1 = ≤ 2, CL2 = > 2-< 4, CL3 = ≥ 4; consulte la Figura complementaria 1 para ver estos resultados.

Como se muestra en la Fig. 8a, observamos que los modelos de buen rendimiento en validación interna (C4-RF y C8-RF) no funcionan tan bien cuando se ejecutan en conjuntos de datos externos temporales. La correlación de Pearson entre los resultados de la validación interna y los resultados de la validación externa temporal (extrema) es de 0,64, lo que significa que no están fuertemente asociados. De manera similar, la correlación de Pearson entre el resultado de la validación interna y los resultados de la validación externa temporal (neutral) es −0,51. Esto proporciona más evidencia de que la suposición de los súper expertos puede no siempre ser válida en entornos clínicos agudos.

La Figura 8a muestra que el modelo Top Majority-Vote (TMV) funciona significativamente mejor que el modelo de consenso Majority-Vote (MV) en el conjunto de datos de validación estática, como se observó en el experimento anterior. TMV también funciona significativamente mejor que MV en el conjunto de datos temporal (extremo) y ligeramente mejor que MV en el conjunto de datos temporal (neutral). Esto sugiere además la importancia de evaluar la capacidad de aprendizaje de los juicios de los expertos en el dominio y excluir las anotaciones de expertos que no se pueden aprender bien antes de obtener un consenso como verdad fundamental. El modelo Top Fuzzy Consensus (TFC) también funciona bien, lo que indica que el consenso mejora consistentemente después de seleccionar modelos en función de la capacidad de aprendizaje de los modelos individuales.

La Figura 8b informa el número de etiquetas "Descargado vivo" y "Descargado muerto" correctamente clasificadas en los 11 clasificadores, ejecutadas en los conjuntos de datos de validación HiRID estáticos y temporales.

Centrándonos únicamente en los casos en los que el paciente fue dado de alta con vida, observamos que el IAA promedio por pares, es decir, κ de Cohen, es 0,239 (acuerdo mínimo) en el conjunto de datos temporal (extremo), donde κ de Fleiss para estas etiquetas predichas es 0,211 (aceptable). acuerdo). Cuando se ejecuta en el conjunto de datos temporal (neutral), el IAA promedio por pares es 0,284 (acuerdo mínimo) y el κ de Fleiss es 0,294 (acuerdo justo).

Centrándonos ahora en los casos en los que el paciente murió en la UCI, observamos que el IAA promedio por pares es 0,327 (acuerdo mínimo) en el conjunto de datos temporal (extremo), donde κ de Fleiss para estas etiquetas predichas es 0,326 (acuerdo justo). Cuando se ejecuta en el conjunto de datos temporal (neutral), el IAA promedio por pares es 0,587 (acuerdo débil) y el κ de Fleiss es 0,579 (acuerdo moderado). Esto indica además que los expertos en el ámbito clínico pueden estar más de acuerdo a la hora de predecir la mortalidad, en comparación con las decisiones de alta.

Realizamos análisis adicionales para investigar cómo funcionan los modelos de aprendizaje supervisado al clasificar el estado de alta del paciente, después del entrenamiento en las etiquetas predichas (AE) generadas (por los clasificadores DT) en el conjunto de datos temporales HiRID. Esto implicó el entrenamiento de árboles de decisión y modelos de regresión logística (LR) en las etiquetas predichas (AE) del clasificador DT de cada consultor durante las cinco horas previas al alta/muerte para cada paciente (es decir, 5 características predictivas), consulte la Figura complementaria 2.

Las distribuciones de odds ratio indican la diferencia en las ponderaciones (es decir, importancia) entre las cinco variables horarias, al realizar la clasificación del estado de alta del paciente (alta viva o fallecida). Las predicciones a las 5 h antes del alta/muerte fueron las más importantes en la clasificación del estado de alta del modelo LR en la mayoría de los modelos de consultores, así como para MV y TMV. Para la mayoría de los modelos, las predicciones 1 h antes del alta/muerte fueron las menos importantes a la hora de realizar la clasificación final del estado del alta, lo cual es notable porque contradice la hipótesis intuitiva de que las predicciones de alta más cercanas al momento del alta/muerte son indicativas del estado final. estado de alta.

Este estudio se centró en evaluar los desacuerdos entre los anotadores clínicos y evaluar el impacto de estos desacuerdos en el rendimiento de los modelos de ML resultantes, dentro de los entornos de la UCI. En particular, evaluamos las "mejores prácticas" actuales para buscar el consenso y nuestros resultados sugieren que es posible que no funcionen bien en entornos clínicos agudos. Nuestro análisis señala un enfoque novedoso y más confiable: evaluar la capacidad de aprendizaje antes de buscar el consenso.

Las variadas clasificaciones de etiquetas que se muestran en la Fig. 3b y el bajo acuerdo por pares en la Fig. 3c (κ de Cohen promedio = 0,255, es decir, acuerdo mínimo) son suficientes para rechazar la hipótesis central, concluyendo que los clasificadores, derivados de conjuntos de datos etiquetados individualmente por los 11 expertos clínicos, no producen clasificaciones consistentes cuando se aplican a un conjunto de datos externo relevante. Un análisis más detallado de dos escenarios de toma de decisiones en la UCI mostró que la inconsistencia varía en diferentes situaciones: estos expertos en el dominio clínico parecen tener un mayor acuerdo en situaciones más críticas, como predecir la mortalidad.

Una inmersión profunda en la evaluación de las prácticas actuales para obtener la verdad sobre el terreno arroja dos sugerencias viables: (a) es posible que no existan súper expertos (que son más confiables que todos los demás) en entornos clínicos agudos, y las respuestas diversas podrían ser más confiables para obtener resultados óptimos. modelos; (b) la capacidad de aprendizaje (cuantificada como desempeño de validación interna) es una métrica clave que debe evaluarse según los juicios de los expertos en el dominio, y evitar juicios mal aprendibles podría conducir a mejores verdades fundamentales y, por lo tanto, mejores desempeños de validación externa.

Además del punto b), un enfoque para detectar y excluir a los expertos que aplican de manera inconsistente sus reglas de anotación se resume a continuación: Todos los expertos deben anotar el mismo conjunto de instancias (de capacitación); A partir de estos conjuntos de datos anotados se inferiría un clasificador para cada experto. La 'capacidad de aprendizaje' de cada clasificador se obtiene a través de un método apropiado, por ejemplo, validación cruzada k veces, donde los modelos entrenados se ejecutan con sus anotaciones originales; esto es una verificación de la coherencia de las reglas de anotación de cada experto. Luego, excluya todos los modelos que no funcionan por encima de un umbral predefinido (es decir, los modelos creados a partir de conjuntos de datos anotados con baja capacidad de aprendizaje). Los resultados mostrados en las Figs. 7 y 8a indican que este método se puede aplicar para utilizar desacuerdos entre anotadores clínicos para generar modelos de consenso de mayor rendimiento (es decir, TMV y TFC).

Después de excluir los modelos que no se pueden aprender bien, observamos que puede haber diferencias significativas en las clasificaciones realizadas por los distintos modelos expertos (por ejemplo, C2-RF y C8-RF), como se describe en la sección Resultados. Esto concuerda con la observación hecha por Welinder et al.42 de que algunos anotadores tienden a ser más extremos en su etiquetado, mientras que otros son más moderados. Como los clasificadores C2-RF y C8-RF se infirieron a partir de conjuntos de datos anotados que se pueden aprender (indicados por un buen desempeño de validación interna), esto sugiere que las diferencias en las distribuciones de etiquetas previstas resultantes pueden deberse a diferencias en los juicios de los consultores. Por lo tanto, estas pueden ser diferencias válidas y clínicamente útiles que tal vez no queramos ignorar. Los enfoques actuales de ML para abordar el ruido de las etiquetas en conjuntos de datos de entrenamiento incluyen la limpieza de datos (es decir, eliminar las etiquetas ruidosas) o la utilización de algoritmos resistentes o tolerantes al ruido. La aplicación de estos métodos puede resultar en la pérdida de las útiles diferencias granulares entre los juicios de los anotadores. Además, aplicar el enfoque de voto mayoritario o de voto mayoritario (descrito en la sección Resultados) puede resultar en una pérdida de diferencias sutiles entre los juicios de los anotadores. Esta cuestión se abordará en la sección Trabajo adicional.

La mayoría de los clasificadores creados en este estudio tienen un rendimiento de validación interno y externo deficiente, lo que refleja una mala toma de decisiones en el mundo real. Sin embargo, este bajo rendimiento podría deberse a una variedad de razones: conjunto de datos de entrenamiento pequeño/desequilibrado, características seleccionadas no son las más predictivas, la necesidad de evaluar a los pacientes en múltiples momentos, diferencias entre entornos de UCI, etc. Un estudio similar que utilizó un conjunto más grande de Se necesitan anotaciones, con clases más equilibradas (y posiblemente más características/diferentes), para investigar más a fondo las características de este ruido no aleatorio del mundo real y obtener resultados más confiables para las implicaciones en el rendimiento del modelo, así como la efectividad de nuestro método de búsqueda de consenso propuesto (es decir, evaluar la capacidad de aprendizaje antes de buscar el consenso). Esto debería incluir una cohorte muy grande de anotadores clínicos de un número considerable de UCI del Reino Unido, para proporcionar un conjunto diverso de juicios, así como múltiples conjuntos de datos de validación externa de diferentes países, para evaluar cómo funcionan los modelos en diferentes entornos.

Utilizando estos conjuntos de datos anotados más grandes, se deben realizar análisis adicionales sobre los razonamientos detrás de las inconsistencias entre los anotadores, por ejemplo, sesgos, juicios, ruido, selección limitada de características, así como las formas de resolverlos. Esto debería implicar analizar la forma en que los consultores no están de acuerdo, incluidas las características de los casos fáciles (alto acuerdo entre los anotadores) y los casos difíciles (alto desacuerdo entre los anotadores). Además, se deben considerar estudios destinados a reducir los niveles de desacuerdos entre expertos (clínicos) mejorando la descripción/presentación de las tareas de etiquetado5.

Tras los hallazgos discutidos, se planean más investigaciones para detectar e investigar la coherencia entre los anotadores expertos. La coherencia entre los anotadores se puede detectar fácilmente incluyendo elementos repetidos en los conjuntos de datos que se van a anotar; después de esto, los expertos inconsistentes pueden eliminarse de análisis posteriores. Además, exploraremos más a fondo si la eliminación de los conjuntos de datos anotados "pobremente aprendibles" antes del entrenamiento aumenta el acuerdo entre anotadores y produce mejores resultados de validación externa, así como una toma de decisiones más consistente. Si se determina que es cierto, esto verificaría que evaluar la capacidad de aprendizaje de los juicios de expertos individuales es un paso importante en el entrenamiento de modelos de ML, lo que significa que las prácticas actuales de buscar el consenso directamente de todos los juicios de expertos disponibles para obtener el "estándar de oro" deben revisarse, ya que Los juicios que no se pueden aprender bien pueden causar problemas para alcanzar un verdadero estándar de oro.

Además, en la práctica, las personas tienden a confiar más en expertos altamente experimentados ("súper") y, por lo tanto, sus juicios desempeñan un papel más importante a la hora de obtener un "estándar de oro". Se necesita más investigación para confirmar si los modelos de conjunto funcionan mejor que los expertos en el dominio con experiencia individual.

Además, en un estudio posterior, la tarea de anotación podría modificarse solicitando a cada consultor que asigne un factor de confianza, entre 0 y 1, a cada una de sus anotaciones. Además, se puede capturar el nivel de habilidad (basado en años de experiencia o especialidad) de cada anotador. Estos podrían luego usarse como factores de ponderación durante el entrenamiento del modelo, reduciendo el efecto de las etiquetas de baja confianza y aumentando la contribución de expertos más capacitados en el cálculo del consenso. Además, estos valores de confianza facilitarán el análisis de casos fáciles/difíciles. Nettleton et al.41,43 han realizado extensos experimentos utilizando factores de ponderación y confianza para capturar las respuestas.

Si se cree que el sistema de apoyo a las decisiones de ML es crítico para la seguridad, entonces es vital incluir algunos análisis adicionales para establecer qué clasificadores expertos distintos utilizar. Por ejemplo, ejecute cada uno de los clasificadores contra un conjunto de pares de tarea-solución preespecificados por un panel de expertos y elimine aquellos clasificadores/expertos que resuelvan correctamente menos de un porcentaje predefinido. La eficacia de dichos filtros depende fundamentalmente de las instancias elegidas por el panel. Sin embargo, este es un enfoque apropiado cuando se trabaja en áreas (críticas para la seguridad) donde las diferencias entre dos (o más) clases son leves, pero donde las consecuencias de una clasificación errónea son altas. Este enfoque se ha utilizado ampliamente en el Jeopardy System44 de IBM y anteriormente en el sistema KRUST45. (Este paso debe ejecutarse al igual que los estadísticos/numéricos discutidos anteriormente).

La Figura 8c proporciona una idea muy interesante, a saber, que las etiquetas de gravedad (AE) previstas 5 h antes del alta/muerte fueron las más importantes en la clasificación del estado de alta del modelo LR en la mayoría de los modelos expertos, mientras que las predicciones 1 h antes del alta/muerte fueron las menos importante: un hallazgo algo contradictorio. Se necesita más investigación aquí, en colaboración con los profesionales de la UCI, para investigar cómo las tendencias en las lecturas fisiológicas durante un período antes del alta/muerte pueden usarse para informar las predicciones del estado del alta.

Este estudio se centra en simular un escenario de toma de decisiones en una UCI del mundo real, donde los desacuerdos son bastante comunes e inevitables, e investigar el impacto de estos desacuerdos médicos en los modelos de aprendizaje automático resultantes. Para lograr este objetivo, se consideraron cuidadosamente todos los aspectos del enfoque experimental (descrito en la Fig. 2). Los principales factores se analizan a continuación.

El conjunto de datos de capacitación del Queen Elizabeth University Hospital consta de 60 instancias de datos de pacientes de la UCI, en 6 variables descriptivas. Como los desacuerdos son comunes entre los médicos (las razones son multifactoriales y se resumen en la sección Introducción), para minimizar la inconsistencia intra e interinconsistente entre los anotadores, seleccionamos una tarea de clasificación simple que consta de un conjunto limitado de características e instancias de datos. Por lo tanto, la tarea de anotación seleccionada como base de esta investigación era clínicamente relevante, pero estaba más centrada en la investigación, lo que permitió capturar correctamente el proceso de toma de decisiones de los médicos.

La escala ICU PSS (desarrollada en el período 2000-2005)46 permite a los médicos emitir juicios sobre el estado de un paciente, en momentos particulares, sobre la base de un número limitado de seis descriptores. Hay muchas situaciones en Medicina en las que se deben tomar decisiones/juicios basados ​​en información parcial; este es el escenario que aborda este artículo. La escala ICU-PSS tiene cinco categorías de anotación que, aunque categóricas, pueden verse como puntuaciones de confianza de cada anotador sobre el estado de gravedad del paciente (donde A = más estable con probabilidad de ser dado de alta pronto y E = paciente muy inestable que requiere apoyo farmacológico significativo). . Por lo tanto, esta escala de confianza AE se puede aplicar a una tarea de validación externa binaria, como se analiza en la subsección "Evaluación de métodos de validación externa de series temporales". Además, esta escala ICU-PSS es más simple y fácil de entender en comparación con herramientas de puntuación clínica alternativas (p. ej., SOFA47), lo que da como resultado una tarea de clasificación más simple que permite capturar y comparar mejor las reglas de toma de decisiones/anotación de cada médico.

Se seleccionaron las seis variables clínicas y se desarrolló la descripción cualitativa de cinco puntos de los pacientes de la UCI (EA), en conjunto con varios especialistas de la UCI en un estudio previo. Los médicos utilizan los cuatro parámetros fisiológicos básicos (FiO2, SpO2, presión arterial media, frecuencia cardíaca) como indicadores de cualquier mejora o deterioro apreciable en la condición del paciente. Los campos de fármacos (Adrenalina y Noradrenalina) indican la cantidad de soporte farmacológico que requiere el paciente. Una descripción detallada de estas categorías de ICU-PSS se encuentra en la Tabla complementaria 1.

Existen múltiples algoritmos de clasificación de ML tolerantes al ruido10,12 que pueden abordar los problemas del ruido de las etiquetas durante el aprendizaje. En este estudio, los clasificadores de árbol de decisión (DT) y bosque aleatorio (RF) fueron selecciones más apropiadas, en parte porque ambos se utilizan ampliamente en entornos clínicos. Más importante aún, se seleccionó DT porque los diagramas de árbol resultantes se pueden usar para inferir el proceso de toma de decisiones de los modelos aprendidos, así como para comparar las diferentes reglas de anotación y las complejidades entre los modelos de anotadores. Se utilizó RF para comparar si modelos más potentes harían que estas inconsistencias fueran menos significativas (lo cual hemos demostrado que no es el caso).

Para comparar el desempeño del modelo de los consultores, se realizó una validación del modelo externo utilizando conjuntos de datos de validación HiRID. Los clasificadores QEUH se construyeron para predecir juicios en una escala AE ICU-PSS de 5 puntos. Sin embargo, los conjuntos de datos de validación de HiRID se centraron en una tarea de clasificación binaria de predecir el alta/muerte en la siguiente hora (es decir, valores A o E en la escala ICU-PSS). La base de datos HiRID no contiene valores reales de ICU-PSS ni clasificaciones de gravedad similares de clases múltiples. Por lo tanto, se seleccionó el estado de alta real sobre el terreno como tarea de clasificación de validación, ya que el ICU-PSS AE es comparable a una puntuación de confianza para el estado de alta del paciente (donde A = dado de alta vivo en 1 h y E = murió en 1 h). Como el objetivo de este estudio es investigar el impacto de los desacuerdos entre los anotadores clínicos en el rendimiento del modelo, en lugar de mejorar la calidad de la etiqueta/el rendimiento del modelo, la diferencia entre la tarea de anotación inicial y la tarea de validación del modelo tiene un impacto mínimo en los resultados del experimento.

Los datos de formación del Glasgow Queen Elizabeth University Hospital no están identificados. Las 60 instancias se seleccionaron al azar de un conjunto de 80.291 registros de pacientes por hora obtenidos del sistema de gestión de pacientes QEUH (que contiene datos de pacientes traumatizados y no traumatizados).

Tenga en cuenta que en el estudio anterior de Sleeman et al.5 no se capturaron datos reales sobre la gravedad o el estado del alta de los pacientes en este conjunto de datos QEUH. Estos datos no pudieron recuperarse posteriormente debido al anonimato de los pacientes.

Investigamos métodos de equilibrio de clases para equilibrar las etiquetas de clase dentro de los conjuntos de datos anotados durante el entrenamiento, agregando el parámetro RandomForestClassifier class_weight = balanceado. Esto no resultó en una diferencia de rendimiento significativa en comparación con el uso de los conjuntos de datos anotados originales. Los resultados de la validación interna y externa con esta condición de peso de clase equilibrada se describen en la Tabla complementaria 2.

Las métricas de validación interna se obtuvieron mediante una validación cruzada de 5 veces, utilizando el conjunto de datos de entrenamiento completo. Cada modelo entrenado se ejecutó con las anotaciones originales de las que aprendió; por lo tanto, estos resultados de validación interna indican la "capacidad de aprendizaje" de los conjuntos de datos anotados originales, es decir, qué tan bien se pueden aprender las asociaciones entre las variables de atributos y las anotaciones proporcionadas y, a su vez, con qué facilidad se puede reproducir la toma de decisiones del anotador. La Figura 5a muestra el rendimiento del modelo de RF óptimo para cada uno de los 11 anotadores consultores. Estos modelos fueron optimizados en F1 micro.

Las distribuciones de importancia de las características, que se muestran en la Fig. 4, se obtuvieron utilizando scikit learn feature_importances_property. Esto se calcula como la reducción total normalizada en la impureza del nodo (gini o entropía) aportada por la característica. Para los modelos con buen rendimiento de validación interna (F1 micro > 0,7), las diferentes distribuciones de importancia de las características reflejan los diferentes fundamentos y procesos de toma de decisiones entre los anotadores. Para ciertos anotadores (C4), podemos inferir que la noradrenalina es la característica más importante al decidir anotar una etiqueta de clasificación 'A'. Para algunos (C2), la FiO2 es la más importante a la hora de realizar esta clasificación. Para otros (C10), la justificación está más equilibrada con la noradrenalina y la FiO2.

Una validación externa amplia, que utiliza datos de participantes similares pero de un hospital o país diferente, se considera el estándar de oro para realizar estimaciones fiables del rendimiento y la generalización/transportabilidad del modelo48,49,50,51,52,53,54,55,56. Se investigaron dos conjuntos de datos de UCI externos, a saber:

HiRID (v1.1.1): un conjunto de datos de cuidados críticos de libre acceso que contiene datos no identificados de 33.000 admisiones a la UCI del Hospital Universitario de Berna, Suiza, entre 2008 y 201657,58.

MIMIC-III (v1.4): una base de datos de libre acceso que contiene datos no identificados de 40.000 pacientes de la UCI del Centro Médico Beth Israel Deaconess, Boston, Estados Unidos, entre 2001 y 201258,59.

Ambas bases de datos contienen datos de pacientes de UCI de un hospital y país diferentes, en comparación con los datos de capacitación del QEUH de Glasgow, por lo que satisfacen los criterios para una validación externa amplia. Como los clasificadores extraídos de los conjuntos de datos anotados, producidos por los médicos de QEUH, contienen ciertos descriptores, era vital garantizar que estuvieran presentes en los conjuntos de datos externos. Específicamente, se realizaron las siguientes comprobaciones en los conjuntos de datos HiRID y MIMIC-III:

Los conjuntos de datos contenían los mismos 6 descriptores, y las unidades asociadas con cada una de estas variables eran idénticas o, al menos, conocidas, por lo que se podía aplicar una escala numérica, si fuera necesario.

Se requirió un esfuerzo considerable para encontrar todos los sinónimos utilizados en estos dos conjuntos de datos para los 6 descriptores utilizados en los conjuntos de datos QEUH (anotados). Además, como los valores informados para las dos variables de fármaco utilizadas en QEUH son para administración continua y no para bolos ocasionales, era importante determinar que los modos de administración de fármacos son equivalentes.

Los conjuntos de datos QEUH reportan información cada hora, mientras que el reporte de datos en los conjuntos de datos externos es más frecuente y en intervalos irregulares, por lo que se dedicó un esfuerzo considerable para transformar los conjuntos de datos HiRID y MIMIC-III en conjuntos de datos "por horas", de modo que Estos conjuntos de datos serían compatibles con los clasificadores derivados de los consultores QEUH. Consulte la sección 'Disponibilidad de códigos' para obtener detalles sobre cómo acceder a los pasos completos de preprocesamiento de HiRID.

El acuerdo entre anotadores (IAA), también llamado confiabilidad entre evaluadores, es una medida de hasta qué punto los anotadores asignan la misma categoría a la misma instancia. IAA representa la coherencia de las anotaciones, así como la reproducibilidad de la tarea de etiquetado. Se favorece una alta consistencia ya que esto minimiza los errores debidos a la subjetividad y aumenta la confiabilidad en los datos de entrenamiento.

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d201818550e1597">62.

La κ de Cohen mide la confiabilidad entre dos anotadores, considerando la posibilidad de que el acuerdo ocurra por casualidad. La escala de Cohen se puede resumir como: 0,0–0,20 (Ninguno); 0,21–0,39 (mínimo); 0,40–0,59 (débil); 0,60–0,79 (moderado); 0,80–0,90 (fuerte); > 0,90 (Casi Perfecto)32.

La κ de Fleiss es una extensión de la κ de Cohen que considera la coherencia de los acuerdos de anotadores, a diferencia de los acuerdos absolutos. Evalúa la confiabilidad del acuerdo entre múltiples anotadores. La escala de Fleiss se puede resumir como: < 0 (Pobre); 0,0–0,20 (leve); 0,21–0,40 (regular); 0,41–0,60 (moderado); 0,61–0,80 (sustancial); 0,81–1,0 (casi perfecto)34.

El α63 de Krippendorff considera la coherencia de los acuerdos de anotadores, a diferencia de los acuerdos absolutos. Evalúa la confiabilidad del acuerdo entre múltiples anotadores.

Las revisiones sistemáticas de estudios de validación de modelos han demostrado una falta de estudios de validación externa bien realizados y claramente informados55,56. Una investigación detallada de la compatibilidad entre los conjuntos de datos de capacitación y validación, incluidas las poblaciones de pacientes, es poco común, pero es necesaria para mejorar la confiabilidad de la validación externa.

En este estudio, para evaluar la compatibilidad de la población de pacientes entre los conjuntos de datos de entrenamiento y validación, se investigó la administración de adrenalina/noradrenalina. La adrenalina/noradrenalina se administra a pacientes cuyo sistema cardiovascular es inestable e indica un estado de paciente de alta gravedad. Sólo al 5,9% de los ingresos en UCI MIMIC-III se les administró adrenalina/noradrenalina, en comparación con el 31,5% de los ingresos en UCI HiRID. Esto indica que la gravedad de los pacientes de la UCI en el Hospital Universitario de Berna, Suiza, era mayor que en el Centro Médico Beth Israel Deaconess, EE. UU. Además, al 40% de las instancias de capacitación en UCI del QEUH se les administró Adrenalina/Noradrenalina. Esto indica que la población de pacientes de la UCI dentro de los datos de entrenamiento tiene condiciones de mayor gravedad y, por lo tanto, tiene buena compatibilidad con HiRID, mientras que poca compatibilidad con MIMIC-III. Entonces, decidimos utilizar HiRID como conjunto de datos de validación en este estudio. (Tenga en cuenta que, dado que estamos realizando un estudio para predecir si los pacientes son dados de alta vivos o mueren en la UCI, es importante tener un número significativo de ambos eventos en el conjunto de datos de validación).

Este experimento prueba la capacidad de los clasificadores para clasificar los resultados del alta del paciente (vivo o muerto), bajo el supuesto de que el estado fisiológico/farmacológico del paciente dentro de la última hora antes del alta/muerte es un buen indicador de su estado de alta. El conjunto de datos HiRID "completo" que resultó del preprocesamiento discutido anteriormente tiene 2.022.313 instancias provenientes de 20.073 admisiones únicas a la UCI. Solo fueron elegibles para la selección los puntos temporales que están registrados en el conjunto de datos como correspondientes a dados de alta vivos o muertos dentro de la siguiente hora. Se seleccionaron aleatoriamente 1300 casos de “dado de alta vivo de la UCI” y 1300 de “muerto en la UCI” como conjunto de datos de validación.

Después de discutirlo con los profesionales de la UCI, establecimos que "dado de alta vivo de la UCI" generalmente indica que el paciente es dado de alta de la UCI a una sala hospitalaria que no pertenece a la UCI (en lugar de ser dado de alta del hospital). En la base de datos de HiRID no se proporcionaron datos sobre el lugar del alta o el reingreso a la UCI. En nuestro estudio, la ubicación del alta no afecta nuestro enfoque experimental ni nuestros hallazgos, ya que la cohorte "Da alta viva de la UCI dentro de 1 h" todavía representa a los pacientes más estables (es decir, UCI-PSS = A).

En realidad, los consultores de la UCI consideran la tendencia de los parámetros fisiológicos y farmacológicos del paciente a lo largo del período de tiempo antes de realizar su evaluación. Para capturar más de cerca esta tarea de clasificación de la gravedad de los pacientes de la UCI del mundo real, realizamos un segundo experimento de validación externa con datos de series temporales de HiRID y comparamos el rendimiento de los 11 clasificadores DT (entrenados en los conjuntos de datos anotados QEUH) en conjuntos de datos de validación HiRID estáticos y temporales. . Todos los conjuntos de datos de validación contienen las mismas 6 variables que el conjunto de datos de entrenamiento (adrenalina, noradrenalina, FiO2, SpO2, MAP, frecuencia cardíaca).

Para evaluar el rendimiento de los clasificadores en los conjuntos de datos de validación temporal de HiRID, se utilizó la suma ponderada de las cinco predicciones (por hora) de ICU-PSS por paciente. Las ponderaciones horarias se definieron de la siguiente manera, dando más ponderación a las lecturas más cercanas al alta/muerte: (a) 5 h antes del alta/muerte: 0,1, (b) 4 h antes del alta/muerte: 0,1, (c) 3 h antes alta/muerte 0,2, (d) 2 h antes del alta/muerte: 0,3, (e) 1 h antes del alta/muerte: 0,3. Tenga en cuenta que se investigaron períodos de tiempo superiores a 5 h para su uso en este experimento; sin embargo, estos dieron como resultado conjuntos de datos de validación más pequeños: un período de 5 h proporcionó un equilibrio óptimo entre suficientes puntos de datos de series temporales por paciente y el tamaño del conjunto de datos de validación.

Las etiquetas predichas de AE ​​se trataron como una escala ordinal de 1 a 5, por lo tanto, los valores de la suma ponderada estuvieron todos en el rango de 1 a 5. Los modelos entrenados fueron tratados como si predijeran tres clases: CL1 = A, CL2 = B/C/D y CL3 = E.

En la sección Resultados, se informaron dos métodos para asignar los valores de la suma ponderada (1 a 5) a estas tres clases, con diferentes límites:

'Extremo': CL1 = 1, CL2 = > 1–4, CL3 = > 4.

'Neutral': CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

También investigamos un límite adicional 'Extremo (2)' con el mapeo de suma ponderada que se muestra a continuación. Estos resultados se describen en la figura complementaria 1.

III. 'Extremo (2)': CL1 = ≤ 2, CL2 = > 2-<4, CL3 = ≥ 4.

En un análisis adicional, los modelos DT y LR se entrenaron en las etiquetas previstas realizadas por los 11 clasificadores QEUH DT en el conjunto de datos de validación temporal HiRID, para cada una de las cinco horas antes del alta/muerte (es decir, combinando etiquetas ICU-PSS durante cinco horas consecutivas ). Este es un enfoque simple pero interpretable para imitar el proceso de toma de decisiones de los médicos de la UCI, que consideran patrones de cambio entre los parámetros farmacológicos y fisiológicos del paciente, antes de tomar una decisión de alta. Para este análisis se pueden usar modelos más complejos con núcleos no lineales, como SVM; sin embargo, esto perdería la interpretabilidad de los resultados. Los modelos DT y LR se optimizaron en F1 micro y se evaluaron mediante una validación cruzada de 5 veces, donde la variable dependiente es el estado real del alta (consulte la figura complementaria 2).

Dentro de este segundo experimento de validación externa, además de los modelos de consenso MV y TMV, se construyó un modelo adicional de "Consenso Difuso" (FC). El propósito de este modelo FC de construcción es investigar la combinación de los resultados de los modelos individuales considerando sus resultados como valores de confianza para la tarea de clasificación binaria en el conjunto de datos de validación externa (alta versus muerte). En este método de consenso, todas las predicciones se capturan e interpretan como etiquetas "borrosas", en una escala ordinal de 1 a 5 (es decir, AE), al calcular la predicción general del estado de alta de cada paciente. La Figura 9 ilustra la escala utilizada.

Específicamente, las etiquetas predichas 1 a 5 (es decir, A a E) en una escala ordinal donde los dos extremos representan la tarea de clasificación binaria: 1 = dado de alta con vida de la UCI en la siguiente hora, 5 = muerto en la UCI en la hora siguiente.

Los datos de capacitación de QEUH que respaldan los hallazgos de este estudio pueden estar disponibles previa solicitud al controlador de datos y coautor, Malcolm Sim. Los datos no están disponibles públicamente ya que los datos de atención médica a nivel individual están protegidos por leyes de privacidad. HiRID y MIMIC-III son accesibles públicamente en las siguientes URL:

1. Base de datos MIMIC-III: https://mimic.mit.edu/docs/gettingstarted/.

2. Base de datos HiRID: https://www.physionet.org/content/hirid/1.1.1/.

Para mayor reproducibilidad, todos los códigos de modelo de aprendizaje automático y preprocesamiento de conjuntos de datos para este estudio están disponibles aquí: https://github.com/aneeta-sylo/npjDigitalMedicine. Los conjuntos de datos de validación externa y los modelos de aprendizaje automático se construyeron utilizando Python 3.6.

Bootkrajang, J. & Kabán, A. Clasificación multiclase en presencia de errores de etiquetado. Actas del Simposio europeo de 2011 sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático (ESANN 2011), 345–350 (2011).

Cabitza, F., Ciucci, D. & Rasoini, R. Un gigante con pies de barro: sobre la validez de los datos que alimentan el aprendizaje automático en medicina. Organo. Mundo digital 28, 121-136 (2019).

Artículo de Google Scholar

Mahato, D., Dudhal, D., Revagade, D. Bhargava, Y. Un método para detectar anotaciones inconsistentes en un documento médico utilizando UMLS. Actas del XI Foro para la Evaluación de la Recuperación de Información. 47–51, https://doi.org/10.1145/3368567.3368577 (2019).

García, LPF, De Carvalho, AC & Lorena, AC Efecto del ruido de etiquetas en la complejidad de problemas de clasificación. Neurocomputación 160, 108-119 (2015).

Artículo de Google Scholar

Sleeman, D., Kostadinov, K., Moss, L. y Sim, M. Resolución de diferencias de opinión entre expertos médicos: un estudio de caso con el sistema IS-DELPHI. Proc. 13° Int. Jt. Conf. Biomédica. Ing. Sistema. Tecnología. 5, 66–76 (2020).

Artículo de Google Scholar

Bachmann, LM y cols. Consecuencias de diferentes “estándares de oro” de diagnóstico en la investigación de la precisión de las pruebas: el síndrome del túnel carpiano como ejemplo. J.Clin. Epidemiol. 34, 953–955 (2005).

Google Académico

Sleeman, D. y col. Detectar y resolver inconsistencias entre las diferentes perspectivas de los expertos en el dominio sobre tareas (de clasificación). Artif. Intel. Medicina. 55, 71–86 (2012).

Artículo PubMed Google Scholar

Rogers, S., Sleeman, D. y Kinsella, J. Investigación del desacuerdo entre las calificaciones de los médicos sobre los pacientes en las UCI. IEEE J. Biomed. Informe de salud. 17, 843–852 (2013).

Artículo PubMed Google Scholar

Kahneman, D., Sibony, O., Sunstein, CR Ruido: un defecto en el juicio humano. 124–127 (Londres, William Collins, pág. 124–127, primera edición. 2021).

Frénay, B. & Verleysen, M. Clasificación en presencia de ruido de etiqueta: una encuesta. Traducción IEEE. Red neuronal. Aprender. Sistema. 25, 845–869 (2014).

Artículo PubMed Google Scholar

Zhu, X. & Wu, X. Ruido de clase versus ruido de atributo: un estudio cuantitativo de sus impactos. Artif. Intel. Rev. 22, 177–210 (2004).

Artículo de Google Scholar

Frénay, B., Kabán, A. Una introducción completa al ruido de etiquetas: Actas del Simposio europeo de 2014 sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático (ESANN 2014). Actas del Simposio europeo de 2014 sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático (ESANN 2014) (2014).

Yin, H., Dong, H. El problema del ruido en la clasificación: trabajos pasados, actuales y futuros. 2011 Tercera Conferencia Internacional del IEEE sobre Redes y Software de Comunicaciones (ICCSN), 412–416 (2011).

Indrayan, A., Holt, MP Enciclopedia concisa de bioestadística para profesionales médicos. 44 (Prensa CRC, 2017).

Sun, DQ y col. Mejora de los datos etiquetados por humanos mediante la resolución dinámica automática de conflictos. Actas de la 28.a Conferencia Internacional sobre Lingüística Computacional, 3547–3557, (2020).

Cabitza, F., Rasoini, R. y Gensini, GF Consecuencias no deseadas del aprendizaje automático en medicina. JAMA 318, 517–518 (2017).

Artículo PubMed Google Scholar

Fischhoff, B. Obtención de conocimientos para la representación analítica. Traducción IEEE. Syst., Hombre, Cybern. 19, 448–461 (1989).

Artículo de Google Scholar

Jain, RK y cols. Hiperplasia ductal atípica: variabilidad interobservador e intraobservador. Modificación. Patol. 24, 917–923 (2011).

Artículo PubMed Google Scholar

Regier, DA y cols. Ensayos de campo del DSM-5 en los Estados Unidos y Canadá, Parte II: confiabilidad test-retest de diagnósticos categóricos seleccionados. Soy. J. Psiquiatría 170, 59–70 (2013).

Artículo PubMed Google Scholar

Lieblich, S. y col. La alta heterogeneidad y la baja confiabilidad en el diagnóstico de la depresión mayor perjudicarán el desarrollo de nuevos fármacos. Hno. J. Psiquiatría Abierta 1, e5 – e7 (2015).

Artículo de Google Scholar

Halford, JJ Acuerdo entre evaluadores sobre la identificación de convulsiones electrográficas y descargas periódicas en el registro EEG de la UCI. Clínico. Neurofisiol. 126, 1661-1669 (2015).

Artículo CAS PubMed Google Scholar

Moor, M., Rieck, B., Horn, M., Jutzeler, CR, Borgwardt, K. Predicción temprana de sepsis en la UCI mediante el aprendizaje automático: una revisión sistemática. Segundo. Enfermedades Infecciosas – Vigilancia, Prevención y Tratamiento, Frente. Medicina. https://doi.org/10.3389/fmed.2021.607952 (2021).

Zhang, W., Wong, LY, Liu, J. & Sarkar, S. MONITOREO DE DERECHOS EN EMERGENCIA (MONKEY): una auditoría de los resultados de la disposición en pacientes de emergencia con solicitudes de admisión rechazadas. Emergente de acceso abierto. Medicina. 14, 481–490 (2022).

Artículo PubMed PubMed Central Google Scholar

Xia, F., Yetisgen-Yildiz, M. Anotación del corpus clínico: desafíos y estrategias. Actas del tercer taller sobre creación y evaluación de recursos para la minería de textos biomédicos (BioTxtM'2012) en conjunto con la conferencia internacional sobre evaluación y recursos lingüísticos (LREC) (2012).

Quinlan, JR Inducción de árboles de decisión. Mach. Aprender. 1, 81-106 (1986).

Artículo de Google Scholar

Quinlan, JR Aprendiendo de datos ruidosos. Actas del segundo taller internacional de aprendizaje automático 58–64 (1983).

Nettleton, DF, Orriols-Puig, A. & Fornells, A. Un estudio del efecto de diferentes tipos de ruido sobre la precisión de técnicas de aprendizaje supervisado. Artif. Intel. Rev. 33, 275–306 (2010).

Artículo de Google Scholar

Svensson, CM, Hubler, R., Figge, MT Clasificación automatizada de células tumorales circulantes y el impacto de la variabilidad interobseverante en el entrenamiento y el rendimiento del clasificador. J. Inmunol. Res. https://doi.org/10.1155/2015/573165 (2015).

Johnson, MJ & Khoshgoftaar, MT Una encuesta sobre la clasificación de Big Data con ruido de etiquetas. J. Calidad de la información de los datos. 14, 1–43 (2022).

Karimi, D., Dou, H., Warfield, SK y Gholipour, A. Aprendizaje profundo con etiquetas ruidosas: exploración de técnicas y remedios en el análisis de imágenes médicas. Medicina. Imagen Anal. 65, 101759 (2019).

Artículo de Google Scholar

Cohen, J. Un coeficiente de concordancia para escalas nominales. Educativo. Psicólogo. Medidas. 20, 37–46 (1960).

Artículo de Google Scholar

McHugh, confiabilidad entre evaluadores de ML: la estadística kappa. Bioquímica Med. 22, 276–282 (2012).

Artículo de Google Scholar

Fleiss, JL, Levin, B., Paik, MC Métodos estadísticos para tasas y proporciones. (John Wiley e hijos, Inc., 2003).

Landis, JR y Koch, GG La medición del acuerdo del observador para datos categóricos. Biometría 33, 159-174 (1977).

Artículo CAS PubMed Google Scholar

Breiman, L. Bosques aleatorios. Mach. Aprender. 45, 5–32 (2001).

Artículo de Google Scholar

Sylolypavan, A. El impacto de las anotaciones inconsistentes en la toma de decisiones clínicas impulsadas por el aprendizaje automático (University College London, 2021).

Raschka, S., Mirjalili, V. Aprendizaje automático de Python. (Packt Publishing Ltd, tercera edición. 2019).

Sheng, VS, Provost, F., Ipeirotis, PG ¿Tienes otra etiqueta? mejorar la calidad de los datos y la extracción de datos mediante el uso de múltiples etiquetadores ruidosos. Actas de la Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos, 614–622, (2008).

Snow, R., O'Connor, B., Jurafsky, D. & Yg, AY Barato y rápido, pero ¿es bueno? evaluar anotaciones no expertas para tareas de lenguaje natural. Actas de la conferencia de 2008 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP 2008). 254–263 (2008).

Yang, H., Mityagin, A., Svore, KM y Markov, S. Recopilación de etiquetas superpuestas de alta calidad a bajo costo. Actas de la 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en recuperación de información (SIGIR 2010). 459–466 (2010).

Nettleton, DF & Muñiz, J. Procesamiento y representación de metadatos para el diagnóstico de apnea del sueño con un enfoque de inteligencia artificial. En t. J. Med. Informar. 63, 77–89 (2001).

Artículo CAS PubMed Google Scholar

Welinder, P., Branson, S., Perona, P. y Belongie, S. La sabiduría multidimensional de las multitudes. Proc. 23 Int. Conf. Inf. neuronal. Proceso. Sistema. 2, 2424–2432 (2010).

Google Académico

Nettleton, DF & Hernández, L. En Proc. Taller: Análisis Inteligente de Datos en Medicina y Farmacología, IDAMAP. 91–102.

Ferruci, D. y col. Construyendo Watson: una descripción general del proyecto DeepQA. Revista AI. 31, 59–79 (2010).

Craw, S., Sleeman, D. Automatización del refinamiento de sistemas basados ​​en el conocimiento. Actas de ECCAI-90, 167–172 (1990).

Sim, M. El desarrollo y aplicación de nuevos sistemas de puntuación inteligentes en enfermedades críticas (Universidad de Glasgow, 2015).

Vincent, JL La puntuación SOFA (Evaluación de insuficiencia orgánica relacionada con la sepsis) para describir la disfunción/falla de órganos. En nombre del Grupo de Trabajo sobre Problemas Relacionados con la Sepsis de la Sociedad Europea de Medicina de Cuidados Intensivos. Medicina de Cuidados Intensivos. 22, 707–710 (1996).

Artículo CAS PubMed Google Scholar

Collins, GS, Reitsma, JB, Altman, DG & Moons, KGM Informe transparente de un modelo de predicción multivariable para pronóstico o diagnóstico individual (TRIPOD): la declaración TRIPOD. Hno. J. Cirugía. 102, 148-158 (2015).

Artículo CAS PubMed Google Scholar

Steyerberg, EW & Vergouwe, Y. Hacia mejores modelos de predicción clínica: siete pasos para el desarrollo y un ABCD para la validación. EUR. Corazón J. 35, 1925-1931 (2014).

Artículo PubMed PubMed Central Google Scholar

Rivera, SC, Liu, X., Chan, A., Denniston, AK y Calvert, MJ Directrices para protocolos de ensayos clínicos para intervenciones que involucran inteligencia artificial: la extensión SPIRIT-AI. Nat. Medicina. 26, 1351-1363 (2020).

Artículo de Google Scholar

Luo, W. y col. Directrices para el desarrollo y la presentación de informes de modelos predictivos de aprendizaje automático en la investigación biomédica: una visión multidisciplinaria. J. Med. Resolución de Internet. 18, 323 (2016).

Artículo de Google Scholar

Steyerberg, EW & Harrell, FE Jr Los modelos de predicción necesitan una validación interna, interna-externa y externa adecuada. J.Clin. Epidemiol. 69, 245–247 (2016).

Artículo PubMed Google Scholar

Altman, DG y Royston, P. ¿Qué queremos decir con validar un modelo de pronóstico? Estadística. Medicina. 19, 453–473 (2000).

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5">Artículo CAS PubMed Google Scholar

Bleeker, SE y cols. La validación externa es necesaria en la investigación de predicción: un ejemplo clínico. J.Clin. Epidemiol. 56, 826–832 (2003).

Artículo CAS PubMed Google Scholar

Collins, GS y cols. Validación externa de modelos de predicción multivariable: una revisión sistemática de la conducta y la presentación de informes metodológicos. BMC Med. Res. Método. 14 https://doi.org/10.1186/1471-2288-14-40. (2014).

Siontis, GC y cols. La validación externa de nuevos modelos de predicción de riesgos es poco frecuente y revela una peor discriminación pronóstica. J.Clin. Epidemiol. 68, 25-34 (2015).

Artículo PubMed Google Scholar

Faltys, M. y col. HiRID, un conjunto de datos de UCI de alta resolución temporal (versión 1.1.1). Fisioterapeuta. Neto. https://doi.org/10.13026/nkwc-js72 (2021).

Goldberger, A. et al. PhysioBank, PhysioToolkit y PhysioNet: componentes de un nuevo recurso de investigación para señales fisiológicas complejas. Circulación 101, 215–220 (2000).

Artículo de Google Scholar

Johnson, AEW y cols. MIMIC-III (v.1.4), una base de datos de cuidados críticos de libre acceso. Datos científicos. https://doi.org/10.1038/sdata.2016.35. (2016).

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

Google Académico

Seabold, S., Perktold, J. Statsmodels: modelado econométrico y estadístico con Python. Novena Conferencia Python en la Ciencia (2010).

Perry, T. SimpleDorff: Calcule el alfa de Krippendorff en un marco de datos, (2020).

Zapf, A., Castell, S., Morawietz, L., Karch, A. Medición de la confiabilidad entre evaluadores para datos nominales: ¿qué coeficientes e intervalos de confianza son apropiados? BMC Med. Res. Método. 16 https://doi.org/10.1186/s12874-016-0200-9 (2016).

Descargar referencias

Agradecemos a todos los consultores del QEUH que anotaron el conjunto de instancias que formaron parte importante del análisis descrito en este artículo. También agradecemos las útiles discusiones con el profesor Hugh Montgomery (Facultad de Ciencias Médicas, UCL). HW cuenta con el apoyo del Consejo de Investigación Médica (MR/S004149/1, MR/S004149/2); Instituto Nacional de Investigación en Salud (NIHR202639); British Council (Colaboración internacional UCL-NMU-SEU sobre inteligencia artificial en medicina: abordar los desafíos de la baja generalización y la desigualdad en salud); Bienvenido Confianza ITPA (PIII0054/005); Instituto Alan Turing, Londres, Reino Unido. HW es el autor correspondiente de este artículo, con sede en UCL, Gower St, Londres, WC1E 6BT y contactable por correo electrónico: [email protected].

Instituto de Informática en Salud, University College London, Londres, Reino Unido

Sylolypavan y Honghan Wu

Facultad de Ciencias Naturales y de Computación, Universidad de Aberdeen, Aberdeen, Escocia, Reino Unido

Derek Sleeman

Instituto Alan Turing, Londres, Reino Unido

Hong Han Wu

Facultad de Medicina, Enfermería y Odontología, Universidad de Glasgow, Aberdeen, Escocia, Reino Unido

Malcolm Sim

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

AS revisó la literatura, realizó el preprocesamiento de datos, los análisis y redactó el manuscrito. DS y HW concibieron y diseñaron el proyecto, lo supervisaron y contribuyeron a la redacción del manuscrito. MS contribuyó al diseño del estudio desde una perspectiva clínica.

Correspondencia a Honghan Wu.

Los autores declaran no tener conflictos de intereses.

Los métodos se realizaron de acuerdo con las directrices y regulaciones pertinentes y fueron aprobados por el Comité de Ética en Investigación del University College London. Los controladores de datos otorgaron permiso para utilizar los conjuntos de datos (completamente anónimos) QEUH ICU, MIMIC-III y HiRID. En este estudio no se procesaron datos personales. Los consultores que anotaron los conjuntos de datos QEUH fueron identificados mediante nombres en clave anónimos.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Sylolypavan, A., Sleeman, D., Wu, H. et al. El impacto de las anotaciones humanas inconsistentes en la toma de decisiones clínicas impulsadas por la IA. npj Dígito. Medicina. 6, 26 (2023). https://doi.org/10.1038/s41746-023-00773-3

Descargar cita

Recibido: 07 de agosto de 2022

Aceptado: 07 de febrero de 2023

Publicado: 21 de febrero de 2023

DOI: https://doi.org/10.1038/s41746-023-00773-3

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt