banner

Noticias

Sep 29, 2023

Mejora de la calidad de la inteligencia artificial clínica: hacia la monitorización y actualización continuas de los algoritmos de IA en la atención sanitaria

npj Digital Medicine volumen 5, Número de artículo: 66 (2022) Citar este artículo

13k Accesos

19 citas

49 Altmetric

Detalles de métricas

Los algoritmos de aprendizaje automático (ML) e inteligencia artificial (IA) tienen el potencial de obtener información de los datos clínicos y mejorar los resultados de los pacientes. Sin embargo, estos sistemas altamente complejos son sensibles a los cambios en el entorno y están sujetos a una disminución del rendimiento. Incluso después de su integración exitosa en la práctica clínica, los algoritmos ML/AI deben monitorearse y actualizarse continuamente para garantizar su seguridad y efectividad a largo plazo. Para llevar la IA a la madurez en la atención clínica, abogamos por la creación de unidades hospitalarias responsables del aseguramiento de la calidad y la mejora de estos algoritmos, a las que nos referimos como unidades "AI-QI". Discutimos cómo las herramientas que se han utilizado durante mucho tiempo en el aseguramiento de la calidad hospitalaria y la mejora de la calidad se pueden adaptar para monitorear algoritmos estáticos de ML. Por otro lado, los procedimientos para la actualización continua del modelo aún son incipientes. Destacamos las consideraciones clave al elegir entre métodos existentes y oportunidades para la innovación metodológica.

El uso de la inteligencia artificial (IA) y el aprendizaje automático (ML) en el ámbito clínico se ha desarrollado enormemente en las últimas décadas, con numerosos ejemplos en imágenes médicas, cardiología y cuidados intensivos1,2,3,4,5,6. De hecho, la lista de algoritmos basados ​​en IA/ML aprobados para uso clínico por la Administración de Drogas y Alimentos de los Estados Unidos (FDA) continúa creciendo a un ritmo acelerado7. A pesar del desarrollo acelerado de estos algoritmos médicos, la adopción en la clínica ha sido limitada. Los desafíos encontrados en el camino hacia una integración exitosa van mucho más allá de la fase inicial de desarrollo y evaluación. Debido a que los algoritmos de ML dependen en gran medida de los datos, una preocupación importante es que su rendimiento depende en gran medida de cómo se generan los datos en contextos específicos, en momentos específicos. Puede ser difícil anticipar cómo se comportarán estos modelos en entornos del mundo real a lo largo del tiempo, ya que su complejidad puede ocultar posibles modos de falla8. Actualmente, la FDA requiere que los algoritmos no se modifiquen después de la aprobación, lo que describimos como "bloqueado". Si bien esta política evita la introducción de actualizaciones de modelos perjudiciales, es probable que el rendimiento de los modelos bloqueados disminuya con el tiempo en entornos altamente dinámicos como el de la atención médica. De hecho, muchos han documentado la disminución del rendimiento de ML debido a la combinación de casos de pacientes, patrones de práctica clínica, opciones de tratamiento y más9,10,11.

Para garantizar la confiabilidad y efectividad a largo plazo de los algoritmos clínicos basados ​​en IA/ML, es crucial que establezcamos sistemas para el monitoreo y mantenimiento regulares12,13,14. Aunque la importancia del monitoreo y la actualización continuos ha sido reconocida en varios documentos recientes15,16,17, la mayoría de los artículos brindan detalles limitados sobre cómo implementar tales sistemas. De hecho, el trabajo más similar puede ser documentos recientes que documentan la creación de sistemas ML listos para la producción en empresas de Internet18,19. Sin embargo, el ámbito sanitario se diferencia en que los errores tienen una repercusión más grave, el número de muestras es menor y los datos tienden a ser más ruidosos.

En este trabajo, observamos los esfuerzos de garantía de calidad (QA) y mejora de la calidad (QI) hospitalarios existentes20,21,22 como una plantilla para diseñar iniciativas similares para algoritmos clínicos de IA, a los que nos referimos como AI-QI. Al trazar paralelismos con las prácticas clínicas estándar de QI, mostramos cómo se pueden aplicar herramientas bien establecidas de control de procesos estadísticos (SPC) para monitorear algoritmos clínicos basados ​​​​en IA. Además, describimos una serie de desafíos únicos al monitorear los algoritmos de IA, incluida la falta de datos reales, la censura relacionada con el tratamiento inducida por IA y la alta dimensionalidad de los datos. La actualización del modelo es una tarea completamente nueva, con muchas oportunidades para las innovaciones técnicas. Describimos las consideraciones clave y las compensaciones al seleccionar entre los procedimientos de actualización del modelo. La implementación efectiva de AI-QI requerirá una estrecha colaboración entre médicos, administradores de hospitales, profesionales de tecnología de la información (TI), bioestadísticos, desarrolladores de modelos y agencias reguladoras (Fig. 1). Finalmente, para fundamentar nuestra discusión, utilizaremos el ejemplo de un hipotético sistema de alerta temprana basado en IA para episodios hipotensivos agudos (AHE), inspirado en el Índice de Predicción de Hipotensión Acumen de Edwards aprobado por la FDA23.

Para garantizar la seguridad y eficacia continuas de los algoritmos basados ​​en IA implementados en el hospital, las instituciones necesitarán procesos optimizados para monitorear el desempeño del modelo continuamente, comunicar las métricas de desempeño más recientes a los usuarios finales y revisar el modelo o incluso suspender su uso cuando se produzca un deterioro sustancial. en el rendimiento se observa. Dada su naturaleza transversal, AI-QI requiere una estrecha colaboración entre médicos, administradores de hospitales, profesionales de tecnología de la información (TI), desarrolladores de modelos, bioestadísticos y agencias reguladoras.

Tal como lo define el Centro de Servicios de Medicare y Medicaid, la mejora de la calidad (QI) es el marco utilizado para mejorar sistemáticamente la atención mediante el uso de procesos y estructuras estandarizados para reducir la variación, lograr resultados predecibles y mejorar los resultados para los pacientes, los sistemas de atención médica y organizaciones En esta sección, describimos por qué los algoritmos clínicos de IA pueden fallar y por qué es necesario un proceso AI-QI estructurado e integrado.

En pocas palabras, los algoritmos basados ​​en IA logran una alta precisión predictiva al detectar correlaciones entre las variables del paciente y los resultados. Por ejemplo, un modelo que pronostica AHE inminente puede basarse en patrones de señales fisiológicas que comúnmente ocurren antes de tal evento, como una tendencia general a la baja en la presión arterial y un aumento en la frecuencia cardíaca. Los modelos basados ​​en correlación tienden a tener una buena validez interna: funcionan bien cuando la población objetivo es similar a los datos de entrenamiento. Sin embargo, cuando el entorno clínico es muy dinámico y las poblaciones de pacientes son heterogéneas, un modelo que funciona bien en un período determinado o en un hospital puede fallar en otro. Un ejemplo reciente es la aparición de COVID-1924 que documentó una caída del rendimiento en un algoritmo ML para determinar qué pacientes tenían un alto riesgo de ingreso hospitalario en función de su presentación en el departamento de emergencias (ED) que dependía de variables de entrada como la frecuencia respiratoria y el modo de llegada, que se vieron significativamente afectados por la propagación del COVID-19.

Según la literatura de QI, la variabilidad en el desempeño a nivel del sistema se debe a una variación de "causa común" o "causa especial". La variación de causa común se refiere a la variabilidad predecible e inevitable en el sistema. Continuando con nuestro ejemplo de AHE, un algoritmo que predice los niveles futuros de presión arterial media (PAM) está destinado a cometer errores debido a la variabilidad inherente en el parámetro fisiológico; este error es aceptable siempre que coincida con las especificaciones del fabricante, por ejemplo, se espera que el PAM observado y previsto esté dentro de los 5 mmHg el 95 % del tiempo. Antes de la implementación del modelo, los desarrolladores pueden calibrar el modelo y caracterizar la variación de causa común utilizando datos independientes25,26,27. Los desarrolladores de modelos también pueden incorporar fuentes conocidas de variación de causa común en el modelo para mejorar su capacidad de generalización28,29.

Por otro lado, la variación por causas especiales representa un cambio inesperado en el sistema. En nuestro ejemplo de AHE, esto puede ocurrir si el hospital sigue nuevas pautas para controlar la hipotensión, lo que lleva a un cambio en la asociación entre los niveles futuros de MAP y el historial de medicamentos. Usando la terminología estadística, las variaciones por causas especiales son caídas inesperadas en el rendimiento debido a cambios en la distribución conjunta de las entradas del modelo X y la(s) variable(s) objetivo Y, que se denominan más sucintamente como cambios de distribución o conjunto de datos30. En general, los cambios de distribución se pueden categorizar en función de qué relaciones han cambiado en los datos, como cambios únicamente en la distribución de las variables de entrada X versus cambios en la distribución condicional de Y dada X.

Los diferentes tipos de turnos de distribución deben manejarse de manera diferente. A veces, se pueden anticipar cambios de distribución inminentes, como cambios de política en todo el hospital bien comunicados. Para mantenerse informado de este tipo de cambios, los esfuerzos de AI-QI pueden adoptar un enfoque proactivo manteniéndose al tanto de los eventos actuales del hospital y suscribiéndose a las listas de correo. Los administradores de hospitales y los médicos pueden ayudar a interpretar el impacto que tendrán estos cambios en el rendimiento del algoritmo ML. Otros cambios de distribución no se anuncian y pueden ser más sutiles. Para detectar estos cambios lo más rápido posible, se necesitarán procedimientos para monitorear el rendimiento del algoritmo ML.

La variación por causas especiales también se puede caracterizar como sostenida o aislada (es decir, aquellas que afectan una sola observación). El enfoque en este manuscrito está en el primero, que puede degradar el rendimiento durante períodos de tiempo significativos. La detección de tales cambios a nivel del sistema generalmente no se puede lograr analizando cada observación individualmente y, en cambio, requiere analizar un flujo de observaciones. Por el contrario, los errores aislados se pueden ver como valores atípicos y se pueden detectar utilizando gráficos de control de Shewhart31, una técnica popular en SPC, así como métodos generales de detección de valores atípicos32.

Cuando las razones de una caída en el rendimiento del sistema no están claras, el diagrama de causa y efecto, también conocido como diagrama de espina de pescado o diagrama de Ishikawa, es una herramienta formal en QI que puede ayudar a descubrir las posibles causas31. La "cabeza" del diagrama es el efecto, que es una caída en el rendimiento del modelo. Las posibles causas se enumeran en las ramas, agrupadas por categorías principales. Mostramos un diagrama de causa y efecto de ejemplo para un sistema de alerta temprana AHE en la figura 2. Los diagramas de causa y efecto en QI comparten muchas similitudes con los gráficos acíclicos dirigidos causales de la literatura de inferencia causal33. De hecho, una idea reciente desarrollada de forma independiente por la comunidad de ML es usar diagramas causales para comprender cómo los diferentes tipos de cambios de conjuntos de datos pueden afectar el rendimiento del modelo29,34.

Cada rama representa una categoría de causas potenciales. El efecto se define como el rendimiento del modelo, que se mide por el área bajo la curva característica operativa (AUC) del receptor.

En términos generales, podemos clasificar las posibles causas de una caída del rendimiento en (i) cambios en la distribución de la variable objetivo Y, (ii) cambios en la distribución de las entradas del modelo X y (iii) cambios en la relación entre X e Y Usando terminología estadística, (i) y (ii) se refieren a cambios en la distribución marginal de Y y X, respectivamente, y (iii) se refieren a cambios en la distribución condicional de Y∣X o X∣Y. Estas posibles causas se pueden dividir aún más en función de subgrupos semánticamente significativos de las entradas del modelo, como las señales fisiológicas medidas con el mismo dispositivo. Si bien se deben describir los cambios correspondientes a cada variable de entrada, se debe prestar especial atención a aquellas características a las que se les asigna una gran importancia, ya que es más probable que los cambios en dichas características induzcan cambios más grandes en el rendimiento.

El objetivo en el monitoreo de IA es dar la alarma cuando se presenta una variación por causa especial y ayudar a los equipos a identificar las correcciones necesarias para el modelo o el proceso de generación/recopilación de datos. Tanto la variación por causa común como por causa especial pueden causar caídas en el rendimiento, por lo que se necesitan procedimientos estadísticos para distinguir entre los dos. Aquí presentamos gráficos de control estadístico, una herramienta estándar en SPC para ayudar a visualizar y detectar diferentes tipos de turnos. Esta sección se centra en los modelos bloqueados; discutiremos la evolución de los algoritmos más adelante.

Dada una secuencia de observaciones, un gráfico de control típico traza una estadística de resumen a lo largo del tiempo y muestra los límites de control para indicar el rango normal de valores para esta estadística. Cuando la estadística del gráfico supera los límites de control, se activa una alarma para indicar la existencia probable de una variación por causas especiales. Después de que se dispare una alarma, el hospital debe investigar la causa raíz y determinar si es necesario tomar medidas correctivas y, de ser así, cuáles. Esto requiere una estrecha colaboración de muchas entidades, incluido el desarrollador del modelo original, proveedores de atención médica, profesionales de TI y estadísticos.

Los gráficos de control cuidadosamente diseñados aseguran que la tasa de falsas alarmas esté por debajo de un umbral preespecificado al tiempo que minimizan la demora en la detección de cambios importantes. Se necesita apoyo estadístico para ayudar a tomar decisiones sobre qué procedimientos son los más apropiados y cómo implementarlos.

A continuación, describimos métodos para detectar cambios en la distribución marginal de Y; este es el más simple matemáticamente hablando, porque Y es típicamente de baja dimensión. Sobre esta base, describimos métodos para detectar cambios en la distribución marginal de X, seguidos de aquellos para distribuciones condicionales. La Tabla 1 presenta un resumen de los métodos descritos en esta sección.

Cuando los datos etiquetados están disponibles, se pueden usar gráficos de control para monitorear los cambios en la distribución de Y. Para un resultado unidimensional Y, podemos usar gráficos de control univariados para monitorear los cambios en las estadísticas de resumen, como la media, la varianza y la tasa de falta En el contexto de nuestro ejemplo de AHE, podemos usar esto para monitorear los cambios en la prevalencia de AHE o el valor promedio de MAP. Si Y es un vector de múltiples resultados, una solución simple es construir gráficas de control separadas para cada uno. Los gráficos de control de uso común que caen en esta categoría incluyen los gráficos de control de Shewhart, los gráficos de control de suma acumulada (CUSUM)35 y los gráficos de control de promedio móvil ponderado exponencialmente (EWMA)31. En la práctica, la distribución de Y puede estar sujeta a muchas fuentes de variación, como la estacionalidad. Una solución es modelar el valor esperado de cada observación dadas las fuentes conocidas de variabilidad y aplicar métodos SPC para monitorear los residuos.

Los gráficos de control estadístico también se pueden usar para monitorear cambios en la distribución marginal de las variables de entrada. Una gran ventaja de estos gráficos es que se pueden implementar fácilmente incluso cuando el resultado es difícil de medir o solo se puede observar después de un largo retraso.

Ya hemos descrito gráficos de control univariados en la sección anterior; estos también se pueden usar para monitorear las variables de entrada individualmente. Cuando es importante monitorear la relación entre las variables de entrada, se deben usar gráficos de control multivariados como el CUSUM multivariado y EWMA (MCUSUM y MEWMA, respectivamente) y el T2 36 de Hotelling. Si X es de alta dimensión, los métodos SPC tradicionales pueden tener Tasas infladas de falsas alarmas o baja potencia para detectar cambios. Esto se puede solucionar mediante la selección de variables37, las técnicas de reducción de dimensiones38 o la agrupación de histogramas39. Para tipos de datos complejos como formas de onda fisiológicas, imágenes médicas y notas clínicas, los métodos de aprendizaje de representación pueden transformar los datos en un vector de menor dimensión que es adecuado para ingresar en los gráficos de control tradicionales40,41. Fundamental para detectar cambios de distribución es la cuantificación de la distancia entre dos distribuciones. Trabajos recientes han propuesto nuevas medidas de distancia entre distribuciones de probabilidad multivariadas de alta dimensión, como la distancia de Wasserstein, las divergencias f42 y las medidas basadas en kernel43,44.

Dada la complejidad de los algoritmos de ML, varios artículos han sugerido monitorear las métricas de explicabilidad de ML, como la importancia variable (VI)18,24. La idea es que estas métricas proporcionen una representación más interpretable de los datos. Sin embargo, es importante no sobreinterpretar estos gráficos. Debido a que la mayoría de las métricas de VI definidas en la literatura de ML cuantifican la importancia de cada característica atribuida por el modelo existente, los cambios en estas métricas simplemente indican un cambio en la distribución de las variables de entrada; no necesariamente indican si la relación entre las variables de entrada y objetivo ha cambiado y cómo ha cambiado. Por ejemplo, un aumento en el VI promedio de una variable determinada indica que su distribución se ha desplazado hacia valores a los que se les asigna una mayor importancia, pero esa variable en realidad puede haberse vuelto menos predictiva de Y. En su lugar, para monitorear la importancia de la variable a nivel de población45, sugerimos monitorear la relación entre X e Y usando técnicas descritas en la siguiente sección.

Finalmente, los gráficos de control estadístico se pueden usar para monitorear los cambios en la relación entre X e Y. El enfoque más intuitivo, quizás, es monitorear las métricas de desempeño que se usaron para entrenar o probar el modelo original46. En el ejemplo de AHE, se puede elegir monitorear el error cuadrático medio (MSE) entre los valores de MAP pronosticados y observados o el área bajo la curva característica operativa (AUC) del receptor dados los riesgos de AHE pronosticados y los eventos de AHE observados. Mediante el seguimiento de una variedad de tales métricas, se pueden medir diferentes aspectos del rendimiento de la predicción, como la discriminación del modelo, la calibración y la equidad. Las métricas de rendimiento que se definen como la pérdida promedio sobre las observaciones individuales (por ejemplo, MSE) se pueden monitorear utilizando gráficos de control univariados como se describe en la sección anterior. Las métricas de rendimiento que solo se pueden estimar utilizando un lote de observaciones (por ejemplo, AUC) requieren agrupar las observaciones y monitorear los resúmenes por lotes en su lugar.

Si bien los procedimientos para monitorear las métricas de desempeño son simples e intuitivos, su mayor inconveniente es que el desempeño puede disminuir debido a cambios en las distribuciones marginales o condicionales. Por ejemplo, una caída en la precisión de la predicción de nuestro sistema de alerta temprana AHE puede deberse a un cambio en la población de pacientes (un cambio en X) o un cambio en la epidemiología (un cambio en Y∣X). Para guiar el análisis de la causa raíz, es importante distinguir entre los dos. A continuación, describimos los procedimientos para detectar si se ha producido un cambio únicamente en las distribuciones condicionales.

Para monitorear cambios en la distribución condicional Y∣X, se pueden aplicar generalizaciones del procedimiento CUSUM como el procedimiento de Shiryaev-Roberts47,48 y la prueba de razón de verosimilitud generalizada (GLRT)49,50. Brevemente, estos métodos monitorean las diferencias entre el modelo original y el modelo reacondicionado para un punto de cambio candidato. Al monitorear la diferencia entre estos dos modelos, estos métodos solo son sensibles a los cambios en la distribución condicional. Además, se puede considerar una clase más amplia de las denominadas pruebas generalizadas de fluctuación M que brindan al usuario más flexibilidad para decidir qué métricas rastrear51. Al decidir entre los procedimientos de monitoreo, es importante comprender los supuestos subyacentes. Por ejemplo, los procedimientos para monitorear modelos paramétricos no pueden usarse para monitorear directamente algoritmos de IA complejos como redes neuronales, pero pueden usarse para monitorear modelos de recalibración paramétrica (por ejemplo, recalibración logística52). Trabajos recientes han buscado relajar supuestos comunes, incluidas extensiones no paramétricas53,54 y métodos para manejar X55,56,57 de alta dimensión.

En ciertos casos, uno puede estar interesado en monitorear X∣Y. Esto es relevante, por ejemplo, cuando el algoritmo ML predice el diagnóstico de una enfermedad Y dada una imagen radiográfica X, porque la enfermedad puede manifestarse de manera diferente con el tiempo y las imágenes resultantes pueden cambiar. Si Y toma solo unos pocos valores, uno puede monitorear individualmente la distribución de X dentro de cada estrato utilizando los métodos descritos en la sección anterior. Si Y toma muchos valores o es continuo, se pueden usar los procedimientos antes mencionados para monitorear cambios en Y∣X, donde cambiamos el orden de X e Y. Para X de alta dimensión, se debe aplicar la reducción de dimensión antes de la aplicación de estos métodos y monitorear la relación condicional entre las características reducidas e Y en su lugar.

A pesar de la creciente utilización de gráficos de control en el cuidado de la salud, es importante reconocer que muchos de estos métodos se desarrollaron originalmente para la fabricación industrial, donde los datos son mucho más uniformes y se tiene un control mucho más preciso sobre el proceso de recopilación de datos. El trabajo anterior ha descrito cómo abordar las diferencias entre las aplicaciones de gráficos de control relacionadas con la salud y las aplicaciones industriales58. Surgen nuevos desafíos y oportunidades cuando estos métodos se utilizan para monitorear algoritmos clínicos de IA. Aquí presentamos dos de esos desafíos, pero hay muchos más que no podremos abordar en este manuscrito.

Un desafío importante que se enfrenta en muchos entornos es la latencia entre las predicciones generadas por el algoritmo y la variable de destino. Por ejemplo, los resultados como la mortalidad o el desarrollo de una neoplasia maligna secundaria suelen requerir un período de seguimiento significativo. En tales casos, se vuelve difícil responder a los cambios en el rendimiento del algoritmo de manera oportuna. Una solución potencial es monitorear qué tan bien un algoritmo de IA predice resultados sustitutos. Los cambios en esta medida indirecta servirían como un "canario" de que algo salió mal. Como ejemplo, considere un algoritmo diseñado para predecir la supervivencia del paciente a 30 días. Podemos monitorear el AUC del algoritmo para predecir un criterio de valoración más cercano, como la supervivencia del paciente a los 5 días, para acortar el retraso en la detección. Los desarrolladores de modelos también pueden facilitar AI-QI al proporcionar algoritmos que generan predicciones tanto para el resultado de interés como para estos resultados sustitutos. Observamos que los resultados sustitutos en el contexto de AI-QI no necesariamente deben satisfacer las mismas propiedades formales utilizadas para medir la eficacia del tratamiento59,60, porque el costo de una falsa alarma es mucho menor en nuestro entorno.

Otro desafío es la confusión inducida por la IA. Es decir, cuando los algoritmos basados ​​en IA brindan predicciones procesables clínicamente, los médicos pueden optar por ajustar su plan de tratamiento en función de las predicciones del algoritmo. Volviendo a nuestro ejemplo de un sistema de alerta temprana de AHE, si el algoritmo ML genera una alerta de que es probable que se produzca un AHE en los próximos 30 minutos, el personal del hospital puede decidir administrar el tratamiento a través de líquidos y/o vasopresores en respuesta. Si el paciente no experimenta un episodio de hipotensión 30 minutos después, surge una pregunta: ¿el algoritmo fue incorrecto o la intervención prescrita cambió las circunstancias? En tales situaciones, debemos tener en cuenta el papel de los factores humanos61 y las intervenciones médicas de confusión (CMI), porque no podemos observar el resultado contrafactual que habría ocurrido si la predicción no estuviera disponible. Aunque se produce confusión en ausencia de predicciones basadas en IA62,63, las CMI se vuelven mucho más graves cuando los médicos utilizan algoritmos de IA en su proceso de toma de decisiones64,65,66. De hecho, cuanto más efectiva sea la IA, más rápido parecerá degradarse el rendimiento del algoritmo de IA.

Desde la perspectiva estadística, el mejor enfoque para obtener una estimación imparcial del rendimiento del modelo es seleccionar al azar un subconjunto de pacientes para los que los proveedores no reciben predicciones basadas en IA. Sin embargo, es necesario examinar la ética de tal enfoque y, por lo general, solo se consideran variaciones menores en el estándar de atención en la IC del hospital. Otra opción es confiar en los datos faltantes y las técnicas de inferencia causal para ajustar la confusión66,67. Si bien esto elude el problema de la ética médica, los métodos de inferencia causal dependen de suposiciones sólidas para llegar a conclusiones válidas. Esto puede ser tenue cuando se analizan flujos de datos, ya que dichos métodos requieren que las suposiciones se mantengan en todos los puntos de tiempo. Actualmente no hay soluciones definitivas y se justifica más investigación.

Aquí presentamos una simulación para ilustrar cómo se puede usar SPC para monitorear el desempeño de un sistema de alerta temprana AHE (Fig. 3). Supongamos que el algoritmo pronostica futuros niveles de MAP y se basa en la MAP de referencia y la frecuencia cardíaca (FC) como variables de entrada. Se notifica al médico cuando se predice que la PAM caerá por debajo de 65 mmHg en los próximos 15 minutos.

Considere un algoritmo hipotético de predicción de MAP que predice el riesgo de un paciente de desarrollar un episodio de hipotensión aguda en función de dos variables de entrada: MAP inicial y frecuencia cardíaca (HR). Las dos filas superiores monitorean los cambios en las dos variables de entrada utilizando el procedimiento CUSUM, donde la línea oscura es la estadística del gráfico y las líneas claras son los límites de control. La tercera fila tiene como objetivo detectar cambios en la relación condicional entre el resultado y las variables de entrada al monitorear los residuos usando el procedimiento CUSUM. Se dispara una alarma cuando una estadística del gráfico excede sus límites de control.

En la simulación, observamos un nuevo paciente en cada momento. Se producen dos cambios en el punto de tiempo 30: introducimos un pequeño cambio en el MAP de referencia promedio y un cambio mayor en la relación condicional entre el resultado y las dos variables de entrada. Construimos gráficos de control para detectar cambios en la línea base media de MAP y HR y la relación condicional Y∣X. Usando el software de monitoreo provisto por el paquete strucchange R68, construimos límites de control tales que la tasa de falsas alarmas sea 0.05 en cada uno de los gráficos de control. La estadística del gráfico cruza los límites de control en el tiempo 35, lo que corresponde a un retraso de cinco puntos de tiempo. Después de que se dispara una alarma, el hospital debe iniciar un análisis de causa raíz. Con referencia al diagrama de causa y efecto en la Fig. 2, se puede concluir que la relación condicional ha cambiado debido a un cambio en la epidemiología, como la aparición de COVID-19 en la población de pacientes. Si se espera que este cambio en la relación condicional sea persistente, es probable que el equipo de AI-QI necesite actualizar el modelo.

El objetivo de la actualización del modelo es corregir las caídas observadas en el rendimiento del modelo, evitar que ocurran tales caídas e incluso mejorar el rendimiento del modelo con el tiempo. Al analizar un flujo de datos y resultados de pacientes, estos procedimientos tienen el potencial de adaptarse continuamente a los turnos de distribución. Observamos que, en contraste con el monitoreo de IA, los procedimientos de actualización del modelo no necesariamente tienen que discriminar entre la variación por causas comunes y las especiales. Sin embargo, a menudo es útil comprender a qué tipo de variación se dirige cada modificación, ya que esto puede aclarar si es necesario tomar más medidas correctivas (por ejemplo, actualizar el preprocesamiento de datos en lugar del modelo).

Los procedimientos de actualización del modelo no pueden tomarse a la ligera, ya que siempre existe el riesgo de que las modificaciones propuestas degraden el rendimiento. Dadas las complejidades de la actualización continua del modelo, las actualizaciones actuales del mundo real del modelo de predicción clínica generalmente se han limitado a actualizaciones puntuales ad-hoc69,70. Aún así, la usabilidad a largo plazo de los algoritmos de IA se basa en tener procedimientos que introduzcan actualizaciones periódicas del modelo que garanticen su seguridad y eficacia. A la luz de esto, las agencias reguladoras ahora están considerando varias soluciones para este llamado "problema de actualización"71. Por ejemplo, la FDA de EE. UU. ha propuesto que el proveedor del modelo proporcione un Protocolo de cambio de algoritmo (ACP), un documento que describe cómo se generarán y validarán las modificaciones15. Este marco está alineado con las políticas de la Agencia Europea de Medicamentos para dispositivos médicos generales, que ya requieren que los proveedores proporcionen planes de gestión de cambios y realicen vigilancia posterior a la comercialización72.

A continuación, destacamos algunas de las consideraciones clave al diseñar/seleccionar un procedimiento de actualización del modelo. La Tabla 2 presenta un resumen de los métodos descritos a continuación.

La elección de las métricas de rendimiento es crucial en la actualización del modelo, al igual que lo son en el monitoreo de ML. La razón es que los procedimientos de actualización de modelos que brindan garantías con respecto a un conjunto de métricas de rendimiento pueden no proteger contra la degradación de otros. Por ejemplo, muchos resultados en la literatura de aprendizaje en línea brindan garantías de que el rendimiento del modelo en evolución será mejor que el modelo original en promedio en la población objetivo, durante un período de varios años. Aunque esto proporciona un primer nivel de defensa contra el deterioro del rendimiento de ML, tales garantías no significan que el modelo en evolución será superior dentro de cada subpoblación ni en cada momento. Como tal, es importante comprender cómo se cuantifica el rendimiento mediante el procedimiento de aprendizaje en línea y qué garantías ofrece. Se necesitará apoyo estadístico para garantizar que el procedimiento de actualización del modelo seleccionado cumpla con los requisitos de rendimiento deseados.

Otro ejemplo surge en el entorno de vigilancia predictiva, en el que un algoritmo intenta asignar policías en una ciudad para prevenir delitos:73 mostró cómo el reentrenamiento continuo del algoritmo en los datos de delitos observados, junto con una métrica de desempeño ingenua, puede conducir a una retroalimentación descontrolada. bucles donde la policía es enviada repetidamente de regreso a los mismos vecindarios, independientemente de la verdadera tasa de criminalidad. Estos desafíos han estimulado la investigación para diseñar métricas de rendimiento que mantengan o incluso promuevan la equidad algorítmica y sean resistentes a la creación de bucles de retroalimentación nocivos74,75,76.

Al decidir entre diferentes tipos de actualizaciones del modelo, se deben considerar sus "complejidades del modelo" y la compensación entre sesgo y varianza77,78. El tipo más simple de actualización del modelo es la recalibración, en la que las puntuaciones continuas (por ejemplo, riesgos pronosticados) producidas por el modelo original se asignan a nuevos valores; los ejemplos incluyen la escala de Platt, la escala de temperatura y la regresión isotónica79,80,81,82. Las revisiones más extensas del modelo transforman las predicciones del modelo original teniendo en cuenta otras variables. Por ejemplo, la revisión del modelo logístico retrocede el resultado contra la predicción del modelo original y otras variables propensas al cambio83. Esta categoría también incluye procedimientos que ajustan con precisión solo la capa superior de una red neuronal.

Las actualizaciones de modelo más complejas son aquellas que vuelven a entrenar el modelo desde cero o se ajustan a un modelo completamente diferente. Hay una compensación cuando se opta por una mayor complejidad: uno es más capaz de protegerse contra cambios de distribución complejos, pero las actualizaciones resultantes son sensibles al ruido en los datos y, sin un control cuidadoso de la complejidad del modelo, pueden sobreajustarse. Debido a que la velocidad de los datos en entornos médicos tiende a ser lenta, las actualizaciones de modelos simples a menudo pueden ser muy efectivas84.

Sin embargo, las actualizaciones de modelos más complejas pueden eventualmente ser útiles a medida que se siguen acumulando más datos. Los procedimientos como la validación cruzada en línea85 y el promedio del modelo bayesiano86 pueden ayudar a seleccionar dinámicamente la complejidad del modelo más adecuada a lo largo del tiempo.

Otra consideración de diseño es decidir cuándo y con qué frecuencia ocurren las actualizaciones del modelo. En términos generales, existen dos enfoques: un enfoque "reactivo", que actualiza el modelo solo en respuesta a problemas detectados por el monitoreo continuo versus un enfoque de "actualización continua", que actualiza el modelo incluso si no se han detectado problemas. Este último es mucho menos común en la práctica clínica, aunque ha habido múltiples llamados para la actualización regular del modelo87,88,89. La ventaja de la actualización continua es que pueden mejorar (no solo mantener) el rendimiento del modelo, responder rápidamente a los cambios en el entorno, reducir la cantidad de pacientes expuestos a un algoritmo de bajo rendimiento y, potencialmente, mejorar la confianza del médico.

Sin embargo, existen muchos desafíos en la implementación de procedimientos de actualización continua13. Por ejemplo, los procedimientos que vuelven a entrenar modelos solo con los datos más recientes pueden exhibir un fenómeno conocido como "olvido catastrófico", en el que la integración de nuevos datos en el modelo puede sobrescribir el conocimiento aprendido en el pasado. Por otro lado, los procedimientos que vuelven a entrenar los modelos en todos los datos recopilados previamente pueden no adaptarse a cambios temporales importantes y son computacionalmente costosos. Para decidir cuántos datos se deben usar para volver a entrenar el modelo, se puede simular el procedimiento de aprendizaje en línea sobre datos retrospectivos para evaluar el riesgo de olvido catastrófico y la relevancia de los datos pasados ​​(ver eg10). Otro desafío es que muchos métodos de actualización en línea no brindan garantías de rendimiento significativas en horizontes de tiempo realistas. Las garantías teóricas para actualizar algoritmos ML complejos como las redes neuronales son particularmente difíciles de establecer. En cambio, trabajos recientes han propuesto emplear "metaprocedimientos" que aprueban las modificaciones propuestas por un procedimiento de aprendizaje en línea de caja negra y aseguran que las modificaciones aprobadas satisfagan ciertas garantías de desempeño. Entre tales métodos, la prueba de hipótesis en línea proporciona garantías más sólidas90,91. Otro enfoque consiste en utilizar procedimientos de actualización continua para modelos paramétricos, para los cuales se pueden derivar propiedades teóricas, con el fin de revisar el modelo, como en la recalibración/revisión logística en línea92 y el promedio en línea del modelo93.

El rendimiento de las actualizaciones del modelo aprendido depende de la calidad de los datos de entrenamiento. Como tal, muchos estudios publicados de actualizaciones únicas del modelo se han basado en la selección manual de datos de entrenamiento y en la realización de una extensa validación de datos69,87. Este proceso puede ser muy laborioso. Por ejemplo,70 describieron cómo era necesario un diseño experimental cuidadoso para actualizar un modelo de predicción de riesgo de delirio entre pacientes en la unidad de cuidados intensivos. Debido a que el resultado era subjetivo, era necesario considerar los problemas típicos de confiabilidad entre evaluadores e intraevaluadores. Además, las predicciones del algoritmo de IA implementado podrían sesgar la evaluación de los resultados, por lo que los evaluadores debían estar cegados al algoritmo y sus predicciones.

No obstante, a medida que aumente la frecuencia de las actualizaciones del modelo, será necesario realizar una recopilación y limpieza de datos más automatizada. Desafortunadamente, los flujos de datos más fácilmente disponibles en entornos médicos son de naturaleza observacional y están sujetos a confusión, sesgos estructurales, faltantes y clasificación errónea de los resultados, entre otros94,95. Se necesita más investigación para comprender cómo los modelos pueden aprender continuamente de los flujos de datos del mundo real. El apoyo de los médicos y el departamento de TI será crucial para comprender la procedencia de los datos y cómo puede afectar los procedimientos de aprendizaje en línea.

Para llevar la IA clínica a la madurez, los sistemas de IA deben monitorearse y actualizarse continuamente. Describimos marcos estadísticos generales para monitorear el rendimiento algorítmico y las consideraciones clave al diseñar procedimientos de actualización de modelos. Al hablar de AI-QI, hemos destacado cómo es una iniciativa transversal que requiere la colaboración entre desarrolladores de modelos, médicos, profesionales de TI, bioestadísticos y agencias reguladoras. Para encabezar este esfuerzo, instamos a las empresas clínicas a crear equipos de AI-QI que encabecen la supervisión y el mantenimiento continuos de los sistemas AI/ML. Al servir como "pegamento" entre estas diferentes entidades, los equipos de AI-QI mejorarán la seguridad y la eficacia de estos algoritmos no solo a nivel hospitalario sino también a nivel nacional o multinacional.

Las iniciativas clínicas de mejora de la calidad generalmente se llevan a cabo a nivel de departamento/división. Debido a que AI-QI requiere muchos tipos de experiencia y recursos fuera de los disponibles para cualquier departamento clínico específico, creemos que las entidades de AI-QI deben abarcar departamentos clínicos. Dicho grupo puede ser alojado por estructuras existentes, como un departamento de Bioestadística o Epidemiología. Alternativamente, los hospitales pueden buscar crear departamentos de IA clínica dedicados, que centralizarían los esfuerzos para desarrollar, implementar y mantener modelos de IA en la atención clínica96. Independientemente de dónde esté alojada esta unidad, el éxito de este equipo dependerá de que tenga capacidades analíticas clave, como la adquisición de datos estructurados, el gobierno de datos, la experiencia en aprendizaje automático y estadístico, y la integración del flujo de trabajo clínico. Gran parte de esto supone que el hospital ha alcanzado un nivel suficiente de madurez analítica (consulte, por ejemplo, HIMSS "Modelo de adopción para madurez analítica") y se basa en herramientas desarrolladas por el departamento de TI del hospital. De hecho, el departamento de TI será un socio clave en la construcción de estas canalizaciones de datos y la aparición de medidas de rendimiento del modelo en la estación de trabajo del médico.

Al decidir si adoptar un sistema de IA en la práctica clínica, también será importante que los hospitales aclaren cómo se dividirán las responsabilidades de monitoreo y actualización del modelo entre el desarrollador del modelo y el equipo de AI-QI. Esto es particularmente relevante cuando el algoritmo es propietario; la división de responsabilidades puede ser más flexible cuando el algoritmo es desarrollado por un equipo interno. Por ejemplo, ¿cómo se debe diseñar el modelo para facilitar el monitoreo y qué herramientas debe proporcionar un proveedor de modelos para monitorear su algoritmo? Del mismo modo, ¿qué herramientas y datos de capacitación debe proporcionar el proveedor del modelo para actualizar el modelo? Una opción es que el proveedor del modelo asuma toda la responsabilidad de proporcionar estas herramientas al equipo de AI-QI. La ventaja de esta opción es que minimiza la carga del equipo de AI-QI y el proveedor del modelo puede aprovechar los datos de múltiples instituciones para mejorar el monitoreo y el mantenimiento del modelo97,98. No obstante, esto plantea problemas potenciales de conflictos de interés, ya que el proveedor del modelo ahora es responsable de monitorear el desempeño de su propio producto. Una segunda opción es que la unidad local de AI-QI del hospital asuma toda la responsabilidad. La ventaja de esto es que el hospital tiene total libertad sobre la tubería de monitoreo, como elegir las métricas que son más relevantes. Sin embargo, la desventaja es que ya no se pueden aprovechar los datos de otras instituciones, lo que puede ser particularmente útil para aprender buenas modificaciones algorítmicas. Una tercera y más probable opción es que la responsabilidad sea compartida entre el equipo de AI-QI del hospital y el proveedor del modelo. Por ejemplo, los hospitales asumen la responsabilidad de introducir ajustes específicos del sitio, y el fabricante asume la responsabilidad de implementar actualizaciones de modelo más extensas que solo se pueden aprender utilizando datos en múltiples sitios.

Además del monitoreo a nivel hospitalario por parte del equipo de AI-QI, las agencias reguladoras serán fundamentales para garantizar la seguridad y eficacia a largo plazo de los algoritmos basados ​​en IA a nivel nacional o internacional. Las propuestas actuales requieren que los proveedores de algoritmos encabecen el monitoreo del desempeño15. Aunque el proveedor sin duda desempeñará un papel importante en el diseño de la canalización de seguimiento, el procedimiento de seguimiento en sí debe ser realizado por una entidad independiente para evitar conflictos de intereses. Con este fin, los sistemas de vigilancia posteriores a la comercialización existentes, como la Iniciativa Sentinel99 de la FDA, podrían adaptarse para monitorear algoritmos basados ​​en IA en el cuidado de la salud, ampliando el alcance de estos programas para incluir no solo la farmacovigilancia sino también la "tecnovigilancia"100,101. Además, los equipos de AI-QI pueden servir como socios clave en esta iniciativa nacional, compartiendo datos e información sobre el rendimiento del modelo local. Si se detecta una desviación sustancial en el rendimiento en varios sitios, la agencia reguladora debería tener la capacidad de suspender la licencia del algoritmo de IA.

En general, hay muy pocos estudios que hayan evaluado la efectividad de los métodos de monitoreo y mantenimiento continuos para algoritmos basados ​​en IA aplicados a flujos de datos médicos, quizás debido a la escasez de conjuntos de datos públicos con marcas de tiempo. La mayoría de los estudios han considerado datos simulados o datos de un único conjunto de datos médicos privados52,92,93. Aunque grandes conjuntos de datos disponibles públicamente, como la base de datos102 Medical Information Mart for Intensive Care (MIMIC) se están moviendo en la dirección de publicar marcas de tiempo más precisas, los cambios de fecha aleatorios utilizados para la desidentificación de datos tienen el desafortunado efecto secundario de amortiguar los cambios temporales existentes en el datos. Cómo se pueden validar los procedimientos de monitoreo y actualización de ML en datos con marca de tiempo mientras se preserva la privacidad del paciente sigue siendo un problema abierto.

Finalmente, actualmente hay pocos paquetes de software disponibles para el monitoreo y mantenimiento de algoritmos de IA103,104,105. Los que existen son limitados, ya sea en los tipos de algoritmos, tipos de datos y/o las garantías estadísticas que ofrecen. Existe una necesidad apremiante de crear paquetes de software robustos de código abierto para AI-QI y facilitar a los hospitales a lo largo de su viaje para estar preparados para la IA.

El intercambio de datos no se aplica a este artículo ya que no se generaron ni analizaron conjuntos de datos durante el estudio actual.

El código para el ejemplo de monitoreo de un sistema de alerta temprana AHE se incluye en los Materiales complementarios.

Hannun, AY et al. Detección y clasificación de arritmias a nivel de cardiólogo en electrocardiogramas ambulatorios utilizando una red neuronal profunda. Nat. Medicina. 25, 65–69 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Esteva, A. et al. Una guía para el aprendizaje profundo en el cuidado de la salud. Nat. Medicina. 25, 24–29 (2019).

Artículo CAS PubMed Google Académico

Pirracchio, R. et al. Big data y aprendizaje automático dirigido en acción para ayudar a la decisión médica en la UCI. Anestesia Crit Care Pain Med. 38, 377–384 (2019).

Artículo PubMed Google Académico

Liu, S. et al. Aprendizaje por refuerzo para el apoyo a las decisiones clínicas en cuidados intensivos: revisión exhaustiva. J.Med. Resolución de Internet 22, e18477 (2020).

Artículo PubMed PubMed Central Google Académico

Adegboro, CO, Choudhury, A., Asan, O. y Kelly, MM Inteligencia artificial para mejorar los resultados de salud en la UCIN y la UCIP: una revisión sistemática. Hosp Pediatr 12, 93–110 (2022).

Artículo PubMed Google Académico

Choudhury, A. & Asan, O. Papel de la inteligencia artificial en los resultados de seguridad del paciente: revisión sistemática de la literatura. Informe médico JMIR. 8, e18599 (2020).

Artículo PubMed PubMed Central Google Académico

Benjamens, S., Dhunnoo, P. & Meskó, B. El estado de los algoritmos y dispositivos médicos basados ​​en inteligencia artificial (aprobados por la FDA): una base de datos en línea. NPJ Digit Med 3, 118 (2020).

Artículo PubMed PubMed Central Google Académico

Sculley, D. et al. Aprendizaje automático: la tarjeta de crédito de alto interés de la deuda técnica. En Avances en Sistemas de Procesamiento de Información Neural, vol. 28 (eds. Cortés, C., Lawrence, N., Lee, D., Sugiyama, M. y Garnett, R.) (Curran Associates, Inc., 2015).

Davis, SE, Lasko, TA, Chen, G., Siew, ED y Matheny, ME Desviación de la calibración en modelos de regresión y aprendizaje automático para la lesión renal aguda. Mermelada. Medicina. Informar. Asoc. 24, 1052–1061 (2017).

Artículo PubMed PubMed Central Google Académico

Chen, JH, Alagappan, M., Goldstein, MK, Asch, SM y Altman, RB Relevancia decreciente de los datos clínicos hacia decisiones futuras en conjuntos de pedidos clínicos de pacientes hospitalizados basados ​​en datos. En t. J.Med. Informar. 102, 71–79 (2017).

Artículo PubMed PubMed Central Google Académico

Néstor, B. et al. Robustez de características en registros de salud no estacionarios: advertencias para el rendimiento del modelo desplegable en tareas comunes de aprendizaje automático clínico. Aprendizaje automático para el cuidado de la salud 106, 381–405 (2019).

Google Académico

Yoshida, E., Fei, S., Bavuso, K., Lagor, C. y Maviglia, S. El valor de monitorear las intervenciones de apoyo a las decisiones clínicas. aplicación clin. Informar. 9, 163–173 (2018).

Artículo PubMed PubMed Central Google Académico

Lee, CS & Lee, AY Aplicaciones clínicas del aprendizaje automático de aprendizaje continuo. Lancet Digital Health 2, e279–e281 (2020).

Artículo PubMed Google Académico

Vokinger, KN, Feuerriegel, S. y Kesselheim, AS Aprendizaje continuo en dispositivos médicos: el plan de acción de la FDA y más allá. Lancet Digital Health 3, e337–e338 (2021).

Artículo PubMed Google Académico

Administración de Drogas y Alimentos de los Estados Unidos. Marco normativo propuesto para las modificaciones del software basado en inteligencia artificial/aprendizaje automático (IA/ML) como dispositivo médico (SaMD): documento de debate y solicitud de comentarios. tecnología Rep. (2019).

Liu, Y., Chen, P.-HC, Krause, J. & Peng, L. Cómo leer artículos que utilizan el aprendizaje automático: guías de usuarios de la literatura médica. JAMA 322, 1806–1816 (2019).

Artículo PubMed Google Académico

Finlayson, SG et al. El clínico y el cambio de conjunto de datos en inteligencia artificial. N. ingl. J.Med. 385, 283–286 (2021).

Artículo PubMed PubMed Central Google Académico

Breck, E., Cai, S., Nielsen, E., Salib, M. & Sculley, D. La puntuación de la prueba de ML: una rúbrica para la preparación para la producción de ML y la reducción de la deuda técnica. En: Conferencia internacional IEEE de 2017 sobre Big Data (Big Data), 1123–1132 (ieeexplore.ieee.org, 2017).

Amershi, S. et al. Ingeniería de software para el aprendizaje automático: un estudio de caso. En: 2019 IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP), 291–300 (2019).

Benneyan, JC, Lloyd, RC & Plsek, PE El control estadístico de procesos como herramienta para la investigación y la mejora de la atención sanitaria. Cal. seguro Cuidado de la Salud 12, 458–464 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Thor, J. et al. Aplicación del control estadístico de procesos en la mejora de la atención sanitaria: revisión sistemática. Cal. seguro Cuidado de la Salud 16, 387–399 (2007).

Artículo PubMed PubMed Central Google Académico

Backhouse, A. & Ogunlayi, F. Mejora de la calidad en la práctica. BMW 368, m865 (2020).

Artículo PubMed PubMed Central Google Académico

Hatib, F. et al. Algoritmo de aprendizaje automático para predecir la hipotensión basado en un análisis de forma de onda de presión arterial de alta fidelidad. Anestesiología 129, 663–674 (2018).

Artículo PubMed Google Académico

Duckworth, C. et al. Uso de aprendizaje automático explicable para caracterizar la deriva de datos y detectar riesgos de salud emergentes para las admisiones en el departamento de emergencias durante COVID-19. ciencia Rep. 11, 23017 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Rubin, DL Inteligencia artificial en imágenes: el papel del radiólogo. Mermelada. Col. Radiol. 16, 1309–1317 (2019).

Artículo PubMed PubMed Central Google Académico

Gossmann, A., Cha, KH & Sun, X. Deterioro del rendimiento de las redes neuronales profundas para la clasificación de lesiones en mamografía debido al cambio de distribución: un análisis basado en el cambio de distribución creado artificialmente. En: Imágenes médicas 2020: Diagnóstico asistido por computadora, vol. 11314, (eds. Hahn, HK & Mazurowski, MA) 1131404 (Sociedad Internacional de Óptica y Fotónica, 2020).

Cabitza, F. et al. La importancia de ser externo. conocimientos metodológicos para la validación externa de modelos de aprendizaje automático en medicina. computar Métodos Programas Biomed. 208, 106288 (2021).

Artículo PubMed Google Académico

Subbaswamy, A., Schulam, P. y Saria, S. Prevención de fallas debido al cambio de conjunto de datos: aprendizaje de modelos predictivos que transportan. En: Proc. Investigación de aprendizaje automático vol. 89 (eds. Chaudhuri, K. & Sugiyama, M.) 3118–3127 (PMLR, 2019).

Scholkopf, B. et al. Sobre el aprendizaje causal y anticausal. En: Proc. 29° Congreso Internacional sobre Aprendizaje Automático, ICML'12 459–466 (Omnipress, 2012).

Quionero-Candela, J., Sugiyama, M., Schwaighofer, A. & Lawrence, ND Cambio de conjuntos de datos en el aprendizaje automático (The MIT Press, 2009).

Montgomery, D. Introducción al control de calidad estadístico (Wiley, 2020).

Aggarwal, CC Introducción al análisis de valores atípicos. En: Análisis de valores atípicos 1–34 (Springer, 2017).

Greenland, S., Pearl, J. & Robins, JM Diagramas causales para la investigación epidemiológica. Epidemiología 10, 37–48 (1999).

Artículo CAS PubMed Google Académico

Castro, DC, Walker, I. & Glocker, B. Asuntos de causalidad en imágenes médicas. Nat. común 11, 3673 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Page, ES Esquemas de inspección continua. Biometrika 41, 100–115 (1954).

Artículo Google Académico

Bersimis, S., Psarakis, S. & Panaretos, J. Gráficos de control de procesos estadísticos multivariantes: una descripción general. Cal. confiable Ing. En t. 23, 517–543 (2007).

Artículo Google Académico

Zou, C. & Qiu, P. Control de procesos estadísticos multivariantes usando LASSO. Mermelada. Estadística Asoc. 104, 1586–1596 (2009).

Artículo Google Académico

Qahtan, AA, Alharbi, B., Wang, S. y Zhang, X. Un marco de detección de cambios basado en PCA para flujos de datos multidimensionales: detección de cambios en flujos de datos multidimensionales. En: Proc. 21.ª Conferencia internacional ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos 935–944 (Asociación de Maquinaria Informática, 2015).

Boracchi, G., Carrera, D., Cervellera, C. & Macciò, D. QuantTree: Histogramas para la detección de cambios en flujos de datos multivariados. En: Proc. 35a Conferencia Internacional sobre Aprendizaje Automático vol. 80 (eds. Dy, J. & Krause, A.) 639–648 (PMLR, 2018).

Rabanser, S., Günnemann, S. & Lipton, Z. Failing Loudly: un estudio empírico de métodos para detectar cambios en conjuntos de datos. En: Avances en sistemas de procesamiento de información neuronal vol. 32 (eds. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E. & Garnett, R.) 1396–1408 https://proceedings.neurips.cc /paper/2019/file/846c260d715e5b854ffad5f70a516c88-Paper.pdf (Curran Associates, Inc., 2019).

Qiu, P. ¿Grandes datos? ¡El control estadístico de procesos puede ayudar! Soy. Estadística 74, 329–344 (2020).

Artículo Google Académico

Ditzler, G. & Polikar, R. Hellinger Detección de deriva basada en la distancia para entornos no estacionarios. En: Simposio IEEE de 2011 sobre inteligencia computacional en entornos dinámicos e inciertos (CIDUE) 41-48 (2011).

Gretton, A., Borgwardt, K., Rasch, M., Schölkopf, B. y Smola, A. Un método kernel para el problema de dos muestras. En: Avances en sistemas de procesamiento de información neuronal vol. 19 (eds. Schölkopf, B., Platt, J. & Hoffman, T.) (MIT Press, 2007).

Harchaoui, Z., Moulines, E. & Bach, F. Análisis del punto de cambio del kernel. En Avances en sistemas de procesamiento de información neuronal vol. 21 (eds. Koller, D., Schuurmans, D., Bengio, Y. y Bottou, L.) (Curran Associates, Inc., 2009).

Williamson, BD & Feng, J. Inferencia estadística no paramétrica eficiente sobre la importancia de las características de la población utilizando valores de Shapley. En: Proc. de la 37ª Conferencia Internacional sobre Aprendizaje Automático vol. 119 (eds. Daumé. H. III & Singh, A.) 10282–10291 (PMLR, 2020).

Nishida, K. & Yamauchi, K. Detección de la desviación del concepto mediante pruebas estadísticas. En: Discovery Science 264–269 https://doi.org/10.1007/978-3-540-75488-6_27 (Springer Berlin Heidelberg, 2007).

Shiryaev, AN Sobre métodos óptimos en problemas de detección más rápida. Teoría probabilística. aplicación 8, 22–46 (1963).

Artículo Google Académico

Roberts, SW Una comparación de algunos procedimientos de gráficos de control. Tecnometría 8, 411–430 (1966).

Artículo Google Académico

Siegmund, D. & Venkatraman, ES Uso de la estadística de razón de verosimilitud generalizada para la detección secuencial de un punto de cambio. Ana. Estadísticas 23, 255–271 (1995).

Google Académico

Lai, TL & Xing, H. Detección de punto de cambio secuencial cuando se desconocen los parámetros previos y posteriores al cambio. Sec. Anal. 29, 162–175 (2010).

Artículo Google Académico

Zeileis, A. & Hornik, K. Pruebas generalizadas de fluctuación m para la inestabilidad de parámetros. Estadística Neerl. 61, 488–508 (2007).

Artículo Google Académico

Davis, SE, Greevy, RA Jr., Lasko, TA, Walsh, CG y Matheny, ME Detección de desviación de calibración en modelos de predicción clínica para informar la actualización del modelo. J. Biomédica. Informar. 112, 103611 (2020).

Artículo PubMed PubMed Central Google Académico

Zou, C. & Tsung, F. Gráficas de control EWMA sin distribución basadas en la relación de probabilidad. J. Comod. ciencia Tecnología Cal. 42, 174–196 (2010).

Artículo Google Académico

Shin, J., Ramdas, A. & Rinaldo, A. Extensiones de logaritmo iterado no paramétrico de la prueba de razón de verosimilitud generalizada secuencial. IEEE J. Sel. Áreas en Informar. Teoría 2, 691–704 (2021).

Artículo Google Académico

Leonardi, F. & Bühlmann, P. Detección de punto de cambio computacionalmente eficiente para regresión de alta dimensión Preprint en https://doi.org/10.48550/ARXIV.1601.03704 (arXiv, 2016).

Enikeeva, F. & Harchaoui, Z. Detección de punto de cambio de alta dimensión bajo alternativas dispersas. Ana. Estadística 47, 2051-2079 (2019).

Artículo Google Académico

Liu, L., Salmon, J. y Harchaoui, Z. Detección de cambios basada en puntajes para máquinas de aprendizaje basadas en gradientes. En: ICASSP 2021–2021 Conferencia internacional IEEE sobre procesamiento de señales, voz y acústica (ICASSP) 4990–4994 (2021).

Woodall, WH El uso de gráficos de control en la atención de la salud y la vigilancia de la salud pública. J. Cal. Tecnología 38, 89–104 (2006).

Artículo Google Académico

Huang, Y. & Gilbert, PB Comparación de biomarcadores como criterios de valoración sustitutos principales. Biometría 67, 1442–1451 (2011).

Artículo PubMed PubMed Central Google Académico

Price, BL, Gilbert, PB & van der Laan, MJ Estimación del sustituto óptimo basado en un ensayo aleatorizado. Biometría 74, 1271–1281 (2018).

Asan, O. & Choudhury, A. Tendencias de investigación en aplicaciones de inteligencia artificial en el cuidado de la salud de factores humanos: revisión de mapeo. JMIR Hum. Factores 8, e28236 (2021).

Artículo PubMed PubMed Central Google Académico

Paxton, C., Niculescu-Mizil, A. & Saria, S. Desarrollo de modelos predictivos utilizando registros médicos electrónicos: desafíos y peligros. AMIA Anual. Síntoma proc. 2013, 1109–1115 (2013).

PubMed PubMed Central Google Académico

Dyagilev, K. & Saria, S. Puntajes de riesgo (predictivos) de aprendizaje en presencia de censura debido a las intervenciones. Mach. Aprender. 102, 323–348 (2016).

Artículo Google Académico

Lenert, MC, Matheny, ME & Walsh, CG Los modelos de pronóstico serán víctimas de su propio éxito, a menos que. Mermelada. Medicina. Informar. Asoc. 26, 1645–1650 (2019).

Artículo PubMed PubMed Central Google Académico

Perdomo, J., Zrnic, T., Mendler-Dünner, C. & Hardt, M. Predicción performativa. En Proc. de la 37ª Conferencia Internacional sobre Aprendizaje Automático vol. 119 (eds. Daumé. H. III & Singh, A.) 7599–7609 http://proceedings.mlr.press/v119/perdomo20a/perdomo20a.pdf (PMLR, 2020).

Liley, J. et al. La actualización del modelo después de las intervenciones, paradójicamente, introduce un sesgo. En t. Conf. Artefacto Intel. Estadísticas 130, 3916–3924 (2021).

Google Académico

Imbens, GW & Rubin, DB Inferencia causal en estadística, ciencias sociales y biomédicas (Cambridge University Press, 2015).

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange: un paquete r para probar el cambio estructural en modelos de regresión lineal. J. Software Estadístico. 7, 1–38 (2002).

Artículo Google Académico

Harrison, DA, Brady, AR, Parry, GJ, Carpenter, JR y Rowan, K. Recalibración de modelos de predicción de riesgo en una gran cohorte multicéntrica de admisiones a unidades de cuidados intensivos generales para adultos en el Reino Unido. crítico Cuidado Med. 34, 1378–1388 (2006).

Artículo PubMed Google Académico

van den Boogaard, M. et al. Recalibración del modelo de predicción de delirio para pacientes de UCI (PRE-DELIRIC): un estudio observacional multinacional. Medicina de Cuidados Intensivos 40, 361–369 (2014).

Artículo PubMed Google Académico

Babic, B., Gerke, S., Evgeniou, T. & Cohen, IG Algorithms on regulator lockdown in medicine. Ciencia 366, 1202–1204 (2019).

Artículo CAS PubMed Google Académico

Agencia Europea de Medicamentos. Reglamento (UE) 2017/745 del parlamento europeo y del consejo. tecnología Rep. (2020).

Ensign, D., Friedler, SA, Neville, S., Scheidegger, C. y Venkatasubramanian, S. Bucles de retroalimentación fuera de control en vigilancia policial predictiva. En: Rendición de cuentas y transparencia vol. 81 (eds. Friedler, SA & Wilson, C.) 160–171 (PMLR, 2018).

Hashimoto, T., Srivastava, M., Namkoong, H. y Liang, P. Equidad sin datos demográficos en la minimización de pérdidas repetidas. En Proc. 35a Conferencia Internacional sobre Aprendizaje Automático vol. 80 (eds. Dy, J. & Krause, A.) 1929–1938 (PMLR, 2018).

Liu, LT, Dean, S., Rolf, E., Simchowitz, M. y Hardt, M. Impacto retardado del aprendizaje automático justo, vol. 80, 3150-3158 (PMLR, 2018).

Chouldechova, A. & Roth, A. The frontiers of fairness in machine learning Preprint en https://doi.org/10.48550/ARXIV.1810.08810 (arXiv, 2018).

Hastie, T., Tibshirani, R. & Friedman, J. Los elementos del aprendizaje estadístico (Springer, 2009) .

James, G., Witten, D., Hastie, T. y Tibshirani, R. Introducción al aprendizaje estadístico (Springer, 2021).

Platt, J. Salidas probabilísticas para máquinas de vectores de soporte y comparaciones con métodos de probabilidad regularizados. Adv. Clasificadores de margen grande 10, 61–74 (1999).

Google Académico

Niculescu-Mizil, A. & Caruana, R. Predicción de buenas probabilidades con aprendizaje supervisado. En: Proc. 22.ª conferencia internacional sobre aprendizaje automático, ICML'05 625–632 (Association for Computing Machinery, 2005).

Guo, C., Pleiss, G., Sun, Y. y Weinberger, KQ Sobre la calibración de las redes neuronales modernas. En t. Conf. Mach. Aprendizaje 70, 1321–1330 (2017).

Google Académico

Chen, W., Sahiner, B., Samuelson, F., Pezeshk, A. y Petrick, N. Calibración de las puntuaciones del clasificador de diagnóstico médico para la probabilidad de enfermedad. Estadística Métodos Med. Res. 27, 1394–1409 (2018).

Artículo PubMed Google Académico

Steyerberg, EW Modelos de predicción clínica: un enfoque práctico para el desarrollo, la validación y la actualización (Springer, 2009). .

Steyerberg, EW, Borsboom, GJJM, van Houwelingen, HC, Eijkemans, MJC & Habbema, JDF Validación y actualización de modelos de regresión logística predictiva: un estudio sobre el tamaño y la reducción de la muestra. Estadística Medicina. 23, 2567–2586 (2004).

Artículo PubMed Google Académico

Benkeser, D., Ju, C., Lendle, S. y van der Laan, M. Aprendizaje de conjuntos basado en validación cruzada en línea. Estadística Med. 37, 249–260 (2018).

Artículo Google Académico

McCormick, TH Regresión logística dinámica y promediación de modelo dinámico para clasificación binaria. Biometría 68, 23–30 (2012).

Strobl, AN et al. Mejorar la evaluación del riesgo de cáncer de próstata del paciente: pasar de calculadoras de riesgo estáticas, aplicadas globalmente, a calculadoras de riesgo dinámicas y específicas de la práctica. J. Biomédica. Informar. 56, 87–93 (2015).

Artículo PubMed PubMed Central Google Académico

Futoma, J., Simons, M., Panch, T., Doshi-Velez, F. & Celi, LA El mito de la generalizabilidad en la investigación clínica y el aprendizaje automático en el cuidado de la salud. Lancet Digit Health 2, e489–e492 (2020).

Artículo PubMed PubMed Central Google Académico

Vokinger, KN, Feuerriegel, S. y Kesselheim, AS Aprendizaje continuo en dispositivos médicos: el plan de acción de la FDA y más allá. Lancet Digit Health 3, e337–e338 (2021).

Artículo PubMed Google Académico

Viering, TJ, Mey, A. & Loog, M. Hacer que los alumnos sean (más) monótonos. En: Advances in Intelligent Data Analysis XVIII (eds. Berthold, MR, Feelders, Ad & Krempl, G.) 535–547 https://doi.org/10.1007/978-3-030-44584-3_42 (Springer International Publishing , 2020).

Feng, J., Emerson, S. & Simon, N. Políticas de aprobación para modificaciones al software basado en aprendizaje automático como dispositivo médico: un estudio de bio-creep. Biometría (2020).

Feng, J., Gossmann, A., Sahiner, B. & Pirracchio, R. Regresión logística bayesiana para la recalibración y revisión en línea de modelos de predicción de riesgos con garantías de desempeño. Mermelada. Medicina. Informar. Asoc. (2022).

Feng, J. Aprender a aprobar de forma segura las actualizaciones de los algoritmos de aprendizaje automático. En: Proc. Conferencia sobre Salud, Inferencia y Aprendizaje, CHIL'21 164–173 (Asociación de Maquinaria Informática, 2021).

Kohane, IS et al. Lo que todo lector debe saber sobre los estudios que utilizan datos de registros de salud electrónicos, pero que puede tener miedo de preguntar. J.Med. Resolución de Internet 23, e22219 (2021).

Artículo PubMed PubMed Central Google Académico

Beesley, LJ et al. El panorama emergente de la investigación en salud basada en biobancos vinculados a registros de salud electrónicos: recursos existentes, desafíos estadísticos y oportunidades potenciales. Estadística Medicina. 39, 773–800 (2020).

Artículo PubMed Google Académico

Cosgriff, CV, Stone, DJ, Weissman, G., Pirracchio, R. & Celi, LA El departamento de inteligencia artificial clínica: un requisito previo para el éxito. Informe de atención médica de BMJ. 27, e100183 (2020).

Artículo PubMed PubMed Central Google Académico

Sheller, MJ et al. Aprendizaje federado en medicina: facilitar colaboraciones multiinstitucionales sin compartir datos de pacientes. ciencia Rep. 10, 12598 (2020).

Artículo PubMed PubMed Central CAS Google Scholar

Warnat-Herresthal, S. et al. Swarm Learning para el aprendizaje automático clínico descentralizado y confidencial. Naturaleza 594, 265–270 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Administración de Drogas y Alimentos de los Estados Unidos. Sistema Centinela: estrategia quinquenal 2019-2023. tecnología Rep. (2019).

Harvey, H. & Cabitza, F. ¿Los algoritmos son los nuevos fármacos? Reflexiones para una cultura de evaluación y vigilancia de impactos. En: Conferencia Internacional IADIS TIC, Sociedad y Ser Humano 2018 (eds. Macedo, M. & Kommers, P.) (parte de MCCSIS 2018) (2018).

Cabitza, F. & Zeitoun, J.-D. La prueba del pudín: elogio de una cultura de validación en el mundo real para la inteligencia artificial médica. Ann Transl Med 7, 161 (2019).

Artículo PubMed PubMed Central Google Académico

Johnson, AE et al. MIMIC-III, una base de datos de cuidados críticos de libre acceso. Datos científicos 3, 160035 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange: un paquete r para probar el cambio estructural en modelos de regresión lineal. J. Software Estadístico. Artículos 7, 1–38 (2002).

Google Académico

Bifet, A., Holmes, G., Kirkby, R. & Pfahringer, B. MOA: análisis masivo en línea. J. Mach. Aprender. Res. 11, 1601–1604 (2010).

Google Académico

Montiel, J., Read, J., Bifet, A. & Abdessalem, T. Scikit-multiflow: un marco de transmisión de múltiples salidas. J. Mach. Aprender. Res. 19, 1–5 (2018).

Google Académico

Descargar referencias

Los autores agradecen a Charles McCulloch, Andrew Auerbach, Julian Hong y Linda Wang, así como a los revisores anónimos, por sus útiles comentarios. El Dr. Bishara está financiado por la Fundación para la Educación e Investigación en Anestesia.

Departamento de Epidemiología y Bioestadística, Universidad de California, San Francisco, CA, EE. UU.

jean feng

Instituto de Ciencias de la Salud Computacional Bakar, Universidad de California San Francisco, San Francisco, CA, EE. UU.

Jean Feng, Andrew Bishara y Romain Pirracchio

Departamento de Bioestadística, Universidad de California, Berkeley, CA, EE. UU.

Rachael V. Phillips, Ivana Malenica y Alan E. Hubbard

Departamento de Anestesia, Universidad de California, San Francisco, CA, EE. UU.

Andrew Bishara y Romain Pirracchio

Instituto de Ingeniería y Ciencias Médicas, Instituto de Tecnología de Massachusetts, Departamento de Medicina, Centro Médico Beth Israel Deaconess; Departamento de Bioestadística, Harvard TH Chan School of Public Health, Boston, MA, 02115, EE. UU.

Leo A Celi

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

JF: conceptualización, investigación, redacción y edición de manuscritos, supervisión; RVP: investigación, redacción y edición de manuscritos; MI: investigación, redacción y edición de manuscritos; AB: investigación, edición de manuscritos; AH: edición del manuscrito; LC: edición del manuscrito; RP: conceptualización, redacción y edición de manuscritos, supervisión

Correspondencia a Jean Feng.

El Dr. Bishara es cofundador de Bezel Health, una empresa que crea software para medir y mejorar las intervenciones de calidad de la atención médica. Otros autores declaran que no hay intereses contrapuestos.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Feng, J., Phillips, RV, Malenica, I. et al. Mejora de la calidad de la inteligencia artificial clínica: hacia la monitorización y actualización continuas de los algoritmos de IA en la atención sanitaria. npj Dígito. Medicina. 5, 66 (2022). https://doi.org/10.1038/s41746-022-00611-y

Descargar cita

Recibido: 16 noviembre 2021

Aceptado: 29 de abril de 2022

Publicado: 31 de mayo de 2022

DOI: https://doi.org/10.1038/s41746-022-00611-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Medicina natural (2023)

Medicina de las Comunicaciones (2023)

npj Medicina digital (2022)

Revista de Imagen Digital (2022)

COMPARTIR