Un novedoso enfoque de aprendizaje federado descentralizado para capacitar en datos médicos privados distribuidos globalmente, de baja calidad y protegidos

Scientific Reports volumen 12, Número de artículo: 8888 (2022) Citar este artículo

4400 Accesos

2 citas

3 Altmetric

Detalles de métricas

La capacitación en múltiples fuentes de datos diversas es fundamental para garantizar una IA imparcial y generalizable. En el cuidado de la salud, las leyes de privacidad de datos prohíben que los datos se muevan fuera del país de origen, lo que impide que los conjuntos de datos médicos globales se centralicen para el entrenamiento de IA. El aprendizaje federado entre silos y centrado en datos representa un camino a seguir para la capacitación en conjuntos de datos médicos distribuidos. Los enfoques existentes generalmente requieren que las actualizaciones de un modelo de capacitación se transfieran a un servidor central, lo que podría infringir las leyes de privacidad de datos, a menos que las actualizaciones estén lo suficientemente disfrazadas o resumidas para evitar la reconstrucción del conjunto de datos. Aquí presentamos un enfoque de aprendizaje federado completamente descentralizado, utilizando la destilación de conocimiento, asegurando la privacidad y protección de datos. Cada nodo funciona de forma independiente sin necesidad de acceder a datos externos. Se ha descubierto que la precisión de la IA que usa este enfoque es comparable a la capacitación centralizada, y cuando los nodos contienen datos de baja calidad, lo cual es común en el cuidado de la salud, la precisión de la IA puede superar el rendimiento de la capacitación centralizada tradicional.

El sesgo en la IA y sus subsiguientes limitaciones de escalabilidad están comenzando a surgir como temas comunes en el sector de la salud de la IA. Recientemente se ha propuesto que estas limitaciones son una consecuencia del entrenamiento en conjuntos de datos "estrechos" que no representan la diversidad clínica o de pacientes del mundo real1,2. La diversidad de datos y el uso de datos de múltiples fuentes han demostrado un mayor potencial para entrenar IA que es más precisa y generalizable en comparación con IA entrenada en un conjunto de datos más grande (menos diverso) de una sola fuente3,4,5,6,7,8.

En el cuidado de la salud, el acceso a estos diversos conjuntos de datos puede ser un desafío. Los datos médicos no solo se distribuyen en muchas instituciones a nivel mundial, sino que la agregación centralizada de datos para la capacitación en IA está cada vez más restringida debido a las barreras legales y reglamentarias que impiden el movimiento de datos fuera de la región de origen, a fin de proteger la privacidad de los datos9,10.

La calidad de los datos también puede representar un desafío si no hay forma de evaluar la calidad de los conjuntos de datos individuales que se distribuyen. Para muchos problemas del mundo real, los datos pueden ser inherentemente de mala calidad debido a la incertidumbre, la subjetividad, los errores o estar sujetos a ataques adversarios11,12,13. Este problema se exagera cuando los datos privados de cada localidad no se pueden ver o verificar manualmente. Por lo tanto, minimizar el impacto negativo de los datos de mala calidad en el rendimiento de la IA es primordial, y la capacidad de cualquier enfoque para manejar niveles realistas de ruido de datos representará una parte central de su escalabilidad.

Este estudio evalúa la eficacia del enfoque de entrenamiento de IA descentralizado, primero en un conjunto de datos no médicos con ruido de datos sintéticos y, en segundo lugar, en un conjunto de datos médicos, para medir la generalización en múltiples ubicaciones. También empleamos métodos para optimizar las topologías de un marco basado en patrones que permite especificar un equilibrio entre la precisión y el costo. Es importante destacar que mostramos que la precisión de la IA resultante de nuestro enfoque es comparable a un escenario donde todos los datos están centralizados. Además, cuando los nodos contienen datos de mala calidad, lo cual es común en escenarios del mundo real, la precisión de la IA puede superar el entrenamiento centralizado tradicional. Concluimos que el entrenamiento de IA descentralizado se puede hacer práctico y escalable dentro de una tolerancia deseada de generalización, todo mientras se protege la privacidad de los datos.

Este artículo está organizado de la siguiente manera. Después de resumir trabajos relacionados en "Obras relacionadas". a continuación, los resultados se presentan en la segunda sección. Los experimentos se dividen en aquellos que consideran un conjunto de datos no médicos ("Non-medical dataset"), incluidos los escenarios etiquetados como i. a iv., y aquellos que consideren un conjunto de datos médicos ("Conjunto de datos médicos"). La "Discusión" se presenta en la tercera sección. Por último, los "Métodos" se describen en la cuarta sección, incluido el diseño del experimento, el procedimiento de entrenamiento y la composición de los conjuntos de datos médicos y no médicos como "Procedimiento de entrenamiento y diseño del experimento", "Composición del conjunto de datos no médicos" y Conjunto de datos médicos. composición, respectivamente.

Un desarrollo reciente que aborda los desafíos asociados con el entrenamiento de IA utilizando conjuntos de datos privados y distribuidos es el aprendizaje federado14,15. El aprendizaje federado abarca cualquier enfoque de aprendizaje automático en el que los clientes (como dispositivos o centros de datos) con acceso a sus propios conjuntos de datos locales colaboran para resolver un problema sin intercambiar los datos en formato sin procesar, coordinados por un servicio central16. El campo del aprendizaje federado se ha expandido rápidamente al área de la atención médica17,18,19,20,21, en aplicaciones médicas en particular22,23,24,25, brindando una amplia gama de métodos para el entrenamiento de IA a través de dispositivos distribuidos o silos de datos (horizontal o aprendizaje federado basado en muestras), centros de datos dentro de una organización con registros potencialmente superpuestos (aprendizaje federado vertical o basado en funciones)26 y conjuntos de datos que no son 'independientes y distribuidos de forma idéntica' (IID)27,28.

Algunas técnicas de aprendizaje federado necesitan un cifrado pesado para permitir que los aspectos de los parámetros de entrenamiento potencialmente sensibles se compartan con un servidor central para el entrenamiento17,29,30,31, lo que puede ser costoso desde el punto de vista computacional, lo que impone restricciones en la practicidad y la escalabilidad de la técnica. En aplicaciones como la atención médica, los datos médicos privados no se pueden compartir legalmente en absoluto, y se requiere un enfoque completamente descentralizado y que preserve la privacidad de los datos16,28. Además, el aprendizaje federado generalmente se basa en actualizaciones lote por lote de un modelo de los clientes, lo que puede ser difícil de escalar a una gran cantidad de centros de datos debido a los altos costos de la red, incluso cuando se basa en marcos de reducción de transferencia basados en patrones. como Ring Reduce32 o Ring Allreduce33.

El objetivo de este estudio fue crear un algoritmo de entrenamiento de inteligencia artificial entre silos, centrado en datos y completamente descentralizado que no requiera actualizaciones lote por lote de un modelo en un servidor central, y que pueda lograr una alta precisión con bajos costos de red. incluso en conjuntos de datos que no son IID. En este documento, revelamos una implementación novedosa e independiente de los datos de un robusto algoritmo de entrenamiento de IA descentralizado (DAITA)). Combinamos varias técnicas, como el aprendizaje federado15, la destilación del conocimiento34 y un marco escalable basado en patrones o gráfico acíclico dirigido (DAG). Nuestro algoritmo implementa una simplificación rentable de la capacitación distribuida completa, verifica las violaciones de seguridad y utiliza un promedio ponderado para evitar la reconstrucción de cualquier dato.

En primer lugar, consideramos un conjunto de datos de imágenes no médicas de gatos y perros35, donde los resultados reales se conocían definitivamente, y se inyectaron datos ruidosos sintéticos en el conjunto de datos para simular distribuciones desequilibradas de datos del mundo real y escenarios de datos de baja calidad. Se implementaron diferentes configuraciones de nodos y clústeres. Dada la mejor configuración experimental para este conjunto de datos no médicos, la técnica se aplicó a un conjunto de datos de embriones obtenidos de múltiples clínicas de FIV para probar el rendimiento en un escenario del mundo real.

La fuente y composición del conjunto de datos no médicos se describe en "Procedimiento de entrenamiento" en la sección "Métodos". La configuración de nodos distribuidos (fuentes de datos) y clústeres (grupos de nodos) utilizados en los experimentos se muestra en la Fig. 1. A continuación, se resumen los resultados clave de tres escenarios de capacitación descentralizados.

Ilustraciones de 5 nodos (a), 15 nodos (b) con escenarios de un solo clúster y 5 nodos cada uno en el escenario de 3 clústeres (c).

En estos experimentos, se utilizó una configuración de 5 nodos y 1 grupo, como se ilustra en la Fig. 1a, junto con su "Procedimiento de entrenamiento" descrito en la sección "Métodos". Se entrenó un modelo \({\mathbb{M}}^{1}\) usando un conjunto de datos de transferencia a través de destilación y usando la pluralidad de todos los generalistas entrenados como sus modelos maestros. El modelo final y los pesos se obtuvieron con base en la época que reportó la mayor precisión balanceada en el conjunto de validación.

Un segundo modelo \({\mathbb{M}}^{2}\) fue creado por el conjunto de todos los modelos generalistas entrenados sin el uso de destilación de conocimiento. Este proceso puede ocurrir en un servidor separado donde no hay restricciones para descargar el conjunto de datos de transferencia a la máquina local. Los resultados de estos dos modelos se comparan con los resultados de referencia, que representan el entrenamiento tradicional en todos los datos centralizados en un nodo.

Los resultados que se muestran en la Tabla 1 confirman que el algoritmo de entrenamiento descentralizado funciona bien en comparación con los resultados de referencia centralizados. Al usar un conjunto de datos limpio, se notificó una diferencia mínima en la precisión entre el entrenamiento descentralizado (\({\mathbb{M}}^{1}\) y \({\mathbb{M}}^{2}\)) y los resultados de referencia centralizados.

Cuando se usa un conjunto de datos ruidoso, la Tabla 1 muestra que el algoritmo de entrenamiento descentralizado (\({\mathbb{M}}^{1}\)) funciona mejor (+ 2,7 % de precisión) que la línea de base centralizada. El experimento se repitió varias veces usando diferentes configuraciones de conjuntos de datos, y se logró una precisión mejorada similar usando entrenamiento descentralizado. Este resultado fue inesperado y significativo al demostrar la utilidad de DAITA para la privacidad de los datos, el rendimiento (precisión y generalización) y la capacidad de entrenar de manera sólida en presencia de datos ruidosos (de mala calidad). Es probable que ocurran datos ruidosos en la mayoría de las situaciones del mundo real, particularmente en una situación descentralizada donde hay múltiples propietarios de datos y una transparencia de datos limitada. Sin embargo, todos los modelos de especialistas locales mostraron una capacidad de generalización reducida en comparación con el modelo de referencia, ya que tienen acceso a conjuntos de datos de entrenamiento mucho más pequeños que el conjunto de entrenamiento de referencia.

La Tabla 1 también muestra que el modelo entrenado sin utilizar la destilación de conocimiento (\({\mathbb{M}}^{2}\)) se desempeñó peor (− 1,5 % de precisión) que la línea de base porque el conjunto de generalistas individuales emerge localmente en cada nodo. Por lo tanto, este paso adicional de crear un conjunto se ignorará mientras que el uso de la destilación de conocimiento se enfatizará por ahora, para simplificar el diseño experimental, mientras se examinan más opciones de un conjunto de transferencia.

Dado que los resultados experimentales para el conjunto de entrenamiento limpio son similares a los resultados de la línea de base y están cerca del 100 % de precisión máxima, en las siguientes secciones, todos los experimentos se realizaron solo en los conjuntos de datos de validación de entrenamiento ruidosos, con una precisión de la línea de base inferior al 75 %. para evaluar mejor las variaciones entre los diferentes enfoques de formación descentralizados. Si bien la precisión total y la precisión equilibrada tienen un valor similar, como se muestra en la mitad inferior de la Tabla 1, el modelo final entrenado en el conjunto de transferencia muestra su superioridad con respecto a los resultados de referencia cuando se utiliza la destilación de conocimiento (las precisiones de clase 1 superan las de clase 0 debido a la distribución de clase desequilibrada y la cantidad desigual de ruido sintetizado para cada clase).

El algoritmo en "Experimentos que comparan conjuntos de datos limpios y ruidosos" requiere un conjunto de transferencia separado; sin embargo, en la práctica, es posible que no esté disponible un conjunto de transferencia separado. En ese caso, los datos existentes en cada nodo pueden desempeñar un papel como conjunto de transferencia. En esta sección, investigamos empíricamente varias opciones para la elección del conjunto de transferencia. La Figura 2 compara los resultados de los siguientes experimentos:

Dc-i: después de continuar con el entrenamiento en los datos de 5 nodos usando la topología DAG que se muestra en la Fig. 1a, y usando la destilación de conocimiento de múltiples maestros, \({\mathbb{M}}^{1}\) finalmente se entrena en su paso final con los datos de un solo nodo (datos del i-ésimo nodo), como conjunto de transferencia para \({\mathbb{M}}^{1}\).

Dc-m1: representa el escenario optimista donde todos los datos de los nodos se pueden recopilar colectivamente y Dc-m1 es el resultado cuando \({\mathbb{M}}^{1}\) se entrena en este conjunto de transferencia colectiva.

Dc-m2: Representa el escenario realista de preservación de la privacidad de los datos, donde se utilizan varios conjuntos de transferencia. \({\mathbb{M}}^{1}\) viajará a cada nodo y, a su vez, tomará los datos de cada nodo como su conjunto de transferencia. El modelo final se entrena en los datos locales (visto como un conjunto de transferencia local) y consulta el conocimiento de la pluralidad de modelos generalistas entrenados. Dado que el proceso requiere una amplia transferencia de datos, el modelo final y todos los Estudiantes capacitados se transfieren a cada nodo solo durante una ronda (ver Fig. 1a).

Comparación de los resultados del modelo descentralizado para diferentes escenarios de conjuntos de transferencia. La línea de base indica un experimento en el que todos los datos están centralizados y el entrenamiento se produce en este nodo central. Dc-1 a Dc-4 se refieren a experimentos en los que se eligen nodos individuales (1–4) como el único conjunto de transferencia. Dc-m1 indica un escenario donde ocurre el entrenamiento descentralizado, pero el conjunto de transferencia es el conjunto centralizado teórico de todos los datos. Dc-m2 indica un escenario en el que al entrenamiento descentralizado le sigue un proceso final en el que todos los modelos finales se destilan juntos en cada nodo en el término, con un recorrido completo de todos los nodos.

Tenga en cuenta que la intención de la Fig. 2 es específicamente comparar el rendimiento en un escenario descentralizado dado, para diferentes opciones de conjunto de transferencia. Tenga en cuenta que se usó un conjunto de validación compartido para todos los modelos descentralizados, y este conjunto fue idéntico al que se usó en el entrenamiento de referencia. El conjunto de validación se colocó en un solo nodo donde todos los modelos descentralizados eventualmente podrían moverse para informar sobre el conjunto de validación.

En los experimentos Dc-1–4, el conjunto de transferencia se eligió para ser un conjunto de datos en uno de los nodos solamente. Esto se compara con un escenario en el experimento Dc-m1 donde un conjunto de transferencia teórico consta de todos los datos centralizados. Por el contrario, en el experimento Dc-m2 se lleva a cabo un enfoque descentralizado que preserva la privacidad, en el que cada modelo final en cada nodo se envía a todos los demás nodos, para destilarse en los datos de cada nodo como un conjunto de transferencia, utilizando así datos combinados como una transferencia. conjunto sin transferir los datos privados de ningún nodo.

La figura 2 demuestra que el rendimiento de casi todos los modelos de IA descentralizados supera el resultado de referencia. Incluso si el conjunto de transferencia es tan pequeño como los datos de un solo nodo, los resultados de los experimentos Dc-1 a Dc-4 siguen siendo similares al resultado de referencia. En cuanto al uso de conjuntos de transferencia múltiple, ambos experimentos Dc-m1 y Dc-m2 muestran una mejora significativa en la precisión (en un 9 % y un 11 %, respectivamente) en comparación con los resultados de referencia. Esto sugiere que una estrategia de combinación sería beneficiosa para el conjunto de transferencia. De hecho, el modelo creado para el experimento Dc-m2 supera el rendimiento del modelo para Dc-m1, donde los datos están centralizados. Esto se debe a que Dc-m2 tiene: (a) un orden de recorrido a través de los nodos (un enfoque DAG basado en patrones); y (b) un nuevo hiperparámetro correspondiente al número total de épocas en cada nodo, que se puede ajustar para lograr resultados óptimos.

Dado que el experimento Dc-m2 se consideró empíricamente como la metodología más robusta y factible para usar datos como conjunto de transferencia, se utilizó en los siguientes experimentos.

Para probar la escalabilidad de DAITA, se exploró un escenario de 15 nodos. Se consideran dos tipos de topologías DAG, a saber, 1 clúster (consulte la Fig. 1b) y 3 clústeres (consulte la Fig. 1c) con distribuciones uniformes de nodos. Los modelos descentralizados se entrenarán utilizando estos dos arreglos de agrupación.

Probamos específicamente la influencia de la cantidad de épocas en cada nodo en el rendimiento del modelo de IA descentralizado. Para cada topología, los modelos descentralizados finales se entrenaron usando de 3 a 20 épocas, y los resultados de precisión correspondientes se denotan como Dc-\(i\) e donde \(i\in \{\mathrm{3,5},\mathrm {8,10,15,20}\}\). Por ejemplo, Dc-3e denota el enfoque en el que el modelo descentralizado final se envía a cada nodo una vez y luego se entrena localmente con 3 épocas. Todos los resultados informados están en el conjunto de prueba. El término "Best on Validation" en la Fig. 3 se usa para indicar los resultados de los modelos que se seleccionaron en función de la mejor precisión equilibrada en el conjunto de validación. El término "Best on Test" se utiliza para denotar los resultados que se seleccionan con la mejor precisión equilibrada en el conjunto de prueba. Los resultados "Best on Test" se informan únicamente con el fin de evaluar la mejor capacidad predictiva del modelo.

Comparación de experimentos descentralizados de 15 nodos en los que se altera y compara el número de épocas a nivel de nodo para cada nodo. Para todo el entrenamiento a nivel de nodo de k épocas antes de transferirse a los nodos vecinos, el experimento se denota como Dc-ke. Un escenario de agrupación en clústeres en el que 15 nodos se dividen en 3 clústeres de 5 nodos cada uno se compara con los resultados de un anillo completo de 15 nodos.

La agrupación de nodos, también descrita como el escenario de 3 clústeres, se utilizó para mejorar la escalabilidad de la técnica de IA descentralizada. El entrenamiento de IA descentralizado se llevó a cabo dentro de cada grupo individual de nodos al mismo tiempo, luego se realizó un entrenamiento adicional entre grupos, de manera jerárquica, donde cada grupo representa un solo nodo. Este enfoque define el DAG, mejora el equilibrio de carga, reduce la cantidad de modelos generalistas capacitados que deben transferirse entre nodos y, por lo tanto, mejora la eficiencia y el costo de la transferencia de datos, y el tiempo de capacitación general.

El rendimiento deficiente del agrupamiento de nodos se debe principalmente a que los modelos generalistas de todo el clúster solo visitan los datos de cada nodo una vez dentro de un clúster determinado, como se puede ver en la figura 3 para el escenario de 3 clústeres. Aunque el modelo descentralizado final \({\mathbb{M}}^{c}\) tiene acceso a todos los datos en todos los clústeres, una sola visita a cada nodo no es suficiente para entrenar adecuadamente \({\mathbb{M} }^{c}\). El tamaño de los datos del nodo es importante; sin embargo, los resultados que se muestran en la Fig. 3 indican que la configuración de agrupamiento es un factor importante que contribuye a la disminución de la precisión. Dado que la agrupación en clústeres es necesaria para garantizar la escalabilidad en una situación del mundo real, una mayor cantidad de clústeres puede reducir aún más la precisión de \({\mathbb{M}}^{c}\). Los siguientes experimentos confirmarán que cuando \({\mathbb{M}}^{c}\) viaja a cada nodo dentro de los clústeres más de una vez, su precisión y generalización pueden aumentar a un nivel comparable con los resultados de referencia.

Los resultados de la Tabla 2 muestran que cuando \({\mathbb{M}}^{c}\) visita cada nodo al menos tres veces, la precisión del modelo final mejora. Es importante destacar que la precisión de \({\mathbb{M}}^{c}\) puede superar los resultados de precisión de referencia en aproximadamente un 3 % en promedio. Los escenarios en la Tabla 2 se denotan Dc-1e-5t y Dc-2e-5t, lo que representa \({\mathbb{M}}^{c}\) visitando cada nodo 5 veces y el número de épocas en cada nodo siendo 1 o 2, respectivamente. Otra observación que no se muestra en la Fig. 3, pero que se puede ver aquí, es que las precisiones "Best on Validation" por clase de los modelos de IA descentralizados están mucho más equilibradas que los resultados de referencia, lo que representa una mejora de precisión de al menos un 14 %. para la Clase 0. La técnica de capacitación descentralizada y la integración de destilación basada en el conocimiento han demostrado, hasta cierto punto, una capacidad para adaptarse a la distribución de clase desequilibrada en este caso.

Existe una compensación entre el costo de transferencia de la red y la precisión del modelo de IA final. Empíricamente, el modelo final muestra un mayor rendimiento cuando se le proporciona una cantidad suficiente de épocas de entrenamiento para aprender de los datos en cada nodo. Como resultado, un enfoque DAG basado en patrones con un número ajustable de épocas antes de la transferencia del modelo generalista a otro nodo abstrae efectivamente el problema de optimizar los costos de transferencia de red contra la precisión de una búsqueda de hiperparámetros, lo que permite especificar un umbral de precisión deseado. para un problema dado, manteniendo la escalabilidad.

Considere un ejemplo resuelto en el que hay 5 nodos dispuestos en un anillo para nuestro enfoque de entrenamiento descentralizado, según la Fig. 1a, lo que da como resultado un modelo \({\mathbb{M}}^{c}\). Como comparación, considere una arquitectura cliente-servidor de 4 trabajadores y 1 maestro para el entrenamiento distribuido tradicional, lo que da como resultado un modelo \({\mathbb{M}}^{d}\). Suponga que cada modelo se entrena para 100 épocas con tamaño de lote 16 en el conjunto de datos de 4500 imágenes.

Usando nuestro enfoque descentralizado, propongamos que \({\mathbb{M}}^{c}\) se entrenará con datos de 5 nodos de tamaño uniforme (900 imágenes), usando 5 modelos de profesores y destilación de conocimiento. Durante el entrenamiento, se supone que \({\mathbb{M}}^{\mathrm{c}}\) se mueve a cada nodo, junto con los 5 modelos de Profesor, y se entrena durante 2 épocas usando datos locales antes de moverse a el siguiente nodo. Dado que cada modelo debe transferirse al almacenamiento local del nodo, se debe realizar una operación de transferencia de peso del modelo cada vez. Si el modelo \({\mathbb{M}}^{\mathrm{c}}\) atraviesa toda la topología de 5 nodos durante 10 rondas, cada modelo de profesor en cada nodo entrena durante 2 épocas * 5 nodos (cada modelo de profesor trenes en cada nodo) * 10 rondas = 100 épocas totales. Esto requiere 5 nodos * 10 rondas * (5 modelos de profesor + 1 modelo final \({\mathbb{M}}^{\mathrm{c}}\)) = 300 operaciones de transferencia de peso del modelo.

En el caso de un entrenamiento completamente distribuido, suponga que \({\mathbb{M}}^{\mathrm{d}}\) entrena en 1125 imágenes asignadas en cada uno de los 4 nodos trabajadores, donde el nodo maestro no tiene datos, y actúa como orquestador. Para una ejecución de entrenamiento distribuida, una época contendría 1125/16 ≈ 70,3 lotes de tamaño 16. La cantidad de peso del modelo transferido para un solo lote es 4 trabajadores * 2 veces (ida y vuelta) = 8 operaciones de transferencia por lote entre 4 trabajadores y el nodo maestro 1. Si se supone que \({\mathbb{M}}^{\mathrm{d}}\) se entrena con 100 épocas, la cantidad total de veces que se transfiere el peso de la red sería 70,3 lotes * 8 transferencias por lote operaciones * 100 épocas = 56.240 operaciones de transferencia de peso del modelo. Por lo tanto, al usar la capacitación descentralizada, mientras que la precisión se mantiene en un nivel comparable, el número promedio de transferencias se reduce en 187,5 veces, lo que representa una reducción de 56 000 a 300 transferencias. El número de transferencias de datos escala linealmente con el número de nodos involucrados. El algoritmo de entrenamiento descentralizado basado en el conocimiento propuesto ayuda a optimizar la cantidad de transferencia de datos y, en última instancia, minimiza los costos de transferencia de datos, especialmente cuando el entrenamiento de IA descentralizado se escala con muchos nodos.

Los resultados de la Figura 3 (1 grupo) muestran que la precisión de los modelos descentralizados puede superar la línea de base, particularmente cuando el modelo final se entrena con 5 u 8 épocas en cada nodo, lo que representa una mejora de hasta el 15 % en la precisión. Una observación interesante es que cuando el modelo final permanece en cada nodo durante más tiempo (es decir, un mayor número de épocas), la precisión del conjunto de prueba se vuelve peor que la precisión de la línea de base. Esto se debe a que el modelo descentralizado es propenso a sobreajustar los datos del nodo local y 'olvida' lo que aprendió en los nodos recorridos anteriormente.

Los resultados de la Figura 3 (3 grupos) muestran que la precisión de los modelos de IA descentralizados se redujo en aproximadamente un 10 % en comparación con el modelo de IA descentralizado correspondiente que utiliza la configuración de 1 grupo. Los modelos finales también son menos precisos que los resultados de referencia. Al igual que con 1 clúster, cuando el modelo final se entrena con más épocas en cada nodo, la precisión del conjunto de prueba empeora, aunque los costos de transferencia de red esperados disminuyen.

No obstante, es de esperar el rendimiento deficiente de esta configuración y mide de manera efectiva el grado en que la agrupación de nodos afecta la capacidad de generalización y el rendimiento del modelo descentralizado final. En la sección "Métodos", describimos una técnica para abordar el rendimiento deficiente del agrupamiento de nodos mediante la optimización de los costos de transferencia de datos en comparación con la precisión del modelo.

Al considerar un conjunto de datos médicos, nos enfocamos en el problema de evaluar la viabilidad de los embriones en el sector de FIV, usando un algoritmo existente llamado Life Whisperer Viability, una aplicación comercial de ML en el mercado para la selección de embriones7. Un embrión viable se define como aquel que conduce a un embarazo clínico para la paciente de FIV una vez transferida, y se considera un embrión no viable aquel que no conduce a un embarazo clínico. Se recolectaron imágenes de embriones de múltiples clínicas. La descripción de este conjunto de datos médicos se muestra en la Tabla 4 y la Fig. 6 en la sección "Métodos" en Composición del conjunto de datos médicos.

La Figura 4 presenta el flujo de trabajo o el proceso de predicción o identificación de un embrión de entrada dado viable o no viable. El proceso se puede describir brevemente como sigue. Hay etapas de preprocesamiento y clasificación. En la etapa de preprocesamiento, se utilizó el modelo de detección entrenado para detectar el embrión de entrada (a), y los resultados se representan como cuadros delimitadores (b). Luego, las imágenes se recortaron antes de introducirlas en otro modelo de segmentación que se entrenó con la máscara de imagen embrionaria (c) y, en última instancia, el proceso produce dos imágenes más (imágenes segmentadas de zona pelúcida (Zona) y segmentadas de cavidad intrazonal (IZC)) en además de la imagen recortada (completa) (d). En la etapa de clasificación, estos tres tipos de imágenes se utilizaron como entrada para el modelo de clasificación que se denomina modelo de IA (es decir, un modelo \({\mathbb{M}}\) en el entrenamiento descentralizado). Este modelo clasificador desempeñaría un papel central en la predicción de los resultados viables o no viables de las imágenes embrionarias de entrada.

El flujo de trabajo de predecir/identificar la viabilidad de una imagen embrionaria.

Se utilizó una configuración de 1 clúster de 5 nodos, donde cada nodo contenía datos de diferentes clínicas. Se realizaron varias ejecuciones de entrenamiento de modelos con diferentes opciones de arquitecturas de modelos, parámetros en los que las variables de la función de pérdida de 3 niveles se consideraron una adición a los hiperparámetros ajustables del modelo de IA (consulte la Información complementaria S1). Para la formación centralizada, se pueden implementar los dos niveles de ponderación, a saber, la ponderación de muestra y de clase, mientras que para el modelo descentralizado, se aplicarían las ponderaciones de los tres niveles.

Los mejores modelos de IA se seleccionaron en función del mejor valor de pérdida de registro en el conjunto de validación, que representa una métrica de selección clave que indica la generalización de una manera más sólida que la precisión equilibrada, para conjuntos de datos médicos.

Luego se obtuvieron los resultados de los conjuntos de prueba limpios y ruidosos y se compararon entre los modelos de IA centralizados y descentralizados (\({\mathbb{M}}^{c}\)) de referencia.

La Tabla 3 presenta la precisión total y por clase de los modelos de IA de referencia y descentralizados para el conjunto de datos de embriones. Sus resultados son muy comparables con ligeros cambios entre las precisiones por clase. \({\mathbb{M}}^{c}\) dio resultados ligeramente superiores en términos de precisión total, con aproximadamente un 2 % más de precisión de predicción para embriones viables en comparación con los resultados de referencia.

La Figura 5 muestra los resultados del modelo \({\mathbb{M}}^{c}\) para los datos de centros clínicos individuales asignados en el conjunto de prueba limpio (a la izquierda) y en el conjunto de prueba ciego ruidoso (a la derecha ). Las precisiones caen en un rango de 56,67 % a 87,77 % para datos de clínicas en el conjunto de prueba y de 52,55 % a 70,63 % para datos de clínicas en el conjunto de prueba ciego ruidoso. Un conjunto de datos clínicos (MISA) que tuvo el peor desempeño en el conjunto de datos limpio es el conjunto más pequeño en general y, por lo tanto, un conjunto de datos no representativo (que representa el 3% del conjunto de prueba). Sin embargo, las precisiones en diferentes clínicas son bastante consistentes en general.

Rendimiento de precisión del modelo descentralizado para datos clínicos individuales en el conjunto de prueba limpio (gráfico de la izquierda) y en el conjunto de prueba ciego ruidoso (gráfico de la derecha).

El entrenamiento de modelos de IA generalizables e imparciales utilizando diversos conjuntos de datos médicos del mundo real que se distribuyen, son privados y de baja calidad plantea desafíos importantes en términos de precisión, costo y escalabilidad, particularmente en mercados altamente regulados como el de la atención médica.

La implementación de DAITA incorpora la destilación del conocimiento, lo que permite que el entrenamiento del modelo escalable se ejecute a un costo mucho más bajo en comparación con el entrenamiento distribuido, porque se puede lograr sin el tráfico de red y los costos del servidor asociados con un procedimiento de recopilación de gradientes lote por lote. Además, el DAITA se puede organizar en una estructura basada en patrones o DAG, lo que se presta a la automatización y la optimización de costos/precisión.

Sorprendentemente, el rendimiento final del modelo, dependiendo de la configuración elegida, puede incluso superar la precisión de referencia asociada con el entrenamiento en un conjunto de datos centralizado de la manera tradicional. Esta mejora de la precisión proporciona una mayor flexibilidad y elección en los modelos de transición de nodo a nodo, y los hiperparámetros se pueden ajustar para que el proceso de entrenamiento descentralizado se pueda tratar como un problema de optimización. En un estudio de caso de imágenes no médicas, para un problema de clasificación binaria con un nivel conocido de etiquetado incorrecto, se demostró que el rendimiento del modelo de IA aumentó hasta un 11 % por encima de la precisión de referencia.

El aumento informado en el rendimiento de conjuntos de datos ruidosos puede entenderse como originado en la capacidad estabilizadora adicional de los métodos de aprendizaje federados, como el entrenamiento de destilación a través de datos subdivididos en múltiples nodos. Cada modelo de Estudiante, entrenado con entradas destiladas de múltiples modelos de Profesor en cada nodo, combina el conocimiento de los sesgos individuales derivados de cada nodo para estabilizar el entrenamiento del modelo y, por lo tanto, naturalmente obtiene una ventaja sobre el simple entrenamiento de un solo modelo en un conjunto de datos centralizado. .

Se examinó un conjunto de datos de imágenes médicas, centrándose en el problema de clasificación binaria de la viabilidad embrionaria. Se consideró una variedad de clínicas separadas con diferentes prácticas de trabajo y diferentes niveles de ruido y calidad de imagen, que abarcan muchos de los desafíos encontrados en un escenario del mundo real que normalmente impediría obtener un modelo de IA sólido. Al adoptar una estrategia DAITA y optimizar el número total de épocas a nivel de nodo, con una ponderación de tres niveles: muestra, clase y nivel de nodo, se observó un aumento del rendimiento de hasta un 2 % en comparación con la línea base centralizada.

Una comparación con los resultados de aprendizaje profundo de última generación en imágenes médicas, incluida la segmentación de resonancia magnética de próstata21 y la mamografía de mama22, muestra que un enfoque federado de tendencias consistentes puede mejorar significativamente el rendimiento de los modelos entrenados solo en su nodo local e informar los resultados. comparable con la de un conjunto de datos centralizado39.

Tenga en cuenta que, mientras que el uso de un conjunto de datos limpio dio lugar a una diferencia mínima en la precisión entre el entrenamiento descentralizado y la línea de base, el uso de un conjunto de datos ruidoso dio lugar a una diferencia mucho mayor entre los dos. Descubrimos que DAITA, cuando está equipado con una nueva función de pérdida (consulte la Información complementaria S1) y múltiples modelos de maestros para la destilación, da como resultado una mejora en la precisión similar a la de las técnicas de limpieza de datos39,40.

También se puede adoptar una estrategia de optimización adicional, en la que se puede reducir el número total de transferencias de modelos por época a nivel de nodo, ya sea reduciendo el hiperparámetro asociado con el número de épocas a nivel de nodo, o tratando el DAG de los nodos de manera diferente, utilizando agrupamiento, y solo transferir modelos representativos entre los clústeres, en lugar de los nodos. La agrupación reduce drásticamente el número total de transferencias de modelos necesarias, aunque a expensas de la mejora de la precisión por encima del resultado de referencia.

Notamos que abordar los problemas de privacidad de los datos y los conjuntos de datos localizados será cada vez más importante, a medida que las técnicas de ML se expandan a conjuntos de datos del mundo real cada vez más complejos en el cuidado de la salud y otras industrias que involucran datos confidenciales, con la demanda de que se generalicen correctamente en diversos conjuntos de datos con diferentes distribuciones. , sin violar la privacidad.

En el entrenamiento en conjuntos de datos distribuidos, se debe elegir una estrategia sobre cómo se dividirá la carga de trabajo entre los nodos de cómputo. En un método, el paralelismo de datos, el conjunto de datos se divide en particiones. Entre dos formas de paralelismo de datos, a saber, el entrenamiento totalmente distribuido y el 'patrón' (o entrenamiento basado en DAG), como se describe en la información complementaria S1, mostramos que el método Pattern exhibe una escalabilidad y rentabilidad superiores15,16,17. La combinación del método Pattern con la destilación puede mejorar aún más la eficiencia del algoritmo de entrenamiento, de una manera que permite a un ingeniero de ML optimizar una solución, ya sea por costo o precisión.

En este artículo, consideramos un problema de anillo de n nodos, donde cada uno de los n nodos sufre individualmente un problema de datos pequeños. Entrenamos con éxito un modelo generalizable de alto rendimiento en los n nodos. Además, exploramos un algoritmo de agrupamiento novedoso, mediante el cual los costos de transferencia del modelo (que se escalan cuadráticamente a medida que aumenta la cantidad de nodos) se pueden reducir aún más al limitar los nodos a los que se transfieren los modelos de profesores, dentro de un clúster. Esta topología alternativa simplifica el anillo de n nodos en m grupos de anillos separados, donde cada anillo puede contener un número diferente de nodos si se desea, y donde cada grupo se usa para producir un modelo representativo. A partir de este momento, los clústeres se tratan a todos los efectos como nodos. Por ejemplo, en el caso de un anillo de 15 nodos, con 3 clústeres de 5 nodos cada uno, esto limita las transferencias totales del modelo de \({15}^{2}=225\), a \(3\times {5 }^{2}+{3}^{2}=84\) transferencias por circuito de los nodos. Para obtener más información, consulte la Información complementaria en línea S1.

La destilación es un método poderoso que utiliza un modelo de maestro/especialista capacitado para guiar el entrenamiento de un modelo de estudiante/generalista, sin requerir directamente la transferencia costosa de actualizaciones de peso del modelo a través de los nodos para cada lote34. Esto se logra al permitir que un modelo de Profesor calcule sus resultados previstos (probabilidades y pérdidas) al mismo tiempo que el modelo de Estudiante se entrena en un nodo, en el propio conjunto de datos local del nodo (llamado conjunto de transferencia), y contribuye a la función de pérdida del modelo de Student a medida que se va entrenando. Los resultados del profesor (o etiquetas blandas) se comparan con los resultados del modelo del estudiante a través de una función de divergencia como la divergencia de Kullback-Leibler (KL)36, que compara la "distancia" relativa entre las distribuciones de salida de los dos modelos y se suma a la pérdida. función que se utiliza para entrenar, como la pérdida de entropía cruzada estándar. Se pueden usar varios modelos de Profesor para ayudar a un modelo de Estudiante al mismo tiempo, con ponderaciones diferentes, y no tienen que ser el mismo tipo de arquitectura de red neuronal, lo que lo convierte en un enfoque poderoso y general. Se pueden encontrar detalles adicionales sobre los detalles de las funciones de pérdida utilizadas y el pseudocódigo para el algoritmo de entrenamiento en la Información complementaria S1.

Por lo tanto, podemos presentar el problema de la capacitación descentralizada como simplemente un problema de optimización, en el que ahora incluimos hiperparámetros adicionales para la ponderación de estudiante-profesor (es decir, la temperatura y el parámetro alfa, que controla cuánto sesga la capacitación hacia la entrada del modelo del maestro versus el entrenamiento del modelo Student)36 y los parámetros Pattern/DAG, como el número de épocas para que resida cada Student antes de ser transferido a otro nodo, y cuántas 'rondas' en todos los nodos para calcular. El rendimiento de un modelo destilado final se puede evaluar en un conjunto de datos de transferencia determinado.

Como paso final, consideramos un proceso de 'cierre' final que exhibe una capacidad de generalización superior. Después de entrenar n modelos de Student en paralelo a través de una topología (para n nodos), los n modelos finales se destilan juntos en cada nodo, tratando el conjunto de datos local de cada nodo como un conjunto de datos de transferencia, para k épocas (a nivel de nodo), antes transferir todos los n modelos a un nodo vecino, repitiendo al menos un ciclo completo de los nodos. Este proceso final es más intensivo en transferencias de red, pero esencialmente trata todo el conjunto de datos distribuidos como un conjunto de datos de transferencia, en lugar de usar el conjunto de datos de un solo nodo como conjunto de datos de transferencia, logrando así un rendimiento más equilibrado.

Las arquitecturas modelo utilizadas en los experimentos presentados en este trabajo incluyen ResNet1837, ResNet50 y DenseNet12138 con el modelo preentrenado que utiliza el conjunto de datos de ImageNet. Los parámetros de red se seleccionan ejecutando varias ejecuciones utilizando el conjunto de datos limpio de línea base. Los valores óptimos para los hiperparámetros, como la tasa de aprendizaje, los métodos de regularización, la disminución del peso, la función de pérdida o el tamaño del lote, etc., se identificaron y luego se usaron en todos los experimentos para el entrenamiento descentralizado.

Para cada arquitectura considerada anteriormente, los pesos de red en el espacio de características se obtuvieron de un modo preentrenado en ImageNet, con cirugía de red realizada para agregar una capa completamente conectada con una salida binaria (gato/perro, o no viable/viable). , para los conjuntos de datos médicos y no médicos, respectivamente). Se agrega una capa softmax como salida final. La capacitación de los modelos locales se llevó a cabo utilizando la biblioteca PyTorch (versión 1.3.1 que incluye Torchvision versión 0.4.2; Adam Paszke, Sam Gross, Soumith Chintala y Gregory Chanan; 1601 Willow Rd, Menlo Park, CA 94025, EE. UU.), con CUDA (versión 9; Nvidia Corporation; 2788 San Tomas Expy, Santa Clara, CA 95051, EE. UU.), utilizando instancias de GPU a través de Amazon Web Services (AWS).

Tres topologías de DAG diferentes, a saber, (1) 5 nodos en 1 clúster, (2) 15 nodos en 1 clúster y (3) 15 nodos en 3 clústeres (5 nodos cada uno) como se describe con más detalle en Se desplegó la sección de información complementaria S1. Para el conjunto de datos no médicos, se utiliza un conjunto de datos de transferencia separado de 2000 imágenes limpias con tamaños de clase iguales, que es diferente de cualquier conjunto de entrenamiento, validación y prueba, para el procedimiento de entrenamiento descentralizado. Con más nodos involucrados en las topologías (2) y (3), la cantidad de imágenes asignadas en cada nodo sería menor (240 imágenes por nodo en una configuración de 15 nodos en comparación con 720 imágenes por nodo en una configuración de 5 nodos).

El conjunto de datos utilizado para los siguientes experimentos incluye imágenes de gatos y perros, tomadas de ImageNet35, con la intención de utilizar un problema de clasificación binaria como un problema conocido y solucionable en el que probar la nueva técnica de entrenamiento de IA descentralizada. Se usaron 4500 imágenes (2250 gatos y 2250 perros) para conjuntos de entrenamiento/validación, mientras que 4501 imágenes (2253 gatos y 2248 perros) se usaron como conjunto de prueba. El entrenamiento/validación se barajó y se dividió 80/20, con 3600 imágenes en el conjunto de entrenamiento y 900 imágenes en el conjunto de validación. Se supone que el conjunto de validación se puede compartir entre diferentes nodos o, de lo contrario, se supone que se mantiene separado de los datos de los nodos. Estos conjuntos de datos originales se consideran limpios ya que no hay imágenes de gatos etiquetados como "perro" y viceversa. Sin la introducción de ruido en los conjuntos de datos de entrenamiento y validación, un modelo de IA profundo entrenado se acercaría a la máxima precisión en el conjunto de prueba. Los conjuntos de datos ruidosos también ayudarían a aprovechar la complejidad del problema y demostrar las diferencias entre el nuevo entrenamiento descentralizado y un régimen de entrenamiento centralizado más convencional. Se probaron diferentes modelos en su capacidad para manejar y superar algunos niveles de ruido. Los conjuntos de datos ruidosos se crearon convirtiendo el 10 % de las etiquetas de "perro" en etiquetas de "gato" (clase 0) y el 50 % de las etiquetas de "gato" en etiquetas de "perro" (clase 1). Esto da como resultado que la cantidad de ruido que aparece en las clases "gato" y "perro", respectivamente, sea del 17 % y el 36 %. Los diferentes niveles de ruido para cada clase fueron intencionales, creando una distribución de clase desequilibrada y niveles de ruido desiguales entre dos clases. El conjunto de prueba se mantuvo limpio para poder comparar de forma fiable el rendimiento de diferentes modelos de IA.

En el escenario de 5 nodos en 1 clúster, el conjunto de datos de entrenamiento se divide equitativamente entre cada nodo (720 imágenes de entrenamiento por nodo). Los datos limpios en cada nodo contienen 360 de la clase "gato" o "perro". Si se introduce ruido, cada nodo tiene 216 imágenes de gatos y 504 imágenes de perros. En el escenario de 15 nodos, hay 240 imágenes disponibles en cada nodo con 72 imágenes etiquetadas como gato y 168 imágenes etiquetadas como perro para el caso de datos ruidosos. El número de imágenes sumadas de todos los nodos sigue siendo 3600. Los modelos centralizados se entrenaron y validaron en el conjunto centralizado de 3600 imágenes de entrenamiento y 900 imágenes de validación (limpias o ruidosas) con múltiples configuraciones de arquitectura de modelos e hiperparámetros. Se seleccionó el mejor modelo, formando una línea de base para su posterior comparación con los resultados del nuevo modelo descentralizado.

Luego, se investigó la elección del conjunto de transferencia usando los datos de un nodo como conjunto de transferencia o usando una combinación de datos de múltiples nodos. El efecto de la duración del entrenamiento (número de épocas) de un modelo de Student en cada nodo se estudió variando el número de épocas, lo que permite la determinación de límites prácticos en el número total de "épocas" (a nivel de nodo) para considerar cuando finalizar el proceso de entrenamiento a través de múltiples nodos usando el entrenamiento de destilación.

En otro escenario, los 15 nodos se dividieron en tres grupos iguales mediante el método de agrupación descrito anteriormente. Se exploró el equilibrio entre el costo de transferencia de datos (red) y la precisión del modelo, lo que proporcionó una guía sobre cómo optimizar el entrenamiento descentralizado para experimentos del mundo real.

La Tabla 4 presenta la asignación de datos a cada nodo a partir de conjuntos de datos clínicos multicéntricos.

Los tamaños de datos varían de 167 a 587 imágenes en diferentes nodos. El número total de imágenes para el conjunto de entrenamiento es 2193, en el que se extrajo aleatoriamente un conjunto de validación y representa el 20 % del conjunto de entrenamiento original. Si se implementa un modelo centralizado, todos estos datos por nodo se colocarán colectivamente en un solo servidor, independientemente de la información de la clínica. El modelo entrenado con este conjunto de datos centralizado, validado en el conjunto de validación, formará los resultados de referencia que se usarán para comparar con el modelo descentralizado entrenado con datos clínicos de 5 nodos.

El conjunto de prueba ruidoso ciego contiene errores inherentes en la clase no viable. Los embriones etiquetados como no viables pueden ser viables, pero factores ajenos a la paciente (p. ej., endometriosis grave) hacen que la paciente no quede embarazada. El conjunto de datos de Noisy Blind consta de 1198 imágenes originales recopiladas de las mismas clínicas asignadas a cuatro nodos anteriores, a saber, FANZ, IRH, OVA y MISA (esta es una combinación de conjuntos de datos más pequeños de dos clínicas), y de otras 5 clínicas invisibles, incluida Alpha Fertility (Alpha), Flinders Fertility Adelaide (Flinders), Institute for Reproductive Health (IRH), Oregon Reproductive Medicine (ORM), Safe Fertility y Washington University at St Louis (Washington). Por lo tanto, Node3 (clínica REP) contribuye solo al conjunto de entrenamiento, y el conjunto de prueba ciego ruidoso contiene representantes de 9 clínicas en total. El conjunto de pruebas ciegas clínicamente realista (aunque ruidoso) nos permitió evaluar de forma práctica el rendimiento de los modelos de IA (precisión y generalización) dentro y entre clínicas.

También se creó un conjunto de prueba limpio utilizando un nuevo método de limpieza de datos (UDC)41, a partir del conjunto de prueba ciego ruidoso. El conjunto de prueba limpio incluye 913 imágenes en las que los embriones viables permanecen casi iguales que en el conjunto de datos ruidoso original, mientras que aproximadamente la mitad de los embriones no viables se identificaron como mal etiquetados y eliminados. El conjunto de datos de prueba limpio proporciona una evaluación imparcial del rendimiento del modelo de IA.

La Figura 6 presenta los tamaños de datos de las clínicas en porcentajes. El gráfico circular de la izquierda representa el conjunto de datos de entrenamiento con asignación de 5 nodos, los gráficos del medio y de la derecha representan las distribuciones de datos clínicos para el conjunto de prueba limpio y el conjunto de prueba ciego ruidoso, respectivamente. En general, los datos de imágenes proporcionados por varias clínicas difieren en el tamaño/resolución de la imagen, y en el tipo de cámara y la configuración focal. Los conjuntos de prueba son más amplios en cuanto al número de clínicas participantes y contienen conjuntos de datos de tamaño en gran medida desigual aportados por esos centros clínicos. Esta diversidad plantearía desafíos importantes para un clasificador en términos de generalización a través de datos de diferentes clínicas.

El tamaño de los datos de las clínicas se muestra en porcentajes. Conjunto de datos de entrenamiento (izquierda) con datos de clínicas asignados a 5 nodos, conjunto de prueba limpio (centro) y conjunto de prueba ciego ruidoso (derecha).

Este estudio estuvo exento de revisión y aprobación ética, y del requisito de consentimiento informado debido a la naturaleza retrospectiva de los análisis y la desidentificación de todos los datos. La exención fue confirmada por el comité de la Junta de Revisión Institucional de Sterling (Sterling Independent Services, Inc.) ID n.º 6467, para el protocolo ID LW-C-001A. Este estudio se realizó de acuerdo con las directrices de la Declaración de Helsinki de 1975, modificada.

Los conjuntos de datos generados durante el estudio actual están disponibles del autor correspondiente a pedido razonable. Los conjuntos de datos no médicos están disponibles públicamente. Los conjuntos de datos médicos no están disponibles públicamente debido a restricciones de privacidad de datos.

Esteva, A. et al. Una guía para el aprendizaje profundo en el cuidado de la salud. Nat. Medicina. 25, 24–29 (2019).

Artículo CAS Google Académico

Cahan, EM, Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, DL Poniendo los datos antes que el algoritmo en big data que aborda la atención médica personalizada. Dígito NPJ. Medicina. 2, 78 (2019).

Fitzgerald, RC Los grandes datos son cruciales para la detección temprana del cáncer. Nat. Medicina. 26, 19–20 (2020).

Artículo CAS Google Académico

Ngiam, KY & Khor, W. Big data y algoritmos de aprendizaje automático para la prestación de atención médica. Lanceta Oncol. 20(5), e262–e273 (2019).

Artículo Google Académico

McCoy, LG, Banja, JD, Ghassemi, M. y Celi, LA Garantizar que el aprendizaje automático para el cuidado de la salud funcione para todos. BMJ Health Care Information, 27(3) (2020).

Zou, J. & Schiebinger, L. Garantizar que la IA biomédica beneficie a diversas poblaciones. EBioMedicine 67, 103358 (2021).

Artículo Google Académico

VerMilyea, M. et al. Desarrollo de un modelo de evaluación basado en inteligencia artificial para la predicción de la viabilidad embrionaria utilizando imágenes estáticas capturadas por microscopía de luz óptica durante la FIV. Tararear. reprod. 35(4), 770–784 (2020).

Artículo CAS Google Académico

Ng, D., Lan, X., Yao, MM, Chan, WP y Feng, M. Aprendizaje federado: un esfuerzo de colaboración para lograr mejores modelos de imágenes médicas para sitios individuales que tienen pequeños conjuntos de datos etiquetados. cuant. Imagenología Med. Cirugía 11(2), 852–857 (2021).

Artículo Google Académico

McGraw, D. & Mandl, KD Protecciones de privacidad para fomentar el uso de datos digitales relevantes para la salud en un sistema de salud de aprendizaje. Dígito NPJ. Medicina. 4, 2 (2021).

Bradford, L., Aboy, M. & Liddell, K., Transferencias internacionales de datos de salud entre la UE y los EE. UU.: un enfoque específico del sector para que los EE. UU. garanticen un nivel de protección "adecuado". J. Ley Biosci. 7(1) (2020).

Just, BH et al., "Por qué la coincidencia de pacientes es un desafío: investigación sobre las discrepancias de datos del índice maestro de pacientes (MPI) en campos de identificación clave. Perspect. Health Inf. Manag. 13, primavera (2016).

Zarour, M. et al. Garantizar la integridad de los datos de la información sanitaria en la era de la salud digital. Saludc. Tecnología Letón. 8(3), 66–77 (2021).

Artículo Google Académico

Ehsani-Moghaddam, B., Martin, K. & Queenan, JA Calidad de los datos en el cuidado de la salud: un informe de experiencia práctica con los datos de la red de vigilancia centinela de atención primaria canadiense. Información de salud Administrar J. 50(1/2), 88–92 (2021).

Google Académico

McMahan, HB, Moore, E., Ramage, D., Hampson, S. & Aguera y Arcas, B. Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados. En Actas de la 20.ª Conferencia Internacional sobre Inteligencia Artificial y Estadísticas, 1273–1282 (2017).

Bonawitz, K., et al. Hacia el aprendizaje federado a escala: diseño del sistema. En Actas de la 2.ª Conferencia SysML (2019).

Kairouz, H., et al. Avances y problemas abiertos en el aprendizaje federado. Fundamentos y Tendencias®. Mach. Aprender. 14(1) (2021).

Lim, WYB et al. Aprendizaje federado en redes perimetrales móviles: una encuesta exhaustiva. Común IEEE. sobrev. Tutor. 22(3), 2031–2063 (2020).

Artículo Google Académico

Dayan, I. et al. Aprendizaje federado para predecir resultados clínicos en pacientes con COVID-19. Nat. Medicina. 27, 1735-1743 (2021).

Artículo CAS Google Académico

Hallock, H., Marshall, SE, 't Hoen, PAC, Nygård, JF, Hoorne, B., Fox, C., Alagaratnam, S. Redes federadas para el análisis distribuido de datos de salud. Frente. Salud pública. 9, 712569 (2021).

Brisimi, TS et al. Aprendizaje federado de modelos predictivos a partir de la Historia Clínica Electrónica federada. En t. J.Med. Informar. 112, 59–67 (2018).

Artículo Google Académico

Sarma, KV et al. El aprendizaje federado mejora el rendimiento del sitio en el aprendizaje profundo multicéntrico sin compartir datos. Mermelada. Medicina. Informar. Asoc. 28(6), 1259–1264 (2021).

Artículo Google Académico

Roth, HR, et al., Aprendizaje federado para la clasificación de densidad mamaria: una implementación en el mundo real, en Adaptación de dominio y transferencia de representación, y aprendizaje distribuido y colaborativo, Springer, 181–191 (2020).

Sheller, MJ et al. Aprendizaje federado en medicina: facilitar colaboraciones multiinstitucionales sin compartir datos de pacientes. ciencia Rep. 10(1), 12598 (2020).

Artículo ANUNCIOS Google Académico

Warnat-Herresthal, S. et al. Aprendizaje de enjambres para el aprendizaje automático clínico descentralizado y confidencial. Naturaleza 594 (7862), 265–270 (2021).

Artículo ADS CAS Google Académico

Tedeschini, BC et al. Aprendizaje federado descentralizado para redes de salud: un estudio de caso sobre segmentación de tumores. Acceso IEEE 10, 8693–8708 (2022).

Artículo Google Académico

Yang, Q., Liu, Y., Chen, T. y Tong, Y. Aprendizaje automático federado: concepto y aplicaciones. ACM Trans. Intel. sist. Tecnología 10, 2 (2019).

Google Académico

McMahan, HB, Moore, E., Ramage, D., Hampson, S. y Arcas, BA Y, Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados. En Int. Conf. Artefacto Intel. Estadística AÍSTATS (2017).

Huang, Y. et al. Aprendizaje federado personalizado entre silos en datos que no son IID. proc. Conferencia AAAI Artefacto Intel. 35(9), 7865–7873 (2021).

Google Académico

Kaissis, GA et al. Aprendizaje automático seguro, que preserva la privacidad y federado en imágenes médicas. Nat. Mach. Intel. 2, 305–311 (2020).

Artículo Google Académico

Madi, A., et al., Un marco de aprendizaje federado seguro que utiliza cifrado homomórfico y computación verificable. En 2021 Reconciliación de análisis de datos, automatización, privacidad y seguridad: un desafío de Big Data (RDAAPS), 2021, págs. 1 a 8.

Stripelis, D., et al., Análisis seguro de neuroimagen mediante aprendizaje federado con cifrado homomórfico. En Proc. SPIE 12088, 17° Simposio Internacional de Procesamiento y Análisis de Información Médica, 1208814 (2021).

Rabenseifner, R. Optimización de Operaciones de Reducción Colectiva. Conferencia Internacional sobre Ciencias Computacionales (ICCS) (2004).

Gibiansky, A. Acercando las técnicas de HPC al aprendizaje profundo. Obtenido de http://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/ (2017). Consultado el 24 de enero de 2022.

Gou, J., Yu, B., Maybank, SJ y Tao, D. Destilación del conocimiento: una encuesta. En t. J. Cómputo. Vis. 129, 1789–1819 (2021).

Artículo Google Académico

Deng, J., et al., Imagenet: Una base de datos de imágenes jerárquicas a gran escala. Cómputo IEEE. Soc. Conf. computar Vis. Reconocimiento de patrones. 248–255 (2009).

Kullback, S. & Leibler, RA Sobre información y suficiencia. Ana. Matemáticas. Estadística 22(1), 79–86 (1951).

Artículo MathSciNet Google Académico

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. Cómputo IEEE. Soc. Conf. computar Vis. Reconocimiento de patrones. 770–778 (2016).

Huang, G., Liu, Z., Van Der Maaten, L. & Weinberger, KQ Redes convolucionales densamente conectadas. Cómputo IEEE. Soc. Conf. computar Vis. Reconocimiento de patrones. 4700–4708 (2017).

Corporación NVIDIA. Aprendizaje federado para el cuidado de la salud con NVIDIA Clara. (2021).

Xue, C., Yu, L., Chen, P., Dou. P. y Heng, P. -A. Clasificación sólida de imágenes médicas a partir de datos etiquetados con ruido con capacitación conjunta guiada por representación global y local. Trans. IEEE. Medicina. Imágenes (2021).

Dakka, MA et al. Detección automatizada de datos de mala calidad: estudios de casos en el cuidado de la salud. ciencia Rep. 11(1), 18005 (2021).

Artículo ADS CAS Google Académico

Descargar referencias

Este artículo fue financiado por Presagen Pty Ltd, Gobierno de Australia Meridional: Fondo de investigación, comercialización y puesta en marcha.

Estos autores supervisaron conjuntamente este trabajo: JMM Hall y D. Perugini.

Presagen, Adelaida, SA, 5000, Australia

TV Nguyen, MA Dakka, SM Diakiw, M. Perugini, JMM Hall y D. Perugini

Escuela de Informática y Tecnología de la Información, Universidad de Wollongong, Wollongong, NSW, 2522, Australia

televisión nguyen

Facultad de Ciencias Matemáticas, Universidad de Adelaide, Adelaide, SA, 5005, Australia

MA Dakka

Fertilidad Ovation, Austin, TX, 78731, EE. UU.

MD VerMilyea

Centro de Fertilidad de Texas, Austin, TX, 78731, EE. UU.

MD VerMilyea

Facultad de Medicina de Adelaide, Universidad de Adelaide, Adelaide, SA, 5000, Australia

M. Perugini

Centro de Excelencia del Consejo Australiano de Investigación para Biofotónica a Nanoescala, Adelaide, SA, 5005, Australia

Salón JMM

Facultad de Ciencias Físicas, Universidad de Adelaide, Adelaide, SA, 5005, Australia

Salón JMM

También puede buscar este autor en PubMed Google Scholar

DP inventó el concepto, TVN diseñó el algoritmo, MAD y JMMH y TVN y DP concibieron los experimentos, MAD y JMMH y TVN realizaron los experimentos, MV proporcionó datos clínicos y revisión clínica, DP y MAD y JMMH y TVN y SMD y MP redactaron el manuscrito y proporcionó una revisión crítica de los resultados.

Correspondencia a TV Nguyen.

JMMH, DP y MP son copropietarios de Presagen. SMD y TVN son empleados de Presagen y poseen opciones sobre acciones en Presagen. MAD es un ex empleado de Presagen. MDV es miembro del Consejo Asesor Clínico y Científico de Presagen (CSAB) y posee opciones sobre acciones en Presagen. MDV también cuenta con el apoyo de Ovation Fertility para conferencias y asistencia a reuniones, y es miembro de Fujifilm Irvine Scientific SAB. Solicitante de patente provisional: Presagen Pty Ltd Fecha de presentación: 23 de septiembre de 2020 Título: Inteligencia artificial descentralizada (IA)/Sistema de capacitación de aprendizaje automático Número: 2021056043 Estado: Pendiente Solicitante de patente provisional: Presagen Pty Ltd Fecha de presentación: 30 de marzo de 2021 Título: Método para Inteligencia Artificial (IA) Número de selección de modelo: 2021195689 Estado: Pendiente.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nguyen, TV, Dakka, MA, Diakiw, SM et al. Un novedoso enfoque de aprendizaje federado descentralizado para capacitar en datos médicos privados distribuidos globalmente, de baja calidad y protegidos. Informe científico 12, 8888 (2022). https://doi.org/10.1038/s41598-022-12833-x

Descargar cita

Recibido: 18 febrero 2022

Aceptado: 06 mayo 2022

Publicado: 25 mayo 2022

DOI: https://doi.org/10.1038/s41598-022-12833-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Revista de Reproducción Asistida y Genética (2023)

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

Blog