banner

Noticias

Sep 28, 2023

Validación comparativa de IA y no

Scientific Reports volumen 13, Número de artículo: 3439 (2023) Citar este artículo

1082 Accesos

12 Altmetric

Detalles de métricas

Una corrección del editor de este artículo se publicó el 3 de mayo de 2023

Este artículo ha sido actualizado

La segmentación y la volumetría automatizadas de las imágenes de resonancia magnética (IRM) cerebrales son esenciales para el diagnóstico de la enfermedad de Parkinson (EP) y los síndromes de Parkinson plus (P-plus). Para mejorar el rendimiento del diagnóstico, adoptamos modelos de aprendizaje profundo (DL) en la segmentación de resonancia magnética cerebral y comparamos su rendimiento con el método estándar de oro sin DL. Recolectamos resonancias magnéticas cerebrales de controles sanos (\(n=105\)) y pacientes con EP (\(n=105\)), atrofia sistémica múltiple (\(n=132\)) y parálisis supranuclear progresiva (\ (n=69\)) en Samsung Medical Center desde enero de 2017 hasta diciembre de 2020. Usando el modelo estándar de oro sin DL, FreeSurfer (FS), segmentamos seis estructuras cerebrales: mesencéfalo, protuberancia, caudado, putamen, pallidum y tercer ventrículo, y los consideró como datos anotados para los modelos DL, la red neuronal convolucional representativa (CNN) y los modelos basados ​​en el transformador de visión (ViT). Se calcularon las puntuaciones de los dados y el área bajo la curva (AUC) para diferenciar los casos normales, PD y P-plus para determinar la medida en la que se puede reproducir el rendimiento de FS tal como está mientras se aumenta la velocidad mediante los enfoques DL. Los tiempos de segmentación de CNN y ViT para las seis estructuras cerebrales por paciente fueron 51,26 ± 2,50 y 1101,82 ± 22,31 s, respectivamente, siendo de 14 a 300 veces más rápido que FS (15.735 ± 1,07 s). Las puntuaciones de dados de ambos modelos de DL fueron lo suficientemente altas (> 0,85), por lo que sus AUC para la clasificación de enfermedades no fueron inferiores a las de FS. Para la clasificación de normal frente a P-plus y PD frente a P-plus (excepto atrofia sistémica múltiple - tipo parkinsoniano) basada en todas las partes del cerebro, los modelos DL y FS mostraron AUC superiores a 0,8, lo que demuestra el valor clínico de los modelos DL además a FS. DL reduce significativamente el tiempo de análisis sin comprometer el rendimiento de la segmentación cerebral y el diagnóstico diferencial. Nuestros hallazgos pueden contribuir a la adopción de la segmentación de resonancia magnética cerebral DL en entornos clínicos y avanzar en la investigación del cerebro.

El diagnóstico de la enfermedad de Parkinson (EP) se basa principalmente en la presentación clínica. Sin embargo, para los síntomas atípicos llamados banderas rojas1, la resonancia magnética (RM) cerebral es esencial para diagnosticar los síndromes de Parkinson-plus (P-plus), como la atrofia multisistémica (MSA) y la parálisis supranuclear progresiva (PSP). La resonancia magnética mejora la precisión diagnóstica y se puede utilizar para controlar la progresión de la enfermedad2. La resonancia magnética cerebral puede revelar varias características que aparecen en P-plus pero no en PD2,3,4. Por ejemplo, los pacientes con PSP muestran una marcada atrofia del mesencéfalo5, conocida como el signo del colibrí. En la MSA-tipo parkinsoniano (MSA-P), el putamen es atrófico, con un borde lateral aplanado y muestra una señal hipointensa en las imágenes de eco de gradiente potenciadas en T1. Los pacientes con MSA-tipo cerebeloso (MSA-C) muestran una atrofia predominante en la protuberancia y los pedúnculos cerebelosos medios, lo que resulta en un aumento de la relación mesencéfalo-protuberancia6 y una disminución en el índice de parkinsonismo por resonancia magnética7. En consecuencia, también se han evaluado medidas cuantitativas del volumen de estas estructuras cerebrales, lo que muestra una alta sensibilidad y especificidad para diferenciar la EP de P-plus8.

Aunque la sensibilidad y especificidad diagnósticas obtenidas al evaluar el área del mesencéfalo son generalmente altas para diferenciar entre PSP, MSA y PD9, la evaluación visual de esta área no es cuantitativa, carece de objetividad y depende en gran medida de las habilidades del médico o de la adquisición de imágenes. En consecuencia, los diagnósticos basados ​​en evaluaciones visuales han mostrado un amplio espectro de precisión, incluso por debajo del 80 %10,11,12. Para desarrollar un análisis consistente y cuantitativo de la RM cerebral, se ha utilizado la volumetría del área del mesencéfalo como predictor óptimo para un diagnóstico preciso6,8,13,14. Por lo tanto, la segmentación de imágenes cerebrales se ha convertido en una etapa importante en la mayoría de los análisis posteriores basados ​​en modelos de predicción o métodos automatizados de aprendizaje automático (ML) para volumetría y diagnóstico.

La segmentación manual de las resonancias magnéticas cerebrales por parte de un médico capacitado es extenuante y lleva mucho tiempo, y requiere un especialista altamente calificado para identificar correctamente las estructuras cerebrales. Se han desarrollado varias técnicas automatizadas que utilizan técnicas basadas en atlas o de aprendizaje profundo (DL) para superar estos problemas. Aunque los modelos automatizados de segmentación de imágenes para el cerebro muestran limitaciones15,16, FreeSurfer (FS)17 puede extraer estructuras cerebrales con una precisión relativamente alta. Por lo tanto, FS ha sido ampliamente adoptado como un método de segmentación automatizado no DL17,18,19,20,21.

Se han desarrollado varios métodos de segmentación automatizados para las estructuras cerebrales, pero su uso en la práctica clínica es limitado y se suele utilizar en estudios de una sola vez. Esto es atribuible al proceso complejo y lento de los modelos de segmentación automatizados en comparación con las evaluaciones visuales simples de los médicos de las resonancias magnéticas cerebrales. Por ejemplo, el FS automatizado para la segmentación tarda más de 4,5 h por paciente en segmentar el cerebro capturado en una resonancia magnética. Este problema de complejidad ocurre porque los métodos de segmentación automatizados existentes utilizan el registro basado en atlas22,23,24,25. De hecho, expresar la segmentación como un problema de registro basado en atlas requiere un tiempo considerable, y FS debe optimizarse para obtener una función de transformación de coordenadas adecuada para el modelo de atlas interno de cada muestra de prueba.

Se debe desarrollar un modelo automatizado para la segmentación y el diagnóstico rápidos sin involucrar métodos intrincados para uso clínico. Aunque la segmentación DL se ha desarrollado y utilizado en varios campos, incluida la segmentación del cerebro26,27,28, los estudios sobre la eficiencia y la precisión de la segmentación de partes específicas de la RM del cerebro (p. ej., separación del mesencéfalo y la protuberancia para la canalización de la subestructura del tronco encefálico) de enfermedades neurodegenerativas específicas todavía está progresando. A diferencia de los métodos existentes que no son DL, DL puede aumentar la velocidad de análisis al completar la segmentación usando solo cálculos directos basados ​​en parámetros aprendidos sin requerir procesos de optimización como el registro. Sin embargo, es difícil predecir si DL muestra una degradación del rendimiento en comparación con los métodos que no son DL, especialmente en la segmentación de resonancia magnética cerebral de enfermedades neurodegenerativas. Nuestro estudio es significativo porque demuestra el rendimiento comparativo de los métodos DL y no DL en la segmentación de resonancia magnética cerebral y los aplica al diagnóstico de enfermedades parkinsonianas. En otras palabras, este estudio dio un paso más al mostrar el diagnóstico diferencial de las enfermedades parkinsonianas mediante la segmentación del cerebro por modelos con IA y sin IA, y no simplemente comparando el rendimiento de la segmentación entre modelos con IA y sin IA como estudios anteriores26.

Los modelos recientes de segmentación de DL se clasifican en arquitecturas de redes neuronales convolucionales (CNN) y transformadores de visión (ViT). En consecuencia, se adoptó un modelo representativo de cada marco, V-Net29 y UNet transformer (UNETR)30, respectivamente, para realizar la segmentación volumétrica de imágenes 3D en este estudio. Los modelos DL se entrenaron para segmentar estructuras cerebrales en resonancias magnéticas para el diagnóstico de enfermedades neurodegenerativas, y sus actuaciones se analizaron y compararon con un modelo sin DL existente, FS. Se segmentaron seis estructuras cerebrales que son importantes para clasificar los casos normales, de EP y P-plus: putamen, pálido, mesencéfalo, protuberancia, caudado y tercer ventrículo. Los volúmenes de las áreas segmentadas se usaron posteriormente para diferenciar entre casos normales, PD y P-plus. Como se ilustra en la Fig. 1, comparamos la precisión de la diferenciación de enfermedades y el tiempo de segmentación de los modelos de DL con los de FS, que se consideraron como la referencia (es decir, la realidad básica) para entrenar los modelos de segmentación de DL. Por lo tanto, las contribuciones clave de nuestro estudio a partir de este análisis comparativo son las siguientes: (1) Demostramos que los modelos de DL estándar de oro pueden disminuir considerablemente el tiempo de inferencia de FS sin comprometer el rendimiento del diagnóstico (Tabla 1) y reproducir con éxito los resultados de segmentación de la parte del cerebro de FS en enfermedades neurodegenerativas (Fig. 2), (2) En consecuencia, mostramos que DL permite una segmentación mucho menos compleja y un diagnóstico automático comparable de enfermedades neurodegenerativas como el enfoque actual sin DL (Tablas 2 y 3), prometiendo el uso práctico de segmentación de resonancia magnética cerebral basada en DL en el diagnóstico o estudio de enfermedades neurodegenerativas (p. ej., diagnóstico diferencial entre PD, P-plus y casos normales).

Resumen del estudio. Se comparó el rendimiento diagnóstico del síndrome parkinsoniano en cuanto al tiempo de análisis y la precisión para extraer y segmentar las estructuras cerebrales entre los modelos DL y FS. El diagnóstico de la enfermedad se realizó utilizando las estructuras extraídas de forma individual o integral.

La Tabla 1 enumera el tiempo requerido para segmentar las seis estructuras cerebrales por paciente. Como se mencionó en la sección "Segmentación de la estructura del cerebro: línea de base con FS", el FS procesa secuencialmente el resto de la canalización de reconocimiento y la canalización completa de la subestructura del tronco encefálico. En el tiempo de segmentación de FS, eliminamos el tiempo consumido para el preprocesamiento (es decir, la extracción de la imagen despojada del cráneo de la resonancia magnética original) descrito en la Sección "Segmentación de la estructura cerebral: línea de base con FS". El tiempo resultante proporciona una comparación justa de los tiempos totales, porque los modelos FS y DL utilizan la resonancia magnética con franjas craneales como entrada para derivar los resultados finales de segmentación, indicados por valores en negrita en la Tabla 1. Cuando se incluye el tiempo de preprocesamiento, CNN Los UNETR basados ​​en V-Net y ViT fueron 14 y 7 veces más rápidos que FreeSurfer, respectivamente.

(a) Resultados de segmentación de V-Net basado en CNN (imágenes 3D de la izquierda en la primera columna y áreas resaltadas en rojo en la segunda columna) y FS (imágenes 3D de la derecha en la primera columna y áreas resaltadas en azul en la segunda columna) para cada estructura cerebral . ( b ) Resultados de segmentación de UNETR basado en ViT (imágenes 3D de la izquierda en la primera columna y áreas resaltadas en rojo en la segunda columna) y FS (imágenes 3D de la derecha en la primera columna y áreas resaltadas en azul en la segunda columna) para cada estructura cerebral.

Para comparar con el tiempo de procesamiento de FS, hemos agregado tiempo para usar la CPU en los modelos DL. El V-Net basado en CNN y el UNETR basado en ViT son considerablemente más rápidos que FS. En promedio, V-Net tomó 3.48 s para segmentar las seis estructuras cerebrales, y UNETR tomó 48.14 s usando GPU y 51.26 s y 1101.82 s usando CPU, mientras que FS tomó aproximadamente 15,735 s usando CPU, siendo aproximadamente 307 y 14 veces más lento que V -Net y UNETR, respectivamente. A pesar de calcular el tiempo usando CPU, los modelos DL fueron más rápidos que FS entre 14 y 300 veces. No solo los modelos DL basados ​​en GPU, sino también los modelos DL que utilizan CPU demostraron tener un rendimiento significativo en comparación con el método sin IA (es decir, FS).

Los resultados de segmentación y predicción de V-Net, UNETR y FS se ilustran en la Fig. 2. Se obtuvo la puntuación Dice (Tabla complementaria S1) para evaluar el rendimiento de la segmentación de imágenes 3D. Los modelos basados ​​​​en CNN y ViT mostraron puntajes de Dice altos por encima de 0.85 para todas las estructuras cerebrales. Las puntuaciones de Dice fueron más altas para el mesencéfalo y la protuberancia que para los ganglios basales (es decir, caudado, putamen, pallidum), posiblemente porque los troncos encefálicos están rodeados de líquido cefalorraquídeo y proporcionan un contraste más fuerte para una segmentación precisa. El modelo basado en ViT mostró una puntuación de Dice más alta que el modelo basado en CNN, que a su vez mostró un tiempo de segmentación mucho más corto que el modelo basado en ViT (por ejemplo, 51,26 s para V-Net y 1101,82 s para UNETR, como se muestra en Tabla 1). Aunque evaluamos V-Net y UNETR en diferentes entornos de desarrollo de TensorFlow y PyTorch, respectivamente, esperamos que V-Net basado en CNN sea competitivo en velocidad con UNETR basado en ViT dada la diferencia de velocidad de segmentación de al menos 10 veces en nuestros experimentos. Además, V-Net basado en CNN tuvo un rendimiento similar al UNETR basado en ViT en la clasificación real de enfermedades, como se muestra en la Tabla 2.

Utilizando los volúmenes estimados, realizamos una clasificación binaria para los casos normales frente a P-plus, normales frente a PD y PD frente a P-plus, donde P-plus comprendía los casos de PSP, MSA-P y MSA-C. Se compararon las AUC de las estructuras cerebrales para cada modelo, como se indica en la Tabla 2, que también presenta la relación AUC del mesencéfalo a la protuberancia31.

Entre los 98 casos (7 casos de clasificación binaria × 2 modelos DL × 7 casos de estructuras cerebrales), no hubo una diferencia significativa en el AUC entre los modelos DL y FS, excepto en 11 casos (es decir, casos en los que el valor p es menos de 0,05). En más de la mitad de los 11 casos (es decir, 7 casos), las AUC de los modelos DL (es decir, V-Net basado en CNN y UNETR basado en ViT) tampoco fueron inferiores a las de FS. Este resultado demostró que el modelo DL reproduce con éxito el rendimiento del modelo FS (es decir, obtiene un rendimiento similar al del FS). Además, la mayoría de los casos del V-Net basado en CNN no mostraron un AUC más bajo para la clasificación de la enfermedad que los casos del UNETR basado en ViT.

Las AUC más altas en la comparación entre los métodos fueron mayores en normal o PD frente a MSA-C (0,91–0,94) que en normal o PD frente a PSP (0,75–0,89). Entre las estructuras cerebrales, la relación mesencéfalo-protuberancia mostró el mejor rendimiento en normal frente a MSA-C y PD frente a MSA-C, mientras que el tercer ventrículo y el pallidum mostraron el mejor rendimiento en normal frente a PSP y PD frente a MSA-C. PSP. Las AUC más altas no fueron significativamente diferentes en la clasificación de normal o PD frente a MSA-P (0,69–0,73) o PD (0,63).

La mayoría de las AUC de los modelos DL no fueron significativamente diferentes de las de FS, como se indica en la Tabla 3, aunque existió una diferencia considerable en la velocidad de segmentación entre los modelos y FS, como se indica en la Tabla 1. En la Tabla 3, la AUC más alta de Los modelos FS y DL para cada clasificación binaria se indican en negrita. Las AUC más altas de clasificación entre PD frente a P-plus y normal frente a P-plus fueron superiores a 0,8 en ambos modelos DL, excepto para PD frente a MSA-P (AUC > 0,76). No hubo diferencias significativas entre los modelos FS y DL (valor p de 0,05 o superior) en todas las AUC más altas.

La Tabla 3 muestra que de los 28 casos (2 modelos ML × 2 modelos DL × 7 clasificaciones binarias), la mayoría de los casos (es decir, 24 casos) no tuvieron diferencias significativas con FS (es decir, con valores de p superiores a 0,05), lo que demuestra el éxito reproducibilidad del rendimiento de FS por modelos DL. Como se muestra en la Tabla 2, V-Net con base en CNN logró un AUC mejor que UNETR con base en ViT; en 9 de los 14 pares de casos, V-Net con base en CNN superó al UNETR con base en ViT. A partir de los resultados de LR y XGBoost, confirmamos que considerar las seis estructuras cerebrales (Tabla 3) resultó en un AUC significativamente más alto que cuando se consideraron las estructuras individuales (Tabla 2).

Desarrollamos dos modelos DL, V-Net y UNETR, que mostraron una segmentación cerebral significativamente más rápida que FS y una precisión comparable. Nuestros modelos DL acortaron el tiempo de segmentación entre 14 y 300 veces en comparación con FS. Además, mostraron un alto rendimiento sólido en el diagnóstico diferencial entre los casos de EP y P-plus utilizando el volumen de estructuras cerebrales segmentadas. Los modelos DL fueron eficientes (es decir, velocidad de análisis de 14 a 300 veces más rápida que FS) y efectivos (es decir, comparables a FS en la puntuación de Dice y AUC) en la segmentación cerebral automatizada y el diagnóstico de enfermedades, incluso para el análisis simultáneo de todas las estructuras cerebrales y sus análisis individuales. Por lo tanto, los modelos de DL propuestos pueden promover la aplicación de la segmentación cerebral automatizada en la práctica clínica y facilitar una investigación cerebral eficiente y precisa en medicina.

Las herramientas automatizadas apenas han sido adoptadas para la segmentación cerebral en la práctica clínica a pesar de su alta precisión en el diagnóstico diferencial de pacientes con parkinsonismo13,16. Esto se debe principalmente al proceso complicado y lento de la segmentación cerebral automatizada en comparación con la evaluación visual cualitativa de las resonancias magnéticas del cerebro por parte de los médicos. En consecuencia, los modelos de segmentación automatizados se han utilizado principalmente en entornos de investigación que requieren mediciones cerebrales cuantitativas. Sin embargo, su aplicación en entornos clínicos puede aumentar con nuestros modelos DL, que han mostrado una segmentación mucho más rápida que FS con una precisión similar. Los modelos DL pueden contribuir a mejorar la precisión del diagnóstico clínico de los casos de EP o P-plus al proporcionar un análisis preciso de imágenes cerebrales. Además, los ensayos clínicos que requieren mediciones cerebrales cuantitativas de una gran población pueden realizarse convenientemente utilizando nuestros modelos de DL rápidos y precisos. En el pasado, los métodos para el análisis de imágenes cerebrales requerían mucho tiempo y recursos, incluso con una herramienta de segmentación automatizada como FS.

Si bien V-net y UNETR mostraron una segmentación significativamente más rápida tanto en la CPU como en la GPU, con una precisión satisfactoria, la V-Net basada en CNN puede ser más adecuada en entornos clínicos para el diagnóstico basado en la volumetría de las resonancias magnéticas del cerebro. Tenga en cuenta que el tiempo se calculó sin el tiempo de preprocesamiento por la equidad de medir el tiempo. El tiempo de segmentación de FreeSurfer corresponde al tiempo que lleva la segmentación basada en el registro para la canalización de recon-all y la canalización de subestructuras del tronco encefálico (Figura complementaria S1). Incluso si se calcula el tiempo de procesamiento previo, V-Net basado en CNN y UNETR basado en ViT fueron 14 y 7 veces más rápidos que FreeSurfer, respectivamente. Aunque el UNETR basado en ViT es el modelo DL más reciente y muestra una puntuación de Dice alta, la cantidad de parámetros de entrenamiento es aproximadamente 46 veces mayor que la de V-Net. Como se presenta en la Tabla 1, el uso de la CPU puede tardar entre 14 y 22 veces más. Sin embargo, es evidente que en comparación con el tiempo de segmentación de FS, el tiempo de procesamiento de los modelos DL es más rápido y tiene un rendimiento equivalente al de FS. A medida que aumenta la cantidad de cálculos con la cantidad de parámetros entrenables, aumentan los requisitos de hardware en términos de memoria y potencia de procesamiento de la unidad de procesamiento de gráficos (GPU). En consecuencia, el UNETR basado en ViT puede ser considerablemente exigente para la capacitación y la evaluación, y requiere una GPU de alta especificación. V-Net, con sede en CNN, mostró un AUC generalmente más alto que el de UNETR y puntajes de Dice más bajos. Hasta que se mejore aún más el rendimiento de ViT, la V-Net basada en CNN, que utiliza menos recursos de GPU, parece ser la mejor opción para la práctica clínica.

Usando enfoques basados ​​en el aprendizaje automático estándar de oro, mostramos el AUC del diagnóstico basado en la segmentación de FreeSurfer y la segmentación del método DL para mostrar que no hay una diferencia significativa entre los resultados de segmentación de los modelos FreeSurfer y DL. Dado que nuestros modelos DL son de 14 a 300 veces más rápidos que FS sin sacrificar el rendimiento diagnóstico, son superiores a FS en términos de eficacia clínica. En la clasificación binaria usando estructuras cerebrales individuales, el orden relativo del AUC de cada estructura cerebral fue consistente con los resultados previamente informados10,32. Por ejemplo, la relación protuberancia y mesencéfalo a protuberancia mostró el AUC más alto en la clasificación de casos normales frente a MSA-C y PD frente a casos de MSA-C. El tercer ventrículo y el pallidum mostraron el AUC más alto en la clasificación de casos normales frente a PSP y PD frente a casos de PSP. El putamen mostró el AUC más alto en la clasificación de los casos de PD y MSA-P. En la clasificación de los casos de EP frente a PSP, el tercer ventrículo mostró un AUC más alto, mientras que el mesencéfalo mostró un AUC relativamente más bajo. Las mediciones únicas del mesencéfalo no han logrado diferenciar la PSP de la PD o la AMS33,34,35, a pesar de que los estudios clásicos de resonancia magnética muestran mesencéfalo atrófico en la PSP7,11. Por otra parte, el tercer ventrículo ha demostrado ser un marcador fiable para el diagnóstico de PSP en estadios tempranos de la EP y PSP en estadios tardíos36, y se ha añadido a una nueva versión del índice de parkinsonismo por resonancia magnética37.

Para la clasificación binaria basada en las seis estructuras cerebrales, se lograron mejoras significativas en el AUC en todos los modelos. En ambos modelos de DL, el AUC más alto de la clasificación de los casos PD frente a P-plus y normal frente a P-plus fue superior a 0,8, excepto para los casos PD frente a MSA-P. El AUC relativamente bajo de la clasificación entre los casos de EP y MSA-P según los casos de resonancia magnética cerebral también se ha informado en estudios previos10,32. La limitación del diagnóstico clínico puede haber contribuido a las AUC relativamente bajas en estos estudios debido a las manifestaciones superpuestas entre los casos de PD y MSA-P. Se ha informado que el diagnóstico clínico de PSP y AMS-P tiene la discrepancia más frecuente con respecto al diagnóstico probado por autopsia, incluso cuando se consideran los criterios diagnósticos38. No se han encontrado diferencias significativas en las resonancias magnéticas cerebrales entre los casos normales y los de PD, por lo que no hay diferencias significativas en el AUC para la clasificación entre estos casos.

Nuestro estudio tiene algunas limitaciones. Primero, los diagnósticos de PD, PSP y MSA-C no se verificaron patológicamente. En cambio, los especialistas en movimiento proporcionaron diagnósticos clínicos basados ​​en un consenso clínico validado, brindando solo un diagnóstico probable. En segundo lugar, segmentamos seis estructuras cerebrales, a saber, mesencéfalo, protuberancia, bulbo raquídeo, putamen, pálido y tercer ventrículo, pero descartamos otras estructuras cerebrales que pueden reflejar diferentes características patológicas entre la EP y P-plus (p. ej., cerebelo, pedúnculo cerebeloso medio) . Excluimos esas estructuras debido a la baja precisión de segmentación lograda por FS. Además, los métodos DL aprenden las características gruesas en prioridad porque son la región común de los datos de entrenamiento, que son regiones de baja frecuencia. Esto da como resultado una imagen más suave que la de FS, mitigando los artefactos menores de las imágenes en los bordes exteriores. Sin embargo, en el caso del cerebelo donde los cambios más pequeños son esenciales, se necesita un estudio más específico para saber si nuestros métodos DL serán aplicables a la segmentación de las pequeñas circunvoluciones del cerebelo, comparándolos con la segmentación manual del cerebelo. Sin embargo, el diagnóstico diferencial de P-plus usando solo las estructuras cerebrales incluidas en este estudio se ha reportado como confiable31. En tercer lugar, dadas las limitaciones de memoria, redujimos la forma de salida de \(256 \times 256 \times 256\) a \(256 \times 256 \times 128\), lo que puede haber causado una pérdida de información. Sin embargo, las puntuaciones de Dice sugieren un impacto insignificante de la pérdida de información, mientras que el uso de una entrada reducida acelera el entrenamiento y la inferencia en los modelos DL. En cuarto lugar, FreeSurfer no es compatible con GPU (es decir, CUDA) para la segmentación, lo que dificulta la comparación del tiempo entre los modelos DL. Hemos calculado el tiempo de segmentación usando CPU y aun así llegamos a la conclusión de que los modelos DL son 14 a 300 veces más rápidos.

La segmentación automatizada de resonancias magnéticas cerebrales se ha convertido en un método influyente para diagnosticar enfermedades neurodegenerativas, incluidos los trastornos del movimiento. Usando los modelos de alto rendimiento basados ​​en CNN y ViT, acortamos significativamente el tiempo de segmentación de las estructuras cerebrales profundas y obtuvimos una precisión comparable a la segmentación FS convencional. A pesar del desempeño superior de DL, hasta la fecha no se han informado resultados cuantitativos del análisis comparativo y la evaluación del desempeño de DL para el diagnóstico diferencial de enfermedades neurodegenerativas, incluidas la EP y P-plus. Descubrimos que el modelo rentable basado en CNN logra un rendimiento satisfactorio tanto en la segmentación como en el diagnóstico diferencial en comparación con el modelo más reciente basado en ViT. Nuestros modelos de DL pueden contribuir al desarrollo de métodos de segmentación fáciles de usar para el paciente y el médico que permiten un diagnóstico rápido y preciso y pueden proporcionar una referencia significativa para los hospitales que planean introducir la segmentación del cerebro DL y el diagnóstico de enfermedades neurodegenerativas.

Este estudio se centra en comparar si la IA es más eficaz en el rendimiento del diagnóstico que el método representativo existente sin IA. Por lo tanto, dado que el tema de este estudio es comparar técnicas, no se realizó una comparación con los médicos en este estudio. Sería un estudio futuro prometedor comparar la precisión del diagnóstico entre los métodos de aprendizaje automático y los médicos.

En esta sección, describimos los datos de resonancia magnética cerebral (Sección "Preparación de datos"), la implementación de FS (Sección "Segmentación de la estructura cerebral: línea base con FS") y la implementación del método DL (Sección "Modelos DL para la segmentación de la estructura cerebral") para el análisis volumétrico de estructuras cerebrales clave para el diagnóstico de enfermedades neurodegenerativas. La Figura 1 muestra una descripción general del proceso de estudio considerando la evaluación y las comparaciones entre los modelos FS y DL (es decir, V-Net y UNETR modificados que representan las arquitecturas CNN y ViT DL, respectivamente). La figura complementaria S1 muestra un diagrama de la comparación de rendimiento general. Desarrollamos modelos DL con un procesamiento más rápido pero un rendimiento de segmentación similar al FS. Los modelos DL fueron entrenados para reproducir y segmentar los resultados de FS para cada estructura cerebral \(F_i \in [0,1]^{256 \times 256 \times 128}\) como resultado del modelo \(V_i \in [0, 1]^{256 \times 256 \times 128}\) tomando la imagen del cerebro despojado del cráneo \(I \in \mathbb {R}^{256 \times 256 \times 128}\) como entrada (\(i \ en \{pallidum, \, putamen, \, caudado, \, tercer \, ventrículo, \, mesencéfalo, \, protuberancia \}\)), con resolución (h, w, d) (altura \(h=256\ ), ancho \(w=256\), profundidad \(d=128\)). Los resultados de segmentación de DL para las seis estructuras cerebrales se almacenaron como máscaras binarias 3D (\(F_i\) y \(V_i\) indican las máscaras de modelo FS y DL para la estructura cerebral i, respectivamente), donde cada salida de máscara contenía intensidades entre 0 y 1 (área fuera y dentro de la estructura del cerebro objetivo, respectivamente). Al calcular el volumen absoluto de cada o todas las estructuras cerebrales predichas por los modelos FS o DL, realizamos una clasificación binaria de PD, MSA-C, MSA-P, PSP y casos normales, y calculamos el área bajo la curva (AUC) de segmentación.

Todos los autores de este estudio confirman que todos los métodos o experimentos se realizaron de acuerdo con la Declaración de Helsinki y las pautas y regulaciones relevantes proporcionadas por las políticas de las revistas Nature Portfolio. Este estudio fue aprobado por la Junta de Revisión Institucional del Centro Médico Samsung (número IRB: SMC 2021-07-026). La Junta de Revisión Institucional del Centro Médico Samsung renunció al consentimiento informado por escrito de los pacientes porque utilizamos datos no identificados y retrospectivos.

Examinamos retrospectivamente a pacientes del Departamento de Neurología del Centro Médico Samsung entre enero de 2017 y diciembre de 2020. En este estudio se incluyeron pacientes diagnosticados con EP, MSA probable o PSP probable. El diagnóstico de cada paciente fue determinado por especialistas en trastornos del movimiento con base en los siguientes criterios: La EP se determinó de acuerdo con los criterios del Banco de Cerebros de la Sociedad de PD del Reino Unido39 utilizando [18F] N-(3-fluoropropil)-2β-carbon etoxi-3β-( tomografía por emisión de positrones con 4-yodofenil) nortropano, mientras que MSA probable y PSP se diagnosticaron de acuerdo con el segundo diagnóstico de consenso de MSA40 y los criterios de diagnóstico clínico de la sociedad de trastornos del movimiento para PSP41, respectivamente. Los casos de MSA se clasificaron además como MSA-P o MSA-C después de llegar a un consenso40. Se excluyeron del estudio los pacientes con lesiones cerebrales concomitantes o estructurales, incluidos accidentes cerebrovasculares y tumores, que pueden afectar las imágenes de resonancia magnética cerebral. Una población anciana sana de la misma edad se incluyó como grupo de control. Se recopiló información demográfica sobre la edad, el sexo y la duración de la enfermedad hasta el examen de resonancia magnética del cerebro, como se indica en la Tabla 4. Analizamos los datos de 411 personas y realizamos una validación cruzada triple para entrenar y evaluar los modelos de DL. Cada grupo constaba de 105 controles sanos y 105 casos de PD, 69 PSP, 69 MSA-C y 63 MSA-P.

Aplicamos validación cruzada con tres pliegues externos para la evaluación para mitigar el sesgo en los conjuntos de validación y prueba y analizar el efecto de la composición del conjunto (combinaciones de casos en grupos). Los datos se dividieron aleatoriamente en tres secciones, una para prueba y dos para entrenamiento. Cada grupo comprendía 35 casos normales, 35 PD, 23 PSP, 23 MSA-C y 21 MSA-P.

Las resonancias magnéticas cerebrales axiales se adquirieron utilizando un protocolo estándar para la adquisición rápida de eco de gradiente preparada con magnetización T1, con un tiempo de repetición/eco de 11 000/125 ms, un tiempo de inversión de 2800 ms, un campo de visión de 240 mm, un tamaño de matriz de adquisición de \(320 \times 249\), longitud de tren de ecos de 27, promedio de 1 señal, grosor de corte de 5 mm, espacio entre cortes de 1,5 mm y tiempo de exploración de 198 s.

Incluimos seis estructuras cerebrales que están involucradas en los síndromes parkinsonianos en la materia gris, a saber, el mesencéfalo, la protuberancia, el putamen, el pálido, el caudado y el tercer ventrículo. Se informa que estas áreas tienen la mayor sensibilidad y especificidad para diferenciar los síndromes parkinsonianos13,16. Las exploraciones de resonancia magnética se redimensionaron a \(256 \times 256 \times 128\) (es decir, número de cortes en los planos coronal/sagital/axial) para segmentar cada estructura.

El FS acepta archivos de Digital Imaging and Communications in Medicine (DICOM) o Neuroimaging Informatics Technology Initiative (NIfTI) como entradas. DICOM es un formato convincente y flexible pero complejo que proporciona interoperabilidad entre varias herramientas de hardware y software. Dada su complejidad, el formato DICOM se convirtió al formato NIfTI42. NIfTI es un formato más sencillo que DICOM y conserva los metadatos esenciales. Además, mantiene el volumen como un solo archivo y utiliza datos sin procesar después de un encabezado simple, y los archivos NIfTI se pueden cargar y procesar más rápido que los archivos DICOM para imágenes de todo el cerebro. Por lo tanto, convertimos archivos en formato DICOM de MRI cerebral en archivos en formato NIfTI usando MRIcroGL.

La extracción de estructuras cerebrales obtenidas mediante segmentación automatizada basada en atlas es necesaria para el entrenamiento y la validación antes de establecer un modelo de segmentación automatizado de DL. En este estudio, utilizamos estos resultados como etiquetas de verdad de campo de DL y evaluamos la validez del modelo de DL para generar la misma etiqueta. Como tecnología representativa para la segmentación automatizada basada en atlas (consulte los detalles en la Sección complementaria A.2), seleccionamos FS (versión 7.2), que está disponible públicamente para la investigación en neurociencia y proporciona un alto rendimiento de segmentación18,19,20,21,43, 44. Además, FS ya no es compatible con CUDA, por lo que no puede calcular el tiempo con GPU.

Para segmentar y extraer las seis estructuras cerebrales usando FS, ejecuta secuencialmente la tubería recon-all45 y la tubería Brainstem Substructure46. Usamos ambas canalizaciones porque la canalización recon-all no admite la segmentación de las estructuras del tronco encefálico (por ejemplo, la protuberancia y el mesencéfalo). Sin embargo, debido a que la canalización de la subestructura del tronco encefálico recibe entradas preprocesadas de la canalización recon-all, se deben ejecutar ambas canalizaciones. Por lo tanto, la extracción de las seis estructuras cerebrales a través de FS se puede dividir en preprocesamiento de resonancia magnética en la canalización recon-all y la segmentación restante de la canalización recon-all junto con la segmentación en la canalización de la subestructura del tronco encefálico. Estos procesos se explican en la Sección "Preparación de datos" y la Sección "Segmentación de la estructura cerebral: línea de base con FS".

El preprocesamiento de la resonancia magnética en la tubería recon-all de FS consiste principalmente en (1) corrección de movimiento, (2) normalización y (3) extracción de cráneo. La corrección de movimiento se realiza antes de promediar cuando se utilizan varios volúmenes de fuente, compensando las pequeñas variaciones de movimiento entre volúmenes. FS construye modelos de superficie cortical y el límite entre la materia blanca y la materia gris cortical para hacer coincidir automáticamente las imágenes del cerebro de los pacientes, utilizando software17. Además, la normalización de intensidad se aplica al volumen original. Sin embargo, el ajuste de las fluctuaciones de intensidad puede dificultar la segmentación basada en la intensidad. En cambio, escalamos las intensidades de todos los vóxeles al valor medio (110) de la materia blanca.

Después de corregir los movimientos y normalizar los datos, FS extrae el cráneo y proporciona la resonancia magnética del cerebro despojado del cráneo. La eliminación de las cavidades cerebrales intracraneales (p. ej., piel, grasa, músculo, cuello y globos oculares) puede reducir la variabilidad del evaluador humano47 y promover la segmentación automatizada de imágenes cerebrales y mejorar la calidad del análisis. Por lo tanto, las resonancias magnéticas del cerebro deben procesarse previamente para aislar el cerebro de los tejidos extracraneales o no cerebrales en un proceso conocido como extracción del cráneo48. Los desarrolladores de FS diseñaron y aplicaron algoritmos internos automatizados de extracción de cráneos para aislar las cavidades intracraneales de forma predeterminada.

En este estudio, los pasos del preprocesamiento de la resonancia magnética del cerebro (es decir, extracción del cráneo con corrección de movimiento y normalización de una resonancia magnética del cerebro) tomaron aproximadamente 20 minutos. Convertimos las imágenes finales de cráneos en archivos NIfTI con un tamaño de \(256 \times 256 \times 128\), mientras que la resonancia magnética original del cerebro tenía un tamaño de \(256\times 256 \times 256\), que era ajustado para una comparación eficiente con los modelos DL.

Después del preprocesamiento (Sección "Segmentación de la estructura cerebral: línea base con FS"), FS segmenta las seis estructuras cerebrales aplicando los procesos restantes de la canalización recon-all y la canalización completa de la subestructura del tronco encefálico. Después de la extracción del cráneo, la segmentación basada en el registro procede de la siguiente manera. FS determina y refina las interfaces de materia blanca y gris para ambos hemisferios. Luego, FS busca el borde de la materia gris, que representa la superficie pial. Con superficies piales, FS se expande e infla bancos de surcos y crestas de circunvoluciones. Posteriormente, se extiende de nuevo en una esfera y parcela la corteza. Después de aplicar estos procesos, FS segmenta el cerebro. La tubería recon-all abarca algunas estructuras cerebrales (es decir, putamen, caudado, pálido y tercer ventrículo), mientras que la tubería Subestructura del tronco encefálico segmenta el mesencéfalo y la protuberancia.

En este estudio, el resultado final de la segmentación se evaluó con el mismo tamaño de entrada de \(256 \times 256 \times 128\). El tamaño original del resultado de la segmentación fue \(256 \times 256 \times 256\), pero se ajustó a \(256 \times 256 \times 128\) para compararlo con los modelos DL. Además, reemplazamos FS con un modelo DL aplicado a la resonancia magnética despojada del cráneo (es decir, el resultado del preprocesamiento de la canalización recon-all) para realizar la segmentación. Para el reemplazo, evaluamos si el análisis de DL es más rápido que el análisis de FS y si el resultado de segmentación de DL es suficientemente reproducible en comparación con el de FS. Las diferencias entre la segmentación FS y DL se ilustran en la Fig. 2.

En este estudio, usamos modelos DL y FS para segmentar las mismas imágenes despojadas de cráneo (es decir, imágenes preprocesadas por la canalización FS recon-all, como se describe en la Sección "Segmentación de la estructura cerebral: línea de base con FS"). El tamaño original de la imagen de la calavera generada por FS era \(256 \times 256 \times 256\), que se ajustó a \(256 \times 256 \times 128\) para la segmentación DL debido a la memoria GPU limitada. Evaluamos y comparamos el rendimiento y el tiempo de análisis de los modelos DL reemplazando el proceso de segmentación de FS después de la extracción de cráneo con DL. FS puede ser ineficiente porque segmenta toda la imagen del cerebro, lo que requiere muchas horas de procesamiento. De hecho, FS tarda al menos 4,5 h en segmentar las seis estructuras cerebrales consideradas en este estudio porque requiere un registro basado en atlas para transformar las coordenadas de toda la resonancia magnética para segmentar estructuras cerebrales específicas. En consecuencia, FS no puede reducir notablemente el tiempo de procesamiento incluso si solo se segmentaran seis estructuras cerebrales. Por otro lado, verificamos que la segmentación de DL (por ejemplo, usando V-Net o UNETR) toma menos de 1 min a 18 min por caso para segmentar las seis estructuras cerebrales objetivo. Como los modelos DL no requieren un registro complejo, a diferencia de los métodos de inteligencia no artificial (p. ej., FS), pueden aumentar sustancialmente la eficiencia del procesamiento. Los detalles de implementación de los modelos DL se describen aquí. Como modelos DL, adoptamos el V-Net29 basado en CNN y el UNETR30 basado en ViT utilizando los resultados de segmentación proporcionados por FS como etiquetas (Sección "Segmentación de la estructura cerebral: línea de base con FS"). Los dos modelos fueron entrenados para reproducir la segmentación FS.

Arquitectura de segmentación 3D basada en CNN usando V-Net. Se utilizaron ResBlock, MaxPooling y UpConvolution para reducir la profundidad, la altura y el ancho. El resultado que se muestra en la figura es la segmentación de pallidum. (Capa de convolución Conv, normalización por lotes BN).

V-Net se ha utilizado para segmentar un volumen completo después de entrenar una CNN de extremo a extremo en volúmenes de resonancia magnética para revelar la próstata29,49,50 La arquitectura de V-Net tiene forma de V, donde la parte izquierda de la red está una ruta de compresión, mientras que la parte derecha descomprime las características hasta que se recupera el tamaño de entrada original. La parte izquierda de la red está separada en etapas que operan en diferentes resoluciones.

En este estudio, se utilizaron de una a tres capas convolucionales en cada paso. Se aprendió una función residual en cada nivel. La entrada de la parte residual se utilizó en las capas convolucionales y operaciones no lineales. Esta salida se agregó a la última capa convolucional del escenario. La unidad lineal rectificada (ReLU) se utilizó como función de activación no lineal. Se aplicaron circunvoluciones a lo largo de la ruta de compresión. La parte derecha de la red aprendió una función residual similar a la de la parte izquierda. V-Net ha mostrado resultados de segmentación prometedores y el uso de este modelo en nuestra aplicación mejoró el rendimiento. El modelo se ajustó de acuerdo con la memoria disponible. La arquitectura propuesta se ilustra en la Fig. 3. La parte izquierda utilizó un bloque residual (ResBlock) y una agrupación máxima (MaxPooling). ResBlock se aplicó a todos los bloques con un tamaño de entrada de \(256 \times 256 \times 128\). Por otro lado, 3D MaxPooling redujo la profundidad, la altura y el ancho de los mapas de características para reducir su resolución. La parte derecha también usó ResBlock pero reemplazó MaxPooling con UpConvolution, que consistía en muestreo ascendente 3D, normalización por lotes, activación de ReLU y capas convolucionales (filtro \(5 \times 5\times 5\), mismo relleno y zancada de 1). El muestreo ascendente aumentó la resolución de los mapas de características y la normalización por lotes mejoró la convergencia en toda la red51.

Arquitectura de UNETR basada en ViT conectada directamente a un decodificador basado en CNN a través de conexiones de salto en diferentes resoluciones para segmentación. (capa de deconvolución Deconv, capa de convolución Conv, normalización por lotes BN, perceptrón multicapa MLP).

UNETR30 es una arquitectura transformadora para la segmentación de imágenes médicas en 3D. Hay un estudio que utilizó UNETR como segmentación de tumores cerebrales52, pero no se realizó ningún estudio para la segmentación de partes del cerebro. Utiliza un transformador como codificador para aprender las representaciones de secuencia del volumen de entrada y capturar información global de múltiples escalas mientras adopta arquitecturas en forma de U para el codificador y decodificador. La arquitectura propuesta se ilustra en la Fig. 4. UNETR siguió un camino de contracción-expansión con un codificador que comprende una pila de transformadores conectados a un decodificador a través de conexiones de salto. El codificador usaba parches 3D directamente y estaba conectado a un decodificador basado en CNN a través de una conexión de salto. Un volumen de entrada 3D se dividió en parches homogéneos que no se superponen y se proyectó en un subespacio utilizando una capa lineal. La incrustación de posición se aplicó a la secuencia y luego se usó como entrada al transformador. Las representaciones codificadas en diferentes niveles en el transformador se recuperaron y enviaron a un decodificador a través de conexiones de salto para obtener los resultados de la segmentación.

Para los modelos DL, la entrada comprendía una máscara cerebral y las estructuras cerebrales segmentadas del paciente correspondiente en las imágenes de resonancia magnética, que se fusionaron en una matriz de dimensión \(256 \times 256 \times 128\). La realidad básica de cada estructura cerebral se segmentó mediante FS. Para la evaluación, se aplicó una validación cruzada triple de los datos de la prueba para calcular la puntuación de Dice y la pérdida de Dice. Implementamos V-Net en TensorFlow y Keras y lo entrenamos para 100 epochs. Para UNETR se aplicaron PyTorch y MONAI53 y se entrenó el modelo para 20.000 iteraciones. Ambos modelos utilizaron el lenguaje Python y se entrenaron con una GPU NVIDIA Tesla V100 DGXS con un tamaño de lote de 1 y una tasa de aprendizaje inicial de 0,0001. Para la CPU, se utilizó la CPU Intel(R) Xeon(R) E5-2698 v4 @ 2.20Ghz.

Evaluamos la precisión de los modelos evaluados usando el puntaje Dice comparando la segmentación esperada con V-Net (o UNETR) y salidas FS. La puntuación Dice mide la superposición entre las máscaras de segmentación de referencia y predicha. Una puntuación de Dice de 1 indica una correspondencia espacial perfecta entre las dos imágenes binarias, mientras que una puntuación de 0 indica que no hay correlación. Utilizamos la pérdida de dados para determinar el rendimiento de las tres validaciones cruzadas externas en sus conjuntos de prueba para las estructuras correspondientes. Si \(F_i\) y \(V_i\) son la máscara de verdad fundamental y su predicción para cada estructura cerebral, respectivamente (es decir, la máscara de segmentación FS \(F_i\) y su máscara de predicción DL \(V_i\), respectivamente , como se muestra en la Fig. 1), la puntuación de Dice54 para cada estructura cerebral \(i \in\) \(\{\)pallidum, putamen, caudate, tercer ventrículo, mesencéfalo, protuberancia\(\}\) se obtiene como

donde \(\circ {}\) denota el producto de Hadamard (es decir, la multiplicación por componentes) y \(||\cdot ||_{1}\) es la norma L1 (es decir, la suma de los valores absolutos de todos componentes). Además, medimos el tiempo de segmentación para la evaluación.

Obtuvimos los volúmenes absolutos de las seis estructuras cerebrales segmentadas (es decir, protuberancia, putamen, pálido, mesencéfalo, caudado y tercer ventrículo) predichas por los modelos DL (es decir, V-Net basado en CNN o UNETR basado en ViT) o FS . En función del volumen absoluto de las estructuras cerebrales individuales, calculamos el AUC de la clasificación binaria de enfermedades, casos normales frente a P-plus, normales frente a PD y PD frente a P-plus. El AUC se calculó sobre la base de la curva característica operativa del receptor producida por la correlación entre el volumen absoluto previsto de cada estructura cerebral y cada caso.

La clasificación binaria de la enfermedad se realizó utilizando las seis estructuras cerebrales segmentadas de forma individual o colectiva. Para el análisis individual, el AUC se derivó a través de una clasificación binaria basada en umbrales al obtener el volumen absoluto de las estructuras individuales. Para un análisis completo de todas las estructuras, también consideramos un algoritmo de clasificación ML para realizar una clasificación binaria de enfermedades con los seis volúmenes como entradas. Para el algoritmo de clasificación se utilizaron regresión logística binomial (LR) y aumento de gradiente extremo (XGBoost). LR es un modelo estadístico ampliamente utilizado en la clasificación de ML55,56,57. XGBoost es un método bien establecido que produce resultados avanzados entre las técnicas basadas en potenciación de gradientes58 (p. ej., XGBoost ganó con éxito 17 de las 29 tareas de ML publicadas en Kaggle en 201559). En ambos métodos, evaluamos el AUC obtenido por el modelo DL y FS a través de una triple validación cruzada.

Los autores declaran que los principales datos que respaldan los resultados de este estudio están disponibles en el documento. Los conjuntos de datos sin procesar de Samsung Medical Center están protegidos para preservar la privacidad del paciente, pero pueden estar disponibles a pedido razonable, siempre que se obtenga la aprobación de la Junta de Revisión Institucional correspondiente. Para la solicitud de disponibilidad de datos, comuníquese con Jong Hyeon Ahn en [email protected].

El código que se usó para los modelos DL está disponible en GitHub: https://github.com/kskim-phd/AI_vs_FS.

Se ha publicado una corrección de este artículo: https://doi.org/10.1038/s41598-023-33774-z

Berg, D. et al. Criterios de investigación de MDS para la enfermedad de Parkinson prodrómica. Muévete Desorden. 30, 1600–1611. https://doi.org/10.1002/mds.26431 (2015).

Artículo Google Académico

Meijer, FJA, Goraj, B., Bloem, BR & Esselink, RAJ Aplicación clínica de resonancia magnética cerebral en el diagnóstico del parkinsonismo. Parque J. Dis. 7, 211–217. https://doi.org/10.3233/JPD-150733 (2017).

Artículo Google Académico

Watanabe, H. et al. Características clínicas y de imagen de la atrofia multisistémica: desafíos para un diagnóstico temprano y clínicamente definitivo. J. Movem. Desorden. 11, 107. https://doi.org/10.14802/jmd.1802 (2018).

Artículo Google Académico

Whitwell, JL y col. Biomarcadores radiológicos para el diagnóstico en PSP: ¿Dónde estamos y dónde debemos estar?. Muévete Desorden. 32, 955–971. https://doi.org/10.1002/mds.27038 (2017).

Artículo Google Académico

Jankovic, J., Hallett, M., Okun, MS, Comella, CL y Fahn, S. Libro electrónico Principios y práctica de los trastornos del movimiento (Elsevier Health Sciences, Ámsterdam, 2021).

Google Académico

Hussl, A. et al. Precisión diagnóstica del índice de parkinsonismo por resonancia magnética y la proporción del área del mesencéfalo a la protuberancia para diferenciar la parálisis supranuclear progresiva de la enfermedad de Parkinson y la variante parkinsoniana de la atrofia multisistémica. Muévete Desorden. 25, 2444–2449. https://doi.org/10.1002/mds.23351 (2010).

Artículo Google Académico

Quattrone, A. et al. Índice de imágenes de RM para diferenciar la parálisis supranuclear progresiva de la enfermedad de Parkinson y la variante de Parkinson de la atrofia multisistémica. Radiología 246, 214–221. https://doi.org/10.1148/radiol.2453061703 (2008).

Artículo PubMed Google Académico

Paviour, DC, Price, SL, Jahanshahi, M., Lees, AJ y Fox, NC Los volúmenes cerebrales regionales distinguen PSP, MSA-P y PD: correlaciones clínico-radiológicas basadas en resonancia magnética. Muévete Desorden. 21, 989–996. https://doi.org/10.1002/mds.20877 (2006).

Artículo Google Académico

Zanigni, S. et al. Precisión de los marcadores de RM para diferenciar la parálisis supranuclear progresiva de la enfermedad de Parkinson. Neuroimagen Clin. 11, 736–742. https://doi.org/10.1016/j.nicl.2016.05.016 (2016).

Artículo PubMed PubMed Central Google Académico

Massey, LA et al. Resonancia magnética convencional en parálisis supranuclear progresiva confirmada y atrofia multisistémica. Muévete Desorden. 27, 1754-1762. https://doi.org/10.1002/mds.24968 (2012).

Artículo Google Académico

Schrag, A. et al. Diferenciación de síndromes parkinsonianos atípicos con resonancia magnética de rutina. Neurología 54, 697–697. https://doi.org/10.1212/WNL.54.3.697 (2000).

Artículo CAS PubMed Google Académico

Kim, YE, Kang, SY, Ma, H.-I., Ju, Y.-S. & Kim, YJ Una escala de calificación visual para el signo del colibrí con validez de diagnóstico ajustable. Parque J. Dis. 5, 605–612. https://doi.org/10.3233/JPD-150537 (2015).

Artículo Google Académico

Saeed, U., Lang, AE y Masellis, M. Avances en neuroimagen en la enfermedad de Parkinson y síndromes parkinsonianos atípicos. Frente. Neurol. 1189, 572976. https://doi.org/10.3389/fneur.2020.572976 (2020).

Artículo Google Académico

Möller, L. et al. Morfometría de resonancia magnética manual en síndromes parkinsonianos. Muévete Desorden. 32, 778–782. https://doi.org/10.1002/mds.26921 (2017).

Artículo Google Académico

Despotović, I., Goossens, B. & Philips, W. Segmentación por resonancia magnética del cerebro humano: desafíos, métodos y aplicaciones. computar Matemáticas. Métodos Med. https://doi.org/10.1155/2015/450341 (2015).

Artículo PubMed PubMed Central Google Académico

Fawzi, A., Achuthan, A. & Belaton, B. Segmentación de imágenes cerebrales en los últimos años: una revisión narrativa. Ciencia del cerebro. https://doi.org/10.3390/brainsci11081055 (2021).

Artículo PubMed PubMed Central Google Académico

Fischl, B. Freesurfer. NeuroImagen 62, 774–781. https://doi.org/10.1016/j.neuroimage.2012.01.021 (2012).

Artículo PubMed Google Académico

Dewey, J. et al. Confiabilidad y validez del software de volumetría automatizado basado en resonancia magnética en relación con la medición manual autoasistida de estructuras subcorticales en pacientes infectados por el VIH de un estudio multisitio. NeuroImagen 51, 1334–1344. https://doi.org/10.1016/j.neuroimage.2010.03.033 (2010).

Artículo PubMed Google Académico

Eggert, LD, Sommer, J., Jansen, A., Kircher, T. y Konrad, C. Precisión y confiabilidad de las vías de segmentación automatizadas de materia gris en imágenes de resonancia magnética estructural reales y simuladas del cerebro humano. PLOS ONEhttps://doi.org/10.1371/journal.pone.0045081 (2012).

Artículo PubMed PubMed Central Google Académico

Mayer, KN et al. Comparación de métodos automatizados de volumetría cerebral con estereología en niños de 2 a 3 años. Neurorradiología 58, 901–910. https://doi.org/10.1007/s00234-016-1714-x (2016).

Artículo PubMed Google Académico

Klauschen, F., Goldman, A., Barra, V., Meyer-Lindenberg, A. y Lundervold, A. Evaluación de métodos automatizados de segmentación y volumetría de imágenes de RM del cerebro. Tararear. Mapa cerebral. 30, 1310–1327. https://doi.org/10.1002/hbm.20599 (2009).

Artículo PubMed Google Académico

Pham, DL, Xu, C. & Prince, JL Métodos actuales en la segmentación de imágenes médicas. año Rev. Biomédica. Ing. 2, 315–337. https://doi.org/10.1146/annurev.bioeng.2.1.315 (2000).

Artículo CAS PubMed Google Académico

Christensen, GE, Joshi, SC & Miller, MI Transformación volumétrica de la anatomía del cerebro. Trans. IEEE. Medicina. Imágenes 16, 864–877. https://doi.org/10.1109/42.650882 (1997).

Artículo CAS PubMed Google Académico

Collins, DL, Holmes, CJ, Peters, TM y Evans, AC Segmentación neuroanatómica automática basada en modelos tridimensionales. Tararear. Mapa cerebral. 3, 190–208. https://doi.org/10.1002/hbm.460030304 (1995).

Artículo Google Académico

Iosifescu, DV et al. Un algoritmo de registro automatizado para medir las estructuras cerebrales subcorticales de resonancia magnética. NeuroImagen 6, 13–25. https://doi.org/10.1006/nimg.1997.0274 (1997).

Artículo CAS PubMed Google Académico

McClure, P. et al. Saber lo que sabes en segmentación cerebral usando redes neuronales profundas bayesianas. Frente. Neuroinform.https://doi.org/10.3389/fninf.2019.00067 (2019).

Artículo PubMed PubMed Central Google Académico

Rastogi, D., Johri, P. & Tiwari, V. Segmentación de tumores cerebrales y predicción de tumores mediante la arquitectura de aprendizaje profundo 2D-Vnet. En 2021 10th International Conference on System Modeling & Advancement in Research Trends (SMART)https://doi.org/10.1109/smart52563.2021.9676317 (2021).

Hatamizadeh, A. et al. Swin UNETR: Transformadores Swin para la segmentación semántica de tumores cerebrales en imágenes de resonancia magnética. En International MICCAI Brainlesion Workshop, 272–284 (Springer, 2022).

Milletari, F., Navab, N. y Ahmadi, S.-A. V-Net: redes neuronales totalmente convolucionales para la segmentación volumétrica de imágenes médicas. En 2016 Cuarta Conferencia Internacional sobre Visión 3D (3DV), 565–571, ​​https://doi.org/10.1109/3DV.2016.79 (2016).

Hatamizadeh, A. et al. Unetr: Transformadores para segmentación de imágenes médicas en 3D. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 574–584 (2022).

Chougar, L. et al. Categorización automatizada de síndromes parkinsonianos utilizando imágenes de resonancia magnética en un entorno clínico. Muévete Desorden. 36, 460–470. https://doi.org/10.1002/mds.28348 (2021).

Artículo CAS Google Académico

Sjöström, H., Granberg, T., Hashim, F., Westman, E. y Svenningsson, P. La volumetría automatizada del tronco encefálico puede ayudar en el diagnóstico de los trastornos parkinsonianos. Parque. Relativo Desorden. 79, 18–25 (2020).

Artículo Google Académico

Brooks, DJ & Seppi, K. Criterios de neuroimagen propuestos para el diagnóstico de atrofia multisistémica. Muévete Desorden. 24, 949–964. https://doi.org/10.1002/mds.22413 (2009).

Artículo Google Académico

Hotter, A., Esterhammer, R., Schocke, MF y Seppi, K. Potencial de las técnicas avanzadas de imagen por RM en el diagnóstico diferencial del parkinsonismo. Muévete Desorden. 24, S711–S720. https://doi.org/10.1002/mds.22648 (2009).

Artículo Google Académico

Oba, H. et al. Diagnóstico de resonancia magnética nuevo y confiable para la parálisis supranuclear progresiva. Neurología 64, 2050–2055. https://doi.org/10.1212/01.WNL.0000165960.04422.D0 (2005).

Artículo CAS PubMed Google Académico

Quattrone, A. et al. Una nueva medida de resonancia magnética para diferenciar tempranamente la parálisis supranuclear progresiva de la enfermedad de Parkinson de novo en la práctica clínica: un estudio internacional. Muévete Desorden. 36, 681–689. https://doi.org/10.1002/mds.28364 (2021).

Artículo CAS Google Académico

Quattrone, A. et al. Un nuevo índice de imágenes de RM para diferenciar la parálisis supranuclear progresiva-parkinsonismo de la enfermedad de Parkinson. Parque. Relativo Desorden. 54, 3–8. https://doi.org/10.1016/j.parkreldis.2018.07.016 (2018).

Artículo Google Académico

Rizzo, G. et al. Precisión del diagnóstico clínico de la enfermedad de Parkinson: una revisión sistemática y un metanálisis. Neurología 86, 566–576. https://doi.org/10.1212/WNL.0000000000002350 (2016).

Artículo PubMed Google Académico

Hughes, AJ, Daniel, SE, Kilford, L. & Lees, AJ Precisión del diagnóstico clínico de la enfermedad de Parkinson idiopática: un estudio clínico-patológico de 100 casos. J. Neurol. neurocirugía Psiquiatría 55, 181–184. https://doi.org/10.1136/jnnp.55.3.181 (1992) https://jnnp.bmj.com/content/55/3/181.full.pdf.

Artículo CAS PubMed PubMed Central Google Scholar

Gilman, S. et al. Segunda declaración de consenso sobre el diagnóstico de la atrofia multisistémica. Neurología 71, 670–676. https://doi.org/10.1212/01.wnl.0000324625.00404.15 (2008) https://n.neurology.org/content/71/9/670.full.pdf.

Artículo CAS PubMed PubMed Central Google Scholar

Höglinger, GU et al. Diagnóstico clínico de parálisis supranuclear progresiva: los criterios de la sociedad de trastornos del movimiento. Muévete Desorden. 32, 853–864. https://doi.org/10.1002/mds.26987 (2017).

Artículo Google Académico

Whitcher, B., Schmid, VJ & Thorton, A. Trabajando con los estándares de datos DICOM y NIfTI en RJ Stat. suave 44, 1–29. https://doi.org/10.18637/jss.v044.i06 (2011).

Artículo Google Académico

Heinen, R. et al. Robustez de métodos automatizados para mediciones de volumen cerebral a través de diferentes intensidades de campo de resonancia magnética. PLoS ONEhttps://doi.org/10.1371/journal.pone.0165719 (2016).

Artículo PubMed PubMed Central Google Académico

Velasco-Annis, C., Akhondi-Asl, A., Stamm, A. & Warfield, SK Reproducibilidad de algoritmos de segmentación de resonancia magnética cerebral: comparación empírica del mapa local PSTAPLE, FreeSurfer y FSL-first. J. Neuroimagen 28, 162–172. https://doi.org/10.1111/jon.12483 (2017).

Artículo PubMed Google Académico

recon-todo.

Iglesias, JE et al. Segmentación bayesiana de estructuras del tronco encefálico en resonancia magnética. NeuroImagen 113, 184–195. https://doi.org/10.1016/j.neuroimage.2015.02.065 (2015).

Artículo PubMed Google Académico

Kleesiek, J. et al. Extracción profunda del cerebro por resonancia magnética: una red neuronal convolucional 3D para la extracción del cráneo. NeuroImagen 129, 460–469. https://doi.org/10.1016/j.neuroimage.2016.01.024 (2016).

Artículo PubMed Google Académico

Kalavathi, P. & Prasath, VBS Methods on skull stripping of MRI head scan images: A review. J. Dig. Imágenes 29, 365–379. https://doi.org/10.1007/s10278-015-9847-8 (2015).

Artículo Google Académico

Bocchetta, M. et al. La segmentación automatizada del tronco encefálico detecta la participación diferencial en los síndromes parkinsonianos atípicos. J. Movem. Desorden. 13, 39–46. https://doi.org/10.14802/jmd.19030 (2020).

Artículo Google Académico

Manjon, JV et al. pBrain: una nueva vía para la segmentación de la estructura cerebral relacionada con el Parkinson. Neuroimagen Clin. 25, 102184. https://doi.org/10.1016/j.nicl.2020.102184 (2020).

Artículo PubMed PubMed Central Google Académico

Ioffe, S. & Szegedy, C. Normalización por lotes: aceleración del entrenamiento de redes profundas mediante la reducción del cambio de covariable interno. https://doi.org/10.48550/ARXIV.1502.03167 (2015).

Hatamizadeh, A. et al. Swin unetr: transformadores Swin para la segmentación semántica de tumores cerebrales en imágenes de resonancia magnética. En BrainLes@MICCAI (2022).

Consorcio, M. Monai: Red abierta médica para ia. tecnología Rep.https://doi.org/10.5281/zenodo.6903385 (2022).

Sheller, MJ et al. Aprendizaje federado en medicina: facilitar colaboraciones multiinstitucionales sin compartir datos de pacientes. ciencia Rep.https://doi.org/10.1038/s41598-020-69250-1 (2020).

Artículo PubMed PubMed Central Google Académico

Austin, PC, Tu, JV, Ho, JE, Levy, D. & Lee, DS Uso de métodos de la literatura de minería de datos y aprendizaje automático para la clasificación y predicción de enfermedades: un estudio de caso que examina la clasificación de los subtipos de insuficiencia cardíaca. J. Clin. Epidemiol. 66, 398–407. https://doi.org/10.1016/j.jclinepi.2012.11.008 (2013).

Artículo PubMed PubMed Central Google Académico

Thabtah, F., Abdelhamid, N. & Peebles, D. Una clasificación de autismo de aprendizaje automático basada en análisis de regresión logística. Información de salud ciencia Sist.https://doi.org/10.1007/s13755-019-0073-5 (2019).

Artículo PubMed PubMed Central Google Académico

Nusinovici, S. et al. La regresión logística fue tan buena como el aprendizaje automático para predecir las principales enfermedades crónicas. J. Clin. Epidemiol. 122, 56–69. https://doi.org/10.1016/j.jclinepi.2020.03.002 (2020).

Artículo PubMed Google Académico

Friedman, JH Aproximación de funciones codiciosas: una máquina potenciadora de gradientes. Ana. Estadística 29, 1189–1232. https://doi.org/10.1214/aos/1013203451 (2001).

Artículo MathSciNet MATEMÁTICAS Google Académico

Ogunleye, A. y Wang, Q.-G. Modelo XGBoost para el diagnóstico de enfermedad renal crónica. Trans. IEEE/ACM. computar Biol. Bioinformar. 17, 2131–2140. https://doi.org/10.1109/TCBB.2019.2911071 (2020).

Artículo PubMed Google Académico

Descargar referencias

Este estudio fue apoyado por la subvención de la Fundación Nacional de Investigación de Corea (NRF) financiada por el gobierno coreano (MSIT) (2021R1F1A106153511), por la subvención del Fondo de Desarrollo de Dispositivos Médicos de Corea financiada por el gobierno coreano (Ministerio de Ciencia y TIC, Ministerio de Comercio , Industria y Energía, Ministerio de Salud y Bienestar, Ministerio de Seguridad de Alimentos y Medicamentos) (202011B08-02, KMDF_PR_20200901_0014-2021-02), por el Programa de Innovación Tecnológica (20014111) financiado por el Ministerio de Comercio, Industria y Energía (MOTIE , Korea), y por el Future Medicine 20*30 Project del Samsung Medical Center (SMX1210791). Los patrocinadores brindaron apoyo en forma de salarios para algunos autores, pero no tuvieron ninguna participación adicional en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito. Las funciones específicas de los autores se informan en la sección correspondiente.

Estos autores contribuyeron por igual: Joomee Song y Juyoung Hahm.

Centro del Departamento de Neurología y Neurociencia, Centro Médico Samsung, Facultad de Medicina de la Universidad Sungkyunkwan, Seúl, República de Corea

Lo mejor de Joomee Song, Jinyoung Youn, Jin Whan Cho y Jong Hyeon Ahn

Centro de Investigación de IA Médica, Instituto de Investigación para la Medicina del Futuro, Centro Médico Samsung, Seúl, República de Corea

Juyoung Hahm, Jisoo Lee, Chae Yeon Lim, Myung Jin Chung y Kyungsu Kim

Departamento de Bioestadística, Universidad de Columbia

Juyoung Hahm

Departamento de Ingeniería Eléctrica e Informática, Universidad de Maryland, College Park, MD, EE. UU.

jisoo lee

Departamento de Gestión e Investigación de Dispositivos Médicos, SAIHST, Universidad Sungkyunkwan, Seúl, República de Corea

Chae Yeon Lim

Departamento de Radiología, Centro Médico Samsung, Facultad de Medicina de la Universidad Sungkyunkwan, Seúl, República de Corea

Myung Jin Chung

Departamento de Convergencia de Datos y Medicina del Futuro, Facultad de Medicina de la Universidad Sungkyunkwan, Seúl, República de Corea

Myung Jin Chung y Kyungsu Kim

Departamento de Radiología, Massachusetts General Brigham and Harvard Medical School, Boston, MA, EE. UU.

kyungsu kim

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

(1) Proyecto de Investigación: A. Concepción y diseño, B. Adquisición de datos, C. Análisis e interpretación de datos. (2) Manuscrito: A. Redacción del primer borrador, B. Revisión y crítica. (3) Otros: A. Análisis estadístico, B. Obtención de financiamiento, C. Apoyo técnico, D. Supervisión del estudio, E. Supervisión de la recolección de datos. JS: 1A, 1B, 1C, 2A, 2B, JH: 1C, 2A, 2B, 3A, 3C, JL: 2B, 3A, 3C, CYL: 3C, MJC: 3B, 3C, JY: 1B, 2B, JWC: 1B, 2C, 3E, JHA: : 1B, 1C, 2B, 3D, 3E, KK: 1A, 1C, 2A, 2B, 3A, 3C, 3D.

Correspondencia a Jong Hyeon Ahn o Kyungsu Kim.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Se revisó la versión original en línea de este Artículo: En la versión original de este Artículo, el Archivo Suplementario, que se incluyó con la presentación inicial, se omitió de la sección Información Suplementaria. El archivo de información complementaria correcto ahora acompaña al artículo original.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Song, J., Hahm, J., Lee, J. et al. Validación comparativa de métodos de IA y no IA en volumetría de resonancia magnética para diagnosticar síndromes parkinsonianos. Informe científico 13, 3439 (2023). https://doi.org/10.1038/s41598-023-30381-w

Descargar cita

Recibido: 15 Octubre 2022

Aceptado: 21 de febrero de 2023

Publicado: 01 marzo 2023

DOI: https://doi.org/10.1038/s41598-023-30381-w

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR