banner

Noticias

Sep 11, 2023

El aprendizaje automático identifica reglas sencillas de alerta temprana para brotes humanos de hantavirus Puumala

Scientific Reports volumen 13, Número de artículo: 3585 (2023) Citar este artículo

523 Accesos

2 Altmetric

Detalles de métricas

Las infecciones por el virus Puumala humano (PUUV) en Alemania fluctúan plurianualmente, siguiendo las fluctuaciones del tamaño de la población del campañol de banco. Aplicamos una transformación a los valores de incidencia anual y establecimos un método heurístico para desarrollar un modelo sencillo y robusto para el riesgo binario de infección humana a nivel de distrito. El modelo de clasificación fue impulsado por un algoritmo de aprendizaje automático y logró una sensibilidad del 85 % y una precisión del 71 %, a pesar de utilizar solo tres parámetros meteorológicos de los años anteriores como entradas, a saber, la temperatura del suelo en abril de dos años antes y en septiembre del año anterior. año, y la duración de la insolación en septiembre de dos años antes. Además, presentamos el Índice de brotes PUUV que cuantifica la sincronía espacial de los brotes PUUV locales y lo aplicamos a los siete brotes informados en el período 2006-2021. Finalmente, utilizamos el modelo de clasificación para estimar el índice de brote PUUV, logrando una incertidumbre máxima del 20 %.

Las condiciones ambientales desencadenadas por el cambio climático desempeñan un papel cada vez mayor en la propagación de enfermedades infecciosas zoonóticas, al alterar los hábitats naturales de los animales, influir en la disponibilidad de alimentos e incluso provocar cambios en la distribución de especies. Dentro de este marco, hemos desarrollado un modelo simple basado en el clima para el riesgo de infección humana por Puumala Orthohantavirus (PUUV) en Alemania.

El PUUV es el hantavirus más común en Europa, transmitido por campañoles de banco (Clethrionomys glareolus, syn. Myodes glareolus). La PUUV puede causar fiebre hemorrágica de leve a moderada con síndrome renal (nefropatía epidémica) con una tasa de mortalidad de 0,1 a 0,4 %1. Las infecciones por PUUV en humanos fluctúan multianualmente. Recientemente, ha habido varios años con \(>{1000}\) casos anuales notificados en Alemania2, generalmente y en gran escala impulsados ​​por la intensidad de los mástiles de las hayas (Fagus spec.), como se mostró en el pasado para Bélgica3,4 y para Alemania5 ,6.

Los mecanismos subyacentes para la tasa de transmisión de PUUV a los humanos parecen demasiado complejos para modelarlos directamente, ya que dependen de la abundancia de las poblaciones de campañoles de banco, su prevalencia de PUUV y la interacción humano-campañol de banco; todos los cuales fluctúan temporalmente y varían localmente. Sin embargo, las condiciones climáticas pueden usarse como predictores del riesgo de infección por PUUV en humanos, porque la fluctuación en las poblaciones de campañoles de banco se correlaciona fuertemente con los parámetros climáticos de los dos años anteriores7, mientras que la prevalencia de PUUV depende principalmente de la abundancia de campañoles de banco3,8, 9.

Seleccionamos distritos alemanes con un número significativo de infecciones humanas e incidencia en 2006-2021, e inspeccionamos las correlaciones de la incidencia PUUV anual con parámetros meteorológicos mensuales a nivel de distrito. Realizamos una transformación de datos que destaca la sincronía espacial de la fluctuación temporal de la incidencia PUUV. Esta transformación permitió desarrollar un modelo de clasificación binaria basado en máquinas de vectores de soporte (SVM) para los brotes relacionados con el distrito, aplicable en todo el país y basado únicamente en parámetros meteorológicos de fácil acceso. Además, introdujimos el índice de brote PUUV (POI) como un indicador del riesgo anual de infección por PUUV en humanos. El POI permite una definición inequívoca de un brote de PUUV por primera vez, considerando la magnitud local de la incidencia de PUUV. La definición de POI es independiente del total de infecciones anuales, pero sus valores están altamente correlacionados. Finalmente, aplicamos el modelo de clasificación binaria al PDI y demostramos que solo tres valores de parámetros meteorológicos son suficientes para dar una buena estimación. El modelo de POI combinado se puede aplicar como una regla empírica directa para la detección de años de alto riesgo. Dicho modelo se puede utilizar para interpretar los brotes de PUUV, pero también para obtener aproximaciones sobre la dinámica de los roedores. Esto es muy importante para apoyar estrategias y decisiones para la protección de la salud humana y de las plantas por igual.

Con base en los valores locales de infección e incidencia, seleccionamos 66 distritos en Alemania, donde PUUV estuvo constantemente presente en 2006-2021 (Fig. 1). Los distritos seleccionados concentran 10.090 infecciones PUUV humanas, el 89,9% del total de infecciones notificadas a nivel nacional en este período (Fig. 1, gradiente rojo). Los distritos se agrupan en cuatro grupos, de acuerdo con el borde hipotético del rango del linaje evolutivo del ratón de campo occidental10 y que comprende todos los clados moleculares PUUV detectados hasta ahora11,12,13. El primer grupo (Fig. 1, contorno cian) contiene 10 distritos entre Baja Sajonia y Renania del Norte-Westfalia, en la frontera con los Países Bajos, y corresponde a los clados de Münsterland y del Bosque de Teutoburgo. El segundo grupo (Fig. 1, contorno verde) comprende 2 distritos en el suroeste de Renania del Norte-Westfalia, ambos del clado de Renania. El grupo más grande (Fig. 1, contorno morado) contiene 50 distritos en un corredor vertical central con una longitud de unos 450 km y una anchura máxima de unos 200 km, que se expande desde Hesse y Turingia, a través de Baviera, hasta el sur de Baden- Württemberg en la frontera con Suiza. Este grupo incluye los clados moleculares PUUV del noreste de Essen, el bosque de Spessart, el Jura de Suabia y el bosque de Turingia. Finalmente, el último grupo (Fig. 1, contorno azul) contiene 4 distritos en el este de Baviera en la frontera con la República Checa, con el clado molecular PUUV del Bosque Bávaro.

Selección de los distritos para el análisis. Los 66 distritos seleccionados en toda Alemania se muestran en degradado rojo según sus infecciones PUUV totales en 2006-2021. La barra de colores es lineal en el rango [0, 50] y escala logarítmica en [50, 650] para una mayor visibilidad. Había 26 distritos de Baden-Württemberg (BW), 16 de Baviera (BY), 8 de Hesse (HE), 3 de Baja Sajonia (NI), 10 de Renania del Norte-Westfalia (NW), 1 de Renania-Palatinado ( RP), y 2 de Turingia (TH). Gruesas líneas negras separan los estados federales; líneas gruesas de colores separan cuatro grupos de los clados moleculares PUUV detectados, como se describe en el texto. Otros distritos se muestran en degradado gris con la misma escala de barra de colores. El mapa se generó usando el paquete geopandas v0.9.0 (https://geopandas.org) en Python v3.8.5. Se proporciona más información sobre los datos sin procesar, el procesamiento y la visualización en la sección Métodos.

Había 12 distritos que son combinaciones de un distrito urbano con su distrito rural vecino o circundante, que se muestran en la Tabla complementaria 1. Los únicos distritos urbanos que permanecieron separados fueron Colonia (Köln), Münster y Stuttgart, cuyas áreas son claramente grandes.

Aplicamos una transformación logarítmica a los valores de incidencia, seguida de una clasificación binaria individual para cada distrito. Las dos clases resultantes se etiquetaron como "bajo riesgo" y "alto riesgo". Se produjo un "brote" local en un año en que la incidencia en un distrito se clasificó en la categoría de alta incidencia de los valores registrados. La incidencia en los distritos para los años sin brote fue cero o se consideró baja en relación con los valores registrados en este distrito específico. Del total de 1056 observaciones (16 años \(\veces\) 66 distritos), 682 fueron asignadas de bajo riesgo (65%) y 374 fueron asignadas de alto riesgo (35%). Se registraron un total de 8779 infecciones en las observaciones asignadas a la clase de alto riesgo, lo que representó el 87 % del total de infecciones incluidas en este análisis (o el 78 % del total de infecciones en Alemania en 2006-2021).

Al ser la clasificación binaria por distritos, se puede asignar el mismo valor de incidencia a bajo o alto riesgo, según el distrito (fig. 2).

Los valores de incidencia anual en los distritos seleccionados desde 2006 hasta 2021. Los 66 distritos están ordenados por la máxima incidencia anual. El contenedor de bajo riesgo se indica mediante triángulos azules (en el lado izquierdo de la gráfica). El contenedor de alto riesgo se indica con diamantes rojos (en el lado derecho de la gráfica). Los triángulos rellenos y los rombos indican el valor medio de cada contenedor. Las líneas sólidas resaltan el rango de incidencia de cada contenedor. Los espacios blancos entre las líneas azul y roja indican la separación entre los dos contenedores para cada distrito. El eje x es lineal en el rango [0, 1] y escala logarítmica en [1, 110] para una mayor visibilidad. La convención de nombres coincide con la de la versión alemana de SurvStat@RKI 2.0. LK: distrito rural (del alemán Landkreis) y SK: distrito urbano (del alemán Stadtkreis).

Sobre la base de los brotes locales, desarrollamos el índice de brote PUUV (POI) como un indicador del riesgo anual de infección por PUUV en humanos en Alemania, es decir, para el brote global de PUUV. El valor de cada año en el POI se definió como la proporción de distritos asignados a alto riesgo de infección para ese año (Tabla 1):

Los años con \(>{900}\) infecciones totales notificadas en los distritos seleccionados tienen un valor de POI de \(>\text{50\%}\).

Nuestro conjunto de predictores iniciales comprendía parámetros meteorológicos mensuales de los dos años anteriores. Seleccionamos el triple de variables que condujo al modelo de clasificación óptimo para la incidencia transformada logarítmica binarizada: la temperatura del suelo en abril de dos años antes (V2_ST_4), la duración total de la insolación en septiembre de dos años antes (V2_SD_9) y la temperatura del suelo en septiembre del año anterior (V1_ST_9). El modelo resultante tenía una precisión del 82,6 %, una sensibilidad del 84,8 %, una precisión del 71,4 %, una especificidad del 81,4 % y una puntuación F1 de 0,775. Los elementos de la matriz de confusión fueron: verdaderos negativos \({\text{TN}}={555}\) (53% del total de 1056 observaciones), falsos negativos \({\text{FN}}={57} \) (5 %), falsos positivos \({\text{FP}}={127}\) (12 %) y verdaderos positivos \({\text{TP}}={317}\) (30 % ). 5/7 clasificaciones de alto riesgo fueron correctas (precisión), y casi 6/7 observaciones reales de alto riesgo fueron correctamente clasificadas (sensibilidad). Las observaciones en falsos negativos sumaron 301 infecciones, lo que representó el 3,5 % de las infecciones en observaciones reales de alto riesgo (o el 3,0 % del total de infecciones).

Para los pares (V2_SD_9, V1_ST_9) y (V2_ST_4, V1_ST_9) las dos clases de riesgo eran linealmente separables, con sensibilidad \(>\text{77\%}\) y precisión \(>\text{67\%}\ ) (Fig. 3a,b). Los parámetros meteorológicos son en su mayor parte espacialmente uniformes. Por lo tanto, las observaciones de cada año formaron grupos en el espacio de entrada 3D de nuestro modelo. Los valores de las variables meteorológicas para estos "centros de agrupaciones" fueron los valores medios anuales de toda Alemania.

Vistas del modelo. Gráficos de dispersión 2D con las 1056 observaciones de 2006 a 2021 para los tres pares de variables en el modelo 3D seleccionado. V1_ST_9 en (a) y (b): la temperatura media del suelo en septiembre del año anterior, V2_SD_9 en (a) y (c): la duración total de la insolación en septiembre de dos años antes, y V2_ST_4 en (b) y ( c): la temperatura media del suelo en abril de dos años antes. El amarillo (código de color hexadecimal #FDE725FF) corresponde a observaciones de bajo riesgo, mientras que el índigo (código de color hexadecimal #440154FF) corresponde a observaciones de alto riesgo. Los marcadores x rojos superpuestos indican los valores de las variables de cada año promediados en toda Alemania, llamados centros de conglomerados. Los marcadores de diamantes rojos indican los valores medios en Alemania para 2022 (marcadores rellenos) y para 2023 (marcadores vacíos).

Debido a la agrupación de las variables climáticas y la separación de los datos de cada año, el modelo clasificó todos los distritos de cada año en la misma clase de riesgo. Las únicas excepciones fueron 2006 y 2021, los años cuyos grupos estaban más cerca del límite de clase planar. Para 2006, 58 distritos fueron clasificados en la clase de bajo riesgo y 8 en la clase de alto riesgo. Para 2021, 40 distritos se clasificaron en la clase de alto riesgo y 26 en la clase de bajo riesgo. Todas las observaciones de 2007, 2010, 2012, 2015, 2017 y 2019 se clasificaron en la clase de alto riesgo, que las designó como años de brote PUUV; mientras que todas las observaciones de 2008, 2009, 2011, 2013, 2014, 2016, 2018 y 2020 se clasificaron en la clase de bajo riesgo.

La precisión anual más alta fue del 98% para 2009 (1 FN). Durante siete años adicionales, se logró una precisión anual \(>\text{90\%}\), es decir, 2012 desde los años del brote y 2008, 2011, 2013, 2016, 2018 y 2020 desde los años sin brote. La precisión anual más baja fue del 41 % para 2015 (39 FP), seguida del 65 % para 2021 (12 FP y 11 FN). Para 2014, las únicas clasificaciones incorrectas fueron los falsos negativos (15 FN, 77 % de precisión). La precisión más alta se logró en Baden-Württemberg (90 %) y la más baja en Renania del Norte-Westfalia (66 %) y Baja Sajonia (69 %). Hubo 6 distritos de Baden-Württemberg, 2 de Baviera y 1 de Hesse con un 100 % de precisión. Otros 15 distritos tenían una sola clasificación falsa (9 FP y 6 FN). Los números máximos de falsos negativos provinieron de los distritos de Borken y Bentheim, con 7 FN y 6 FN, respectivamente. Borken también tuvo la precisión más baja entre los distritos con 44% (7 FN y 2 FP).

Según nuestro modelo de clasificación, un hiperplano separaba las dos clases de riesgo. Este hiperplano era un límite plano en el espacio 3D:

Basándonos en este plano, podríamos definir el riesgo de infección binaria con respecto a V1_ST_9, la última variable meteorológica que está disponible antes de la predicción:

donde hemos redondeado los coeficientes a tres cifras significativas. En Ecs. (2)–(4), las unidades para las temperaturas ST son °C, y para la duración de la insolación SD son horas. Para minimizar los errores de redondeo, ST debe tener una precisión de al menos dos decimales y SD de al menos un decimal.

La distancia de los centros de conglomerados desde el límite plano del modelo de clasificación (Ec. 2) puede servir como una medida cualitativa para el riesgo global de infección por PUUV. La Figura 4 muestra el POI para 2006–2021 con respecto a la distancia del centro del grupo correspondiente desde el límite planar. Las observaciones forman dos grupos: para \({\text{distancia}}_{\text{t}}>-\text{0.03}\) (una distancia positiva significa que la observación está por encima del límite con respecto a V1_ST_9; por lo tanto, existe un alto riesgo de infección para ese año) y para \({\text{distancia}}_{\text{t}}<-\text{0.37}\) (una distancia negativa significa que la observación está por debajo de la límite con respecto a V1_ST_9; por lo tanto, existe un bajo riesgo de infección para ese año). Comparamos las medias de los grupos mediante un ANOVA unidireccional con la función f_oneway de la biblioteca SciPy14. Con base en el valor F de 97 y el valor p de 1.1 × 10−7, concluimos que las medias de los dos grupos fueron significativamente diferentes desde el punto de vista estadístico.

Estimación del Índice de Brotes PUUV a partir del modelo de clasificación. Se grafica la proporción de distritos con alto riesgo para cada año, que se definió como Índice de Brotes PUUV, con respecto a la distancia desde el límite plano de los centros de los conglomerados, es decir, de los puntos definidos por los valores promedio de los parámetros climáticos. sobre Alemania para ese año. Las líneas discontinuas rojas muestran un ajuste constante por tramos a los datos (pseudo-R2 = 0,87, calculado según 15). El área sombreada en rojo indica la incertidumbre. El área punteada para las distancias en el intervalo \(\text{[}-\text{0.37,}-\text{0.03]}\) representa el aumento de la incertidumbre sobre la posición de la discontinuidad.

Aplicamos una función constante por partes como ajuste; para cada grupo asumimos un valor constante para el POI, definido por el promedio de los valores registrados de ese grupo. El error estándar de la media fue de 2,21 % para el grupo de bajo riesgo (\({\text{distancia}}_{\text{t}}<-\text{0,37}\)), y de 6,77 % para el de alto -grupo de riesgo (\({\text{distancia}}_{\text{t}}>-\text{0.03}\)). Para las distancias en el intervalo \(\text{[}-\text{0.37,}-\text{0.03]}\), donde ocurrió el paso y no había ninguna observación disponible, no se pudo generar una estimación. Con una incertidumbre igual a tres veces el error estándar de la media, podríamos estimar el POI para el año \({\text{t}}\) como:

Aplicamos un método riguroso y exhaustivo para seleccionar el triple óptimo de variables climáticas para un modelo que predice el riesgo de infección por PUUV en humanos. El modelo de clasificación resultante tuvo un alto poder explicativo con casi un 85% de sensibilidad y más del 70% de precisión. Aunque nuestro método puede no dar el máximo global con respecto a un criterio de rendimiento específico, evita incluir variables altamente correlacionadas y está obligado a tener una alta sensibilidad y precisión. Un clasificador con solo dos variables sería más sencillo y fácil de entender. Aunque la adición de una tercera variable aumenta el rendimiento solo marginalmente, hace que el modelo sea más robusto y menos propenso a variables ocultas. Al aumentar aún más las dimensiones, se espera que la separación de las dos clases de riesgo sea más fácil, aunque no hay indicios de que las clases sean perfectamente separables linealmente. Los parámetros meteorológicos del año real influyen tanto en las poblaciones de ratones de banco16,17 como en las actividades humanas18, así como en su interacción y, por lo tanto, se espera que impulsen las infecciones notificadas de una manera que no puede ser encapsulada por un modelo de predicción con variables del años pasados. Nuestro clasificador es, en esencia, un modelo de predicción para la producción de semillas de haya y la abundancia de campañol de banco. Por lo tanto, también se puede aplicar para el manejo de roedores y estrategias de protección de plantas.

Nuestro análisis asume que las correlaciones entre los parámetros meteorológicos y las infecciones PUUV humanas son las mismas para todos los distritos y no varían en el tiempo, es decir, permanecen constantes en el tiempo, lo que permite considerar cada observación como independiente. Una suposición subyacente adicional fue que el monitoreo de las enfermedades por hantavirus y el impacto de cualquier contramedida permanecen constantes en cada distrito, aunque pueden diferir entre distritos.

Nuestro método revela una fuerte influencia del riesgo de infección de los parámetros meteorológicos en abril y septiembre de dos años antes, y del septiembre anterior. Además, una variable meteorológica del mes de septiembre anterior estaba contenida en todos los pares de variables con el rendimiento óptimo, lo que sitúa la predicción más temprana posible a principios de octubre del año anterior. Esto debería proporcionar tiempo suficiente para preparar contramedidas y concienciar a las autoridades sanitarias, los grupos de riesgo y los médicos sobre el riesgo del virus.

Las variables climáticas de dos años antes probablemente estaban relacionadas con la producción de semillas de haya del año anterior, que a su vez determina la disponibilidad de alimentos y gobierna el crecimiento de las poblaciones de ratones de campo4,6. Un aumento de la temperatura del suelo en otoño del año anterior podría conducir a una mayor población inicial para el próximo año, al facilitar las últimas semanas de la temporada de reproducción y aumentar la tasa de supervivencia de los roedores.

Este modelo estima el riesgo de infección por PUUV y, por lo tanto, es probable que tenga un sesgo positivo en comparación con las infecciones o la incidencia notificadas. Por lo tanto, es posible que tengamos que aceptar sobreestimaciones (falsos positivos). En la Nota complementaria 1 se proporciona una inspección detallada de varias subestimaciones (falsos negativos). Nuestra hipótesis es que muchas subestimaciones de Baja Sajonia y Renania del Norte-Westfalia no se debieron a un brote local, sino a un aumento en la línea de base PUUV. en distritos específicos, debido a cambios en el sistema de notificación y a una mayor concienciación en los departamentos de salud locales. Otra posibilidad es que la temporada PUUV pueda comenzar antes en el norte de Alemania en comparación con los otros grupos PUUV. Finalmente, estas infecciones pueden estar conectadas con una propagación PUUV desde los Países Bajos vecinos.

La binarización de la incidencia sugiere una sincronía espacial de los brotes de PUUV en Alemania. Esto se opone a un informe reciente sobre la falta de sincronía en 201919, pero está de acuerdo con estudios anteriores11,20. La introducción del POI permite la definición inequívoca de un año de brote, lo que a su vez puede facilitar la transferencia de resultados de predicción a través de los medios y otras comunicaciones públicas. Un valor alto del POI indica un mayor riesgo para una gran proporción de distritos. Este método se puede extender fácilmente para describir brotes de cualquier enfermedad infecciosa zoonótica con fluctuación temporal y falta de homogeneidad espacial.

Nuestro modelo de clasificación se puede aplicar como una regla empírica directa para la detección de años de alto riesgo, aunque no está estrictamente desarrollado como modelo de predicción y aún no está validado como tal. Combinándolo con el POI, podemos predecir los años del brote. Este método no ofrece información espacial detallada, porque utiliza parámetros meteorológicos que forman constelaciones y, por lo tanto, puede considerarse espacialmente uniforme en grandes áreas. No obstante, tal predicción puede aumentar el estado de preparación y crear conciencia sobre la detección de virus y el riesgo de infección humana. Aplicamos este concepto para estimar el riesgo de infección por PUUV en Alemania en 2022. Los valores para los grupos centrales de 2022 (Fig. 3) no se han observado durante 2006-2021, ni durante los años anteriores 2002-2005. Por lo tanto, los valores de incidencia de este año permitirán refinar los coeficientes del modelo y disminuir su incertidumbre. La distancia del clúster central de 2022 desde el límite lineal del modelo es \(-\text{1.08}\), por lo que se espera un bajo riesgo global de infección por PUUV. Aplicando la Ec. (5), el valor predicho en el POI es \(\text{7.7\%}\pm \text{6.6\%}\), es decir, es probable que solo entre 1 y 10 distritos notifiquen una cantidad relativamente alta de infecciones en 2022. La distancia del clúster central de 2023 desde el límite lineal del modelo es \(-\text{0.35}\); este valor cae dentro del intervalo de mayor incertidumbre de la ecuación. (5) y no permite una estimación definitiva del riesgo global de infección por PUUV. Aplicando Ecs. (3) y (4) a nivel de distrito, 11 distritos de Baja Sajonia y Renania del Norte-Westfalia se encuentran en la clase de alto riesgo y, por lo tanto, es probable que notifiquen una cantidad relativamente alta de infecciones en 2023. Esto conduce a un POI esperado del 16,7%.

Los datos de cobertura y uso de la tierra no se han incluido en este modelo, pero se han informado previamente como posibles predictores generales de la prevalencia PUUV del campañol de banco21 y la incidencia PUUV humana17,22. Consideramos que esos efectos se incorporan a la transformación de la incidencia basada en distritos, es decir, la cobertura o el uso del suelo pueden determinar la magnitud local de la incidencia PUUV, pero no influyen en la probabilidad de un brote.

En el futuro, este enfoque puede complementarse con información espacial, al incluir una variable variable en el tiempo y espacialmente no uniforme, por ejemplo, la intensidad de los mástiles de las hayas o la intensidad de la floración de las hayas como indicadores indirectos de la producción de semillas de hayas. Tal variable puede aumentar la separación entre las observaciones de 2006 y 2021, en lados opuestos del límite de decisión; dos años con constelaciones meteorológicas relativamente similares pero valores de incidencia claramente diferentes. Los años 2014 y 2015 son los atípicos que no parecen encajar razonablemente en las clases de bajo y alto riesgo, lo que sugiere la existencia de una tercera clase con riesgo medio. Sin embargo, las observaciones actualmente disponibles no son suficientes para distinguir tal clase.

Realizamos la adquisición, procesamiento, análisis y visualización de datos utilizando Python23 versión 3.8 con los paquetes Numpy24, Pandas25, Geopandas26, Matplotlib27, Selenium, Beautiful Soup28, SciPy14 y scikit-learn29. Las funciones utilizadas para tareas específicas se mencionan explícitamente para permitir estudios de validación y replicación.

La enfermedad por hantavirus es de declaración obligatoria en Alemania desde 2001. El Instituto Robert Koch recopila datos anónimos de los departamentos de salud pública locales y estatales y ofrece a través de la aplicación SurvStat2 una versión limitada y de libre acceso de su base de datos con fines informativos y de investigación. Recuperamos las infecciones PUUV humanas confirmadas por laboratorio informadas (\({\text{n}}=\text{11,228}\) de 2006 a 2021, estado: 2022-02-07). De los atributos disponibles para cada caso, recuperamos la resolución temporal y espacial más fina, es decir, la semana y el año de la notificación, junto con el distrito (denominado "County" en la versión en inglés de la interfaz de SurvStat).

Para evitar el sesgo debido a la subnotificación, nuestro conjunto de datos se limitó a las infecciones por PUUV desde 2006. Los años 2006 a 2021 contienen el 91,9 % del total de casos desde 2001 a 2021. La incidencia de PUUV en humanos se calculó como el número de infecciones por cada 100 000 personas, por utilizando datos de población de Eurostat30. Para cada año, usamos la población reportada para el 1 de enero de ese año. La población de 2020 también se utilizó para 2021.

En el análisis, solo incluimos distritos donde el total de infecciones fue \(\ge {20}\) y la máxima incidencia anual fue \(\ge {2}\) en el período 2006-2021. La información espacial sobre los contagios que proporciona la aplicación SurvStat se refiere al distrito donde se reportó el contagio. Por lo tanto, en la mayoría de los casos, el distrito informado corresponde a la residencia de la persona infectada, que puede diferir del distrito de infección. Para compensar parcialmente las diferencias entre el lugar de residencia informado y el lugar de infección, combinamos la mayoría de los distritos urbanos con su distrito rural circundante. La suposición subyacente era que la mayoría de las infecciones notificadas en los distritos urbanos ocurrieron en el distrito rural vecino o circundante. Además, algunos distritos urbanos y rurales tienen el mismo departamento de salud. La Tabla complementaria 1 enumera los distritos combinados.

Del Servicio Meteorológico Alemán31 recuperamos cuadrículas de los siguientes parámetros meteorológicos mensuales en Alemania desde 2004 hasta 2021: temperatura media diaria del aire—Tmedia, temperatura mínima diaria del aire—Tmin y temperatura máxima diaria del aire—Tmax (todas las temperaturas son los promedios mensuales de los valores diarios correspondientes, a 2 m de altura sobre el suelo, en °C); precipitación total en mm—Pr, duración total de la insolación en horas—SD, temperatura media mensual del suelo a 5 cm de profundidad bajo suelo típico descubierto de ubicación en °C—ST, y humedad del suelo bajo pasto y marga arenosa en porcentaje de agua utilizable por la planta—SM . La versión del conjunto de datos para Tmean, Tmin, Tmax, Pr y SD fue v1.0; para ST y SM la versión del conjunto de datos fue 0. × . La resolución espacial fue de 1 × 1 km2.

La adquisición de datos se realizó con el paquete Selenium. El procesamiento se basó en el paquete geopandas26 usando una capa vectorial geoespacial para los límites de distrito de Alemania32. Cada grilla fue procesada para obtener el valor promedio del parámetro sobre cada distrito. Primero usamos la función within para definir una máscara basada en los centros de cuadrícula contenidos en el distrito; luego aplicamos esta máscara a la cuadrícula. En este método, denominado "rasterización de puntos centrales"33, cada rectángulo de la cuadrícula se asignaba a un solo distrito, el que contenía su centro. El error de procesamiento típico se estimó en alrededor del 1%, lo que concuerda con el error de rasterización informado por Bregt et al.33; consideramos que lo más probable es que este error sea significativamente menor que las incertidumbres de las cuadrículas mismas, causadas por el cálculo, la interpolación y las observaciones erróneas o faltantes.

Nuestro análisis se realizó a nivel de distrito con base en las infecciones anuales, adquiridas agregando los casos semanales. De cada parámetro meteorológico mensual, creamos 24 registros, para todos los meses de los dos años anteriores. Cada observación en nuestro conjunto de datos caracterizó un distrito en un año. Su objetivo se adquirió transformando la incidencia anual, como se describe en la siguiente sección. Cada observación comprendía los 168 predictores disponibles de los parámetros meteorológicos (7 parámetros × 24 meses), a partir de entonces denominados "variables". La notación para la denominación de las variables sigue el formato Vx__, donde "Vx" puede ser V1 o V2 ​​que corresponde a uno o dos años antes, respectivamente; es la abreviatura del parámetro meteorológico (ver subsección anterior: "Datos meteorológicos"); y es el valor numérico del mes, es decir, del 1 al 12.

Las observaciones para los distritos combinados conservaron la etiqueta del distrito rural. Para sus infecciones y poblaciones, agregamos los valores individuales y volvimos a calcular la incidencia. Para sus variables climáticas, asignamos los valores medios ponderados por el área de cada distrito.

Para considerar los efectos que impulsan la ocurrencia de una alta incidencia relativa al distrito, discretizamos la incidencia a nivel de distrito. La incidencia escalada en su valor máximo para cada distrito mostró valores extremos para mínimos y máximos. Alrededor del 49% de todas las observaciones estuvieron en el rango [0, 0,1) y el 8% en el rango [0,9, 1] (Fig. 5). Por lo tanto, seleccionamos específicamente discretizar la incidencia escalada con dos bins, es decir, binarizarla.

Histogramas de la incidencia PUUV anual de 2006 a 2021, escalados a su valor máximo para cada uno de los distritos seleccionados. Izquierda: Incidencia bruta. Derecha: Incidencia transformada logarítmicamente, según la Ec. (6).

Primero aplicamos una transformación logarítmica a los valores de incidencia34, descrita en la ecuación. (6).

La adición de una constante positiva aseguró un valor no infinito para la incidencia cero, con 1 seleccionado para que la incidencia logarítmica no sea negativa, y una incidencia cero se transformó en una incidencia logarítmica cero. Esta transformación tenía como objetivo aumentar la influencia de los valores de incidencia distintos de cero; valores que no son pronunciados, pero que aún sugieren un riesgo de infección distinto de cero. Su efecto se demuestra en el gráfico de la derecha de la Fig. 5, donde se reduce la asimetría positiva de los datos originales, es decir, los valores de baja incidencia se extienden a valores más altos, lo que da como resultado alturas de intervalo más uniformes en el rango [0,05, 0,95] después la transformación. Formalmente, en este caso la transformación logarítmica logra una distribución más uniforme para los valores de incidencia no extrema.

Para la binarización, realizamos un agrupamiento no supervisado de la incidencia transformada logarítmicamente, por separado para cada distrito, aplicando la función KBinsDiscretizer del paquete scikit-learn29. Nuestra estrategia seleccionada fue el agrupamiento de k-medias con dos contenedores, porque no requiere un umbral predefinido y puede operar con el mismo número fijo de contenedores para cada distrito, ajustando automáticamente los centroides del conglomerado en consecuencia.

Nos concentramos solo en aquellas combinaciones de variables que condujeron a un límite de decisión lineal para la clasificación de nuestro objetivo seleccionado. Seleccionamos máquinas de vectores de soporte (SVM)35 con un núcleo lineal, porque combinan un alto rendimiento con una baja complejidad del modelo, ya que devuelven el límite de decisión como una ecuación lineal de las variables. Además, SVM está motivado geométricamente36 y se espera que sea menos propenso a valores atípicos y sobreajustes que otros algoritmos de clasificación de aprendizaje automático, como la regresión logística. Para el proceso de modelado completo, el parámetro de regularización C se estableció en 1, que es el valor predeterminado en el método SVC aplicado del paquete scikit-learn29, y los pesos para ambas clases de riesgo también se establecieron en 1.

Nuestro objetivo era utilizar el menor número posible de parámetros meteorológicos como variables para un modelo de clasificación con suficiente rendimiento. Para identificar la combinación de variables óptima, primero aplicamos una SVM con un kernel lineal para todas las combinaciones de 2 variables de las variables meteorológicas mensuales de V2 y V1, es decir, 168 variables (7 parámetros meteorológicos × 2 años × 12 meses). Solo para este paso, las variables se escalaron a sus valores mínimo y máximo, lo que redujo significativamente el tiempo de procesamiento. Para todos los pasos siguientes, se omitió el escalador porque se requerían los vectores de soporte sin escalar para el modelo final. Del total de 14 028 modelos para cada par único (\(\frac{168!}{2!\cdot \left(168-2\right)!}\)), mantuvimos los 100 modelos con la mejor puntuación F1, es decir, de la media armónica de sensibilidad y precisión, y contó las ocurrencias de cada combinación año-mes en las variables. La mejor puntuación de F1 fue 0,752 para el par (V1_Tmean_9 y V2_Tmax_4); y la mejor sensibilidad fue del 83% para el par (V2_Tmax_9 y V1_ST_9).

Las combinaciones año-mes con más del 10% de ocurrencias fueron: V1_9 (septiembre del año anterior, con 49% de ocurrencias), V2_9 (septiembre de dos años antes, con 12%) y V2_4 (abril de dos años antes, con 10 %). Para evitar conjuntos con variables altamente correlacionadas, formamos combinaciones de 3 variables, con exactamente una variable de cada combinación año-mes (producto cartesiano triple). Del total de 343 modelos (73 combinaciones, es decir, 7 parámetros meteorológicos para 3 combinaciones año-mes), seleccionamos el modelo con la mejor sensibilidad y al menos un 70 % de precisión, es decir, el conjunto de variables (V2_ST_4, V2_SD_9 y V1_ST_9) . Consideramos que los criterios para esta selección no son particularmente cruciales; y esperamos un desempeño comparable para la mayoría de los conjuntos de variables con un puntaje F1 alto, porque las variables para cada dimensión del producto cartesiano estaban altamente correlacionadas. Los ocho conjuntos de variables con al menos un 70 % de precisión y al menos un 80 % de sensibilidad se muestran en la Tabla complementaria 2.

El clasificador SVM tiene dos hiperparámetros: el parámetro de regularización C y los pesos de clase. Al disminuir C, el límite de decisión se vuelve más suave y se permiten más clasificaciones erróneas. Por otro lado, al aumentar el peso de la clase de alto riesgo, las clasificaciones erróneas de las observaciones de alto riesgo se penalizan más, lo que se espera que aumente la sensibilidad y disminuya la precisión. El ajuste simultáneo de ambos hiperparámetros asegura que el modelo resultante tenga el rendimiento óptimo con respecto a la métrica preferida. Sin embargo, para evitar el sobreajuste, consideramos redundante una optimización adicional del modelo con estos dos hiperparámetros. Para completar, examinamos los modelos SVM para diferentes valores de los hiperparámetros y encontramos que el máximo global para el puntaje F1 está en la región de 0.001 para C y 1.5 para el peso de la clase de alto riesgo. Nuestros valores seleccionados C = 1 y la ponderación de clase de alto riesgo igual a 1 dan la segunda mejor puntuación F1, que es un máximo local con un rendimiento comparable, en su mayoría insensible a la selección de C del rango [0.2, 5.5].

La adición de una cuarta variable de V1_6 (junio del año anterior) dio como resultado un modelo con mayor sensibilidad pero menor precisión y especificidad (para V1_Pr_6). El puntaje F1 más alto se logró para el cuádruple (V2_ST_4, V2_SD_9, V1_ST_9, V1_Pr_6). Debido a la mayor complejidad sin una mejora significativa en el rendimiento, consideramos innecesaria una mayor expansión de nuestro triplete variable.

Los datos que respaldan los hallazgos de este estudio están disponibles del autor correspondiente a pedido razonable.

La información sobre el software y los paquetes utilizados se proporciona en el manuscrito principal. El código que respalda los hallazgos de este estudio está disponible del autor correspondiente a pedido razonable. La información complementaria está disponible para este documento.

Krüger, DH, Schonrich, G. & Klempa, B. Hantavirus patógenos humanos y prevención de infecciones. Tararear. vacuna 7, 685–693 (2011).

Artículo PubMed PubMed Central Google Académico

Instituto Robert Koch. SurvStat@RKI 2.0, https://survstat.rki.de. (fecha límite: 2022-02-07).

Tersago, K. et al. Enfermedad por hantavirus (nefropatía epidémica) en Bélgica: Efectos de la producción de semillas de árboles y el clima. Epidemiol. Infectar. 137, 250–256 (2009).

Artículo CAS PubMed Google Académico

Clemente, J. et al. Relacionar el aumento de las incidencias de hantavirus con el clima cambiante: la conexión del mástil. En t. J. Salud Geogr. 8, 1 (2009).

Artículo PubMed PubMed Central Google Académico

Reil, D. et al. ¿Condiciones ambientales a favor de un brote de hantavirus en 2015 en Alemania?. Zoonosis Public Health 63, 83–88 (2016).

Artículo CAS PubMed Google Académico

Reil, D. et al. Hantavirus en Alemania: hallazgos actuales sobre patógenos, reservorios, modelos de distribución y pronóstico. Berlina mascar veterinario semanalmente 131, 453-464 (2018).

Google Académico

Imholt, C. et al. Cuantificación del impacto pasado y futuro del clima en los patrones de brotes de ratones de campo (Myodes glareolus). Manejo de plagas ciencia 71, 166–172 (2015).

Artículo CAS PubMed Google Académico

Khalil, H. et al. Dinámica y factores impulsores de la prevalencia de hantavirus en poblaciones de roedores. Enfermedades zoonóticas transmitidas por vectores. 14, 537–551 (2014).

Artículo PubMed Google Académico

Reil, D. et al. Infecciones por hantavirus Puumala en poblaciones de campañoles de banco: dinámica del huésped y del virus en Europa Central. BMC Ecol. 17, 9 (2017).

Artículo PubMed PubMed Central Google Académico

Drewes, S. et al. Ausencia asociada al huésped de infecciones por el virus Puumala humano en el norte y el este de Alemania. emergente Infectar. Dis. 23, 83–86 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ettinger, J. et al. Múltiples brotes sincrónicos del virus Puumala, Alemania, 2010. Emerg. Infectar. Dis. 18, 1461-1464 (2012).

Artículo PubMed PubMed Central Google Académico

Faber, M. et al. Características moleculares y epidemiológicas de las infecciones humanas por hantavirus Puumala y Dobrava-Belgrade, Alemania, 2001 a 2017. Euro Surveill. 24, 1800675 (2019).

Artículo PubMed PubMed Central Google Académico

Hofmann, J., Loyen, M., Faber, M. & Krüger, DH Enfermedades por hantavirus: una actualización. Alemán Medicina. 147, 312-318 (2022).

Artículo CAS PubMed Google Académico

Virtanen, P. et al. SciPy 1.0: algoritmos fundamentales para la computación científica en Python. Nat. Métodos 17, 261–272 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Schabenberger, O. & Pierce, FJ Modelos estadísticos contemporáneos para las ciencias de plantas y suelos (CRC Press, 2002).

Matemáticas Google Académico

Gubler, DJ et al. Variabilidad y cambio climático en los Estados Unidos: impactos potenciales en enfermedades transmitidas por vectores y roedores. Reinar. Perspectiva de Salud. 109, 223–233 (2001).

PubMed PubMed Central Google Académico

Vanwambeke, SO et al. Dinámica espacial de una enfermedad zoonótica por ortohantavirus a través de datos heterogéneos sobre roedores, infecciones de roedores y enfermedades humanas. ciencia Rep. 9, 2329 (2019).

Artículo ADS PubMed PubMed Central Google Scholar

Piechotowski, I. et al. Aparición de hantavirus en el sur de Alemania: roedores, clima e infecciones humanas. Parasitol. Res. 103 (Suplemento 1), 131–137 (2008).

Artículo Google Académico

Binder, F. et al. Situación heterogénea del ortohantavirus Puumala en regiones endémicas de Alemania en el verano de 2019. Transbound Emerg. Dis. 67, 502–509 (2020).

Artículo PubMed Google Académico

Cunze, S. et al. Patrones espaciales y temporales de infecciones por el virus Puumala humano (PUUV) en Alemania. PeerJ 6, e4255 (2018).

Artículo PubMed PubMed Central Google Académico

Khalil, H. et al. Predicción espacial y validación del peligro zoonótico a través de las propiedades del microhábitat: ¿Dónde se esconde el hantavirus Puumala? BMC infectado. Dis. 17, 523 (2017).

Artículo PubMed PubMed Central Google Académico

Heyman, P., Thoma, BR, Marie, JL, Cochez, C. & Essbauer, SS En busca de factores que impulsen las epidemias de hantavirus. Frente. Fisiol. 3, 237 (2012).

Artículo PubMed PubMed Central Google Académico

Van Rossum, G. y Drake, FL Manual de referencia de Python 3. (Crear Espacio, 2009).

Harris, CR et al. Programación de matrices con NumPy. Naturaleza 585, 357–362 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

McKinney, W. Estructuras de datos para computación estadística en Python. en las Actas de la 9.ª Conferencia Python en la Ciencia, vol. 445, 56–61 (2010).

Jordahl, K. GeoPandas: herramientas de Python para datos geográficos. https://github.com/geopands/geopands (2014).

Hunter, JD Matplotlib: Un entorno de gráficos 2D. computar ciencia Ing. 9, 90–95 (2007).

Artículo Google Académico

Richardson, L. Documentación de sopa hermosa. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (2007).

Pedregosa, F. et al. Scikit-learn: aprendizaje automático en Python. J. Mach. Aprender. Res. 12, 2825–2830 (2011).

MathSciNet MATEMÁTICAS Google Académico

Eurostat (Oficina de Estadística de la Unión Europea). Cambio de población: balance demográfico y tasas brutas a nivel regional (NUTS 3), base de datos en línea. https://ec.europa.eu/eurostat/databrowser/view/demo_r_gind3/default/table. (Última actualización de datos: 2021-03-12 23:00, Recuperado: 2021-03-15).

Centro de datos climáticos DWD (CDC). https://opendata.dwd.de/. (Última consulta: 2022-01-05).

Esri Alemania. "Kreisgrenzen 2017", de la Agencia Federal de Cartografía y Geodesia (BKG). https://opendata-esri-de.opendata.arcgis.com/datasets/affd8ace4c204981b5d32070f9547eb9_0. (Última actualización: 2020-03-17, Recuperado: 2021-03-15), utilizado de acuerdo con la licencia de datos de Alemania - atribución - Versión 2.0 disponible en http://www.govdata.de/dl-de/by- 2-0.

Bregt, AK, Denneboom, J., Gesink, HJ y Van Randen, Y. Determinación del error de rasterización: un estudio de caso con el mapa de suelos de los Países Bajos. En t. J. Geogr. información sist. 5, 361–367 (1991).

Artículo Google Académico

Esther, A., Imholt, C., Perner, J., Schumacher, J. & Jacob, J. Correlaciones entre las condiciones climáticas y las densidades del topillo común (Microtus arvalis) identificadas mediante el análisis del árbol de regresión. aplicación básica Ecol. 15, 75–84 (2014).

Artículo Google Académico

Cortes, C. & Vapnik, V. Redes de vectores soporte. Mach. Aprender. 20, 273–297 (1995).

Artículo MATEMÁTICAS Google Académico

Bennett, K. & Bredensteiner, E. Dualidad y geometría en clasificadores SVM. en Actas de la 17.ª Conferencia internacional sobre aprendizaje automático, 57–64 (2000).

Descargar referencias

Los autores agradecen la discusión y el consejo de Christian Imholt. También agradecemos a Paul Beilmann y Johannes Kauffmann por su asistencia técnica y a Anke Geduhn por sus comentarios sobre el manuscrito. Este estudio fue encargado por la Agencia Ambiental Alemana y financiado por el Ministerio Federal de Medio Ambiente, Conservación de la Naturaleza y Seguridad Nuclear dentro del plan de investigación departamental - código de investigación 3720 48 401 0.

Financiamiento de acceso abierto habilitado y organizado por Projekt DEAL.

Instituto Julius Kühn (JKI) – Centro Federal de Investigación de Plantas Cultivadas, Instituto de Protección Vegetal en Horticultura y Bosques / Instituto de Epidemiología y Diagnóstico de Patógenos, Investigación de Roedores, Toppheideweg 88, 48161, Münster, Alemania

Orestis Kazasidis y Jens Jacob

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

OK y JJ concibieron el estudio. OK desarrolló la teoría, realizó el análisis y escribió el manuscrito. OK y JJ revisaron y editaron el manuscrito. JJ aseguró la financiación.

Correspondencia a Orestis Kazasidis.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kazasidis, O., Jacob, J. El aprendizaje automático identifica reglas sencillas de alerta temprana para brotes humanos de hantavirus Puumala. Informe científico 13, 3585 (2023). https://doi.org/10.1038/s41598-023-30596-x

Descargar cita

Recibido: 15 julio 2022

Aceptado: 27 de febrero de 2023

Publicado: 03 marzo 2023

DOI: https://doi.org/10.1038/s41598-023-30596-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR