banner

Noticias

Jun 07, 2023

reales unificados

Scientific Data volumen 10, Número de artículo: 367 (2023) Citar este artículo

1 Altmetric

Detalles de métricas

Existe una cantidad impresionante de catálogos de datos de COVID-19. Sin embargo, ninguno está completamente optimizado para aplicaciones de ciencia de datos. Las convenciones de nombres y datos inconsistentes, el control de calidad desigual y la falta de alineación entre los datos de enfermedades y los predictores potenciales plantean barreras para un modelado y análisis sólidos. Para abordar esta brecha, generamos un conjunto de datos unificado que integra e implementa controles de calidad de los datos de numerosas fuentes líderes de datos epidemiológicos y ambientales de COVID-19. Utilizamos una jerarquía de unidades administrativas consistente a nivel mundial para facilitar el análisis dentro y entre países. El conjunto de datos aplica esta jerarquía unificada para alinear los datos epidemiológicos de COVID-19 con una serie de otros tipos de datos relevantes para comprender y predecir el riesgo de COVID-19, incluidos datos hidrometeorológicos, calidad del aire, información sobre políticas de control de COVID-19, datos de vacunas y datos clave. características demográficas.

La pandemia de COVID-19 en curso ha causado enfermedades generalizadas, pérdida de vidas y agitación social en todo el mundo. A medida que continúa la crisis de salud pública, existe una necesidad urgente y una oportunidad única para rastrear y caracterizar la propagación del virus. Esto incluye mejorar nuestra comprensión de la sensibilidad espaciotemporal de la transmisión de enfermedades a factores demográficos, geográficos, sociopolíticos, estacionales y ambientales.

Las comunidades mundiales de investigación y ciencia de datos han respondido a este desafío con una amplia gama de esfuerzos para recopilar, catalogar y difundir datos sobre recuentos de casos de COVID-19, hospitalizaciones, mortalidad, vacunas y otros indicadores de incidencia y carga de COVID1,2, 3,4,5,6,7,8,9,10,11,12,13,14. Si bien estas bases de datos han respaldado un tremendo volumen de investigación, monitoreo de riesgos y discusión pública, a menudo tienen una estructura inconsistente, convenciones de nomenclatura, valores, resolución, calidad y falta de alineación entre los datos de enfermedades infecciosas y los factores de riesgo potenciales. Estos problemas requieren una limpieza laboriosa para combinar datos de diferentes fuentes que retrasan el progreso de la investigación y pueden afectar su calidad. Además, los conjuntos de datos críticos que cuantifican factores de riesgo como el clima y la movilidad humana están sujetos a sesgos y disponibilidad limitada, lo que plantea nuevos desafíos para el procesamiento de datos.

Para utilizar estos tipos dispares de datos de diferentes fuentes en diferentes niveles de granularidad, es necesario combinarlos y armonizarlos. Sin una armonización, conservación y controles de coherencia adecuados, el análisis de estos conjuntos de datos puede conducir a resultados falsos. Un conjunto de datos unificado que aborde estos problemas ayudará a acelerar nuestra comprensión del riesgo de COVID-19 a través del modelado espaciotemporal multiescala al eliminar los pasos adicionales que requieren mucho tiempo para limpiar, estandarizar y fusionar las diferentes fuentes de datos. Como ejemplo, proporcionamos un caso de prueba con la generación de estimaciones del número reproductivo efectivo (Rt) a partir de dos fuentes de datos diferentes, incluidos los recuentos de casos notificados y las infecciones diarias estimadas, que se importan directamente de nuestro conjunto de datos unificado sin consumir tiempo en unificar los nombres de las variables. /tipos y limpieza o georreferenciación de los datos.

Por lo tanto, nuestro conjunto de datos unificados de COVID-19 tiene como objetivo (1) armonizar las convenciones de nomenclatura y codificación de fuentes de datos creíbles en múltiples niveles administrativos, (2) implementar un control de calidad para los recuentos de casos de COVID-19 de diferentes tipos, (3) alinear sistemáticamente los predictores potenciales con datos de COVID-19, y (4) proporciona actualizaciones y correcciones en tiempo real, e incorpora nuevas fuentes para variables relevantes a medida que están disponibles. Específicamente, el conjunto de datos unificados de COVID-19 incluye componentes clave para la epidemiología, incluida la demografía, la hidrometeorología, la calidad del aire, las políticas, la vacunación y la accesibilidad de la atención médica, mapea todas las unidades geoespaciales a nivel mundial en un identificador único, estandariza nombres administrativos, códigos, fechas, datos tipos y formatos, unifica nombres, tipos y categorías de variables. También seleccionamos los datos para corregir las entradas confusas que surgen de los nombres conflictivos de las mismas unidades geográficas, las diferentes estrategias y horarios de notificación y la acumulación de variables epidemiológicas. El conjunto de datos se distribuye en formatos accesibles y está optimizado para aplicaciones de aprendizaje automático para respaldar investigaciones reproducibles de alta calidad. La disponibilidad de este conjunto de datos ha facilitado los análisis de los factores de riesgo de la COVID-19 con resolución subnacional en varios países15,16,17,18 y los estudios de los cambios en los factores de riesgo a lo largo de la pandemia19.

Recopilamos datos epidemiológicos de diferentes fuentes, traducimos los registros de datos y verificamos los tipos de casos disponibles. Luego, los nombres de las variables y las unidades se estandarizan y geocodifican utilizando un identificador geoespacial (ID) unificado para respaldar la agregación en diferentes niveles administrativos y la fusión consistente en un único archivo de conjunto de datos epidemiológicos que varían con el tiempo. Los tipos de casos que no se incluyen en los datos sin procesar se derivan de los tipos de casos existentes siempre que sea posible (p. ej., derivar casos activos de casos confirmados, recuperaciones y muertes). Una tabla de búsqueda proporciona nombres y códigos geográficos clave, mientras que los campos de datos estáticos, incluidas las estimaciones de la calidad del aire, se combinan en un archivo de conjunto de datos separado. Los datos hidrometeorológicos y de políticas variables en el tiempo se procesan para extraer las variables y los índices de cada ID geoespacial con una resolución diaria. De acuerdo con los principios de datos FAIR20, adoptamos un enfoque a través del cual los datos se pueden encontrar a través de un DOI persistente, metadatos apropiados e indexación, accesibles como un recurso gratuito y abierto que se puede recuperar a través de protocolos estándar, interoperable en el uso de ampliamente utilizado formatos y estructuras de datos, y reutilizable mediante el suministro de información sobre licencias y procedencia y conformidad con los estándares de datos.

El conjunto de datos sigue el diagrama de flujo de armonización de datos, que se muestra en la Fig. 1, para integrar datos multidimensionales dispares en múltiples tipos y recursos. Múltiples tipos de datos requerirán estandarización, desde identificación geoespacial, tipo de variable, nombre de variable y estructuras de datos. Mapeamos todas las unidades geoespaciales en un identificador único. Cada unidad en los conjuntos de datos espaciales se asigna a una ID geoespacial única que, a su vez, permite fusionar los conjuntos de datos por la ID unificada, junto con otros factores de agrupación, como fuente de datos, tipo, variable, hora/fecha y otras dimensiones. Los ID de nivel nacional se basan en los códigos ISO 3166-1 alfa-2, y los datos subnacionales utilizan los códigos del Estándar federal de procesamiento de información (FIPS) (EE. UU.), los códigos de la Nomenclatura de unidades territoriales para estadísticas (NUTS) (Europa), 2 códigos (provincias o estados globales) e identificadores locales (niveles administrativos globales 2 y 3). Esto también estandariza los nombres, códigos, fechas, tipos de datos y formatos administrativos con nombres de variables, identificadores, tipos y categorías unificados, además de curar los datos, vincular registros y eliminar la ambigüedad que surge de los nombres en conflicto de las mismas unidades geográficas. y las diferentes estrategias y calendarios de presentación de informes.

Diagrama de flujo de la armonización de datos para el conjunto de datos unificado de COVID-19.

Para georreferenciar los datos, primero usamos los ID (identificadores o códigos) y los archivos de forma, si están disponibles, de las fuentes de datos originales para mapear nombres estandarizados en idioma inglés con codificación UTF-8. Implementamos funciones de unificación utilizando conversiones estándar de los diferentes sistemas de codificación (p. ej., sistema de nomenclatura de unidades territoriales para estadísticas (NUTS) para Europa, clave de municipio oficial/Amtlicher Gemeindeschlüssel (AGS) para Alemania y códigos del estándar federal de procesamiento de información (FIPS) para los condados y estados de EE. UU.) y nombres de unidades en el sistema de identificación geoespacial unificado y abordar cualquier nombre ambiguo de duplicados conocidos de la misma unidad geográfica, a través de funciones de recodificación integradas o tablas de búsqueda. Se aplican verificaciones de consistencia y validación de datos para garantizar que los nombres estandarizados se mapeen correctamente y sean consistentes con los nombres originales y las coordenadas geográficas. Si una unidad geográfica se divide en subregiones más pequeñas, se asignan nuevos ID a las unidades de mayor resolución. Cuando los ID y los archivos de forma no se proporcionan en el conjunto de datos inicial, los datos se fusionarán por nombre y se asignarán manualmente a identificadores únicos. Los nombres de las unidades se convertirán en códigos estandarizados donde las entradas problemáticas se detectarán y se inspeccionarán manualmente. La tabla de búsqueda proporciona los nombres y códigos geográficos estandarizados, y las funciones de unificación se actualizarán para abordar los problemas conocidos y las excepciones de recodificación. Se implementan enfoques adicionales para armonizar las otras características del conjunto de datos, como el tipo de variable, el nombre de la variable y la estructura de datos.

La cobertura espacial del conjunto de datos se muestra en el mapa mundial de la Fig. 2 y el sistema de identificación geoespacial se muestra en la Fig. 3. Las identificaciones a nivel nacional se basan en los códigos ISO 3166-1 alfa-2. Los niveles administrativos subnacionales de los Estados Unidos (a nivel estatal y de condado) se basan en los códigos del Estándar federal de procesamiento de información (FIPS). Para Europa, todos los niveles administrativos utilizan los códigos de la Nomenclatura de Unidades Territoriales de Estadística (NUTS). Globalmente, las subdivisiones principales (p. ej., provincias o estados) utilizan códigos ISO 3166-2 mientras que las unidades de mayor resolución se basan en identificadores locales (p. ej., para Brasil, los municipios utilizan códigos IBGE del Instituto Brasileño de Geografía y Estadística).

Mapa de cobertura espacial para el conjunto de datos unificado de COVID-19 (Admin 0 = Nacional, Admin 1 = Primer nivel administrativo (p. ej., estado, provincia), Admin 2–3 = Segundo y tercer nivel administrativo (p. ej., condado, distrito).

Identificación geoespacial utilizada para el conjunto de datos unificado de COVID-19.

La mayoría de los componentes se actualizan diariamente, mientras que la extracción de datos de variables hidrometeorológicas, con y sin ponderación de población, que requiere mucho tiempo, se actualiza mensualmente. El conjunto de datos se difunde a través del Centro de Ciencia e Ingeniería de Sistemas (CSSE) de la Universidad Johns Hopkins (JHU), la fuente del JHU Coronavirus Dashboard1 de amplio acceso.

La Tabla 1 resume las claves de la tabla de búsqueda con los diferentes ID de unidad, nombres, códigos, coordenadas del centroide y población. El conjunto de datos unificado completo está disponible en Zenodo21.

Los conteos diarios de casos de COVID-19 se toman de las diferentes fuentes de datos, incluido el panel de control de coronavirus JHU de CSSE, y se georreferencian a las unidades administrativas en las que fueron diagnosticados1,2,3,4,5,6,7,8,9,10, 11,12. Fusionamos múltiples fuentes de datos con diferentes tipos de casos. Esto incluye traducir nombres de variables de diferentes idiomas, transformar diferentes formatos de datos (p. ej., acumular recuentos diarios de datos RKI para Alemania) y verificar los recuentos agregados con todas las fuentes de datos. La Tabla 2 enumera la estructura de datos epidemiológicos. La Tabla 3 describe los diferentes tipos de casos, incluidos los casos confirmados, las muertes, las hospitalizaciones y los resultados de las pruebas.

Para facilitar el análisis de los problemas de informes, como la falta de informes y las limitaciones de la capacidad de prueba, también integramos las infecciones diarias estimadas del Instituto de Métricas y Evaluación de la Salud (IHME)13. La figura 4 muestra una comparación de las estimaciones epidemiológicas de las infecciones diarias y los casos de COVID-19 notificados, así como las estimaciones correspondientes del número de reproducción efectiva (Rt) para los EE. UU. Este también es un ejemplo de la utilización de los datos armonizados de COVID-19 en nuestro conjunto de datos unificado para análisis y estimaciones epidemiológicas en diferentes fuentes de datos que podrían usar nombres e identificadores de ubicación inconsistentes. Las estimaciones epidemiológicas (casos por fecha de infección y Rt) se proporcionan con el conjunto de datos de los Estados Unidos tanto a nivel nacional como estatal. Esas estimaciones se generan utilizando los paquetes EpiNow2 y EpiEstim R14,22,23. EpiEstim da cuenta de la incertidumbre en la media y la desviación estándar del intervalo de generación mediante el remuestreo en un rango de valores plausibles. EpiNow2 utiliza un enfoque bayesiano que también tiene en cuenta los retrasos en la notificación. Los parámetros requeridos para las estimaciones de Rt, específicamente las distribuciones del período de incubación y el intervalo de serie, se obtienen de la literatura24,25,26,27,28.

Estimaciones epidemiológicas y los casos de COVID-19 informados para los EE. UU. (A) Infecciones diarias estimadas (líneas discontinuas) y los casos informados (barras verticales); (B) Número de reproducción efectiva (R) estimado a partir de la estimación de infecciones diarias.

Los datos de vacunas globales y de EE. UU. están armonizados e integrados desde los Centros Johns Hopkins para el Impacto Cívico para el Centro de Recursos de Coronavirus (CRC)29. La cantidad acumulada de personas total o parcialmente vacunadas se proporciona según la vacuna proporcionada, siempre que esté disponible, y los tipos de dosis, incluidas las dosis administradas (en general o como primera o segunda dosis), asignadas o enviadas/llegadas a los sitios de vacunación. La Tabla 4 describe la estructura de datos de la versión armonizada del conjunto de datos de vacunas, mientras que la Tabla 5 enumera los diferentes tipos de dosis.

Como muchas enfermedades virales, la estabilidad de la transmisión de SARS-CoV-2 y COVID-19 en aerosol es sensible a las condiciones hidrometeorológicas. El comportamiento humano y las interacciones sociales, impulsores dominantes de la transmisión de COVID-19, también están indisolublemente conectados con las condiciones hidrometeorológicas locales. Por estas razones, la capacidad de este conjunto de datos unificado para caracterizar las variaciones espaciotemporales en las variables hidrometeorológicas es relevante para comprender la transmisión de COVID-19. Numerosos estudios han encontrado relaciones entre la meteorología y las tasas de transmisión de COVID-1930,31,32,33. Sin embargo, como demuestran estos estudios, las relaciones identificadas no siempre son consistentes entre los estudios34, puede haber diferencias en la influencia meteorológica en diferentes regiones o etapas de la pandemia, y la importancia relativa de la influencia hidrometeorológica en el impacto de las tendencias epidemiológicas generales es incierta. Los grandes conjuntos de datos hidrometeorológicos cuadriculados pueden ser un desafío para los no expertos, y los datos de estaciones meteorológicas más simples no siempre son representativos en grandes unidades geográficas.

Para facilitar los estudios que integran la hidrometeorología a la predicción de COVID-19, incluimos múltiples variables hidrometeorológicas en nuestro conjunto de datos unificado. La Tabla 6 enumera las variables hidrometeorológicas extraídas de NLDAS-2 y ERA5, mientras que la Fig. 5 muestra mapas de los promedios de 2020. La ponderación de la población se aplica a los datos ambientales cuadriculados (hidrometeorología y calidad del aire) para tener en cuenta la variación en la distribución espacial de la población humana expuesta dentro de cada unidad. Los datos de recuento de población Gridded Population of the World v4 (GPWv4) con ajustes para que coincidan con las estimaciones de las Naciones Unidas se obtienen del Centro para la Red Internacional de Información sobre Ciencias de la Tierra (CIESIN) Centro de Aplicaciones y Datos Socioeconómicos SEDAC35. Estos conteos luego se aplican como ponderaciones calculando la fracción de la población dentro de cada unidad en cada nivel de la jerarquía administrativa contenida en cada celda de la cuadrícula, multiplicando las variables ambientales de la cuadrícula por esta fracción y sumando para la unidad administrativa. Derivamos estas variables del Sistema de asimilación de datos terrestres de América del Norte de segunda generación (NLDAS-2), utilizando los forzamientos meteorológicos NLDAS-2 y los campos hidrológicos superficiales simulados del Modelo de superficie terrestre de Noah, y el Centro europeo de pronósticos meteorológicos a medio plazo de quinta generación ( ECMWF) reanálisis atmosférico del clima global (ERA5)36,37. Tanto ERA5 como NLDAS asimilan las observaciones y los resultados del modelo para proporcionar mapas continuos de variables meteorológicas sin lagunas ni valores perdidos en los datos, lo que no se puede lograr solo con las observaciones. La resolución espacial fina de NLDAS (0,125° de latitud × 0,125° de longitud) y ERA5 (0,25° de latitud × 0,25° de longitud) representa mejoras significativas con respecto a los conjuntos de datos anteriores, y ambos conjuntos de datos se han probado exhaustivamente con las observaciones y se ha encontrado que capturan las cantidades observadas36, 37,38. ERA5 y NLDAS están disponibles con una latencia de 4 a 6 días, lo que hace que estos conjuntos de datos sean particularmente adecuados para pronosticar la dinámica de COVID-19 casi en tiempo real. NLDAS está disponible solo para los Estados Unidos contiguos, mientras que ERA5 está disponible a nivel mundial.

Distribución geográfica global de las 10 variables hidrometeorológicas incluidas en el conjunto de datos: promedio de todos los valores diarios para 2020.

Obtenemos datos cuadriculados de ERA5 y NLDAS por hora desde el 1 de enero de 2020 en adelante. Los datos horarios se transforman a valores medios, máximos, mínimos o totales diarios, según la variable. Se aplica una máscara tierra-mar a los datos hidrometeorológicos de modo que se excluyan del análisis las celdas de cuadrícula de agua. Se proporcionan dos tipos de valores promedio para cada unidad administrativa: promedios simples y promedios ponderados por población. Un pequeño número de unidades administrativas no contienen celdas de cuadrícula ERA5 o NLDAS debido a que tienen límites irregulares o extensiones de área pequeñas (p. ej., ~15 % de las divisiones NUTS 3). En este caso, estimamos el valor de los valores meteorológicos en el centroide geográfico de la unidad utilizando un método de interpolación de ponderación de distancia inversa y luego calculamos los promedios simples y ponderados por población utilizando estos valores interpolados.

La exposición a largo plazo a los contaminantes del aire puede aumentar la susceptibilidad a resultados graves de COVID-1939,40,41. Proporcionamos promedios a largo plazo de dióxido de nitrógeno (NO2) promedio anual a nivel de la superficie y partículas finas (PM2.5) para permitir que este impacto potencial se incorpore a los estudios. Usamos un conjunto de datos que las observaciones de la profundidad óptica de aerosoles (AOD) de los satélites de observación de la Tierra a estimaciones globales de PM2.5 a nivel de la superficie usando relaciones geofísicas entre PM2.5 modelado y AOD de un modelo de transporte químico y una técnica de regresión ponderada geográficamente42. Las estimaciones globales de NO2 se derivan escalando las concentraciones pronosticadas de un modelo de regresión de uso de la tierra global con observaciones satelitales anuales de columnas troposféricas de NO2 del satélite Instrumento de Monitoreo de Ozono43,44,45.

Los conjuntos de datos de PM2.5 y NO2 se vuelven a cuadricular desde sus resoluciones nativas (0,01° de latitud × 0,01° de longitud y 1 km × 1 km, respectivamente) a 0,05° de latitud × 0,05° de longitud y se promedian entre 2014 y 2018. Calculamos promedios simples y ponderados por población de PM2.5 y NO2 para unidades administrativas.

Los datos de respuesta de políticas variables en el tiempo que se describen en la Tabla 7 se procesan desde Oxford COVID-19 Government Response Tracker (OxCGRT) para los tipos de políticas enumerados en la Tabla 8, incluidas cuatro categorías de políticas: (i) políticas de contención y cierre: C1: Cierre de la escuela, C2: Cierre del lugar de trabajo, C3: Cancelación de eventos públicos, C4: Restricciones a las reuniones, C5: Cierre del transporte público, C6: Requisitos de quedarse en casa, C7: Restricciones al movimiento interno y C8: Controles de viajes internacionales, (ii) políticas económicas: E1: Apoyo a los ingresos, E2: Alivio de deuda/contrato, E3: Medidas fiscales, y E4: Apoyo internacional, (iii) políticas del sistema de salud: H1: Campañas de información pública, H2: Política de pruebas, H3: Seguimiento de contactos, H4 : Inversión de emergencia en salud, H5: Inversión en vacunas, H6: Coberturas faciales, H7: Política de vacunación, y H8: Protección de personas mayores, y (iv) pólizas misceláneas: M1: Comodín así como índices de póliza para contención sanitaria, económica apoyo y respuesta del gobierno. Las políticas se diferencian según se apliquen a todos (sufijo del tipo de política E), a las personas no vacunadas (sufijo del tipo de política NV), a las personas vacunadas (sufijo del tipo de política V) o a la mayoría (sufijo del tipo de política M). Para obtener más detalles, consulte el libro de códigos, la metodología del índice, la guía de interpretación y la interpretación subnacional de OxCGRT46.

Los datos a nivel nacional y los datos administrativos de nivel 1 de los Estados Unidos sobre la prevalencia de las condiciones de salud subyacentes asociadas con un mayor riesgo de morbilidad y mortalidad por COVID-19 según lo definido por los Centros para el Control y la Prevención de Enfermedades (CDC) descritos en la Tabla 9 se compilaron de múltiples fuentes. Estas condiciones comórbidas incluían prevalencia de infección por el virus de la inmunodeficiencia humana (VIH), obesidad, hipertensión, tabaquismo, enfermedad pulmonar obstructiva crónica (EPOC) y enfermedad cardiovascular (ECV)47. Además, los indicadores a nivel nacional de la proporción de la población con mayor riesgo de COVID-19 debido a condiciones comórbidas se compilaron a partir de las estimaciones de Clark y colegas y se incluyeron en la base de datos unificada48. Los datos se recopilaron de fuentes en línea asociadas con organizaciones de salud acreditadas, centros de investigación en salud, organizaciones internacionales y nacionales, revistas de investigación e instituciones académicas48,49,50,51,52,53,54,55,56,57,58. Una vez compilada, la estructura de datos final se creó en Microsoft Excel con todos los datos correspondientes y disponibles.

Los números nacionales de casos de los brotes de SARS-CoV-1 y MERS, como se describe en la Tabla 9, se incluyeron en la base de datos unificada como indicadores indirectos de la experiencia pandémica, que pueden ser relevantes para la preparación59,60.

El acceso de la población a la atención médica y otras infraestructuras puede afectar la trayectoria de las pandemias a escala local al influir en las tasas de contacto y la introducción de nuevas personas infectadas y susceptibles, así como en la velocidad y probabilidad con la que se confirman, tratan y administran nuevos casos. registrados en los sistemas de información en salud. La Tabla 10 enumera tres indicadores de accesibilidad que se incluyen en el conjunto de datos unificado. La accesibilidad a las ciudades más cercanas a través del transporte de superficie (Access_City), cuantificada en minutos necesarios para recorrer un metro, se obtuvo extrayendo las estadísticas zonales del archivo raster "Accessibility to Cities 2015" proporcionado por Malaria Atlas Project (MAP)61. El archivo ráster representa la velocidad de viaje más rápida desde cualquier punto hasta su ciudad más cercana. Se calculó mapeando el tiempo de viaje en diferentes ubicaciones espaciales y condiciones topográficas en cuadrículas donde el modo de transporte más rápido tenía prioridad62. Usando una metodología similar, Weiss y sus colegas utilizaron datos de OpenStreetMap, Google Maps e investigadores académicos para producir mapas del tiempo de viaje a los centros de salud con y sin acceso a transporte motorizado, de los cuales obtuvimos las dos variables que caracterizan el tiempo de viaje (minutos) al centro de salud más cercano por dos modos de transporte (Access_Motor: transporte motorizado disponible; Access_Walk: sin acceso a transporte motorizado) como indicadores de acceso a la atención médica63. Si bien existen estimaciones específicas de países de métricas de accesibilidad comparables64,65 y, en algunos casos, pueden ofrecer ventajas sobre los productos MAP globales, priorizamos estos últimos por su cobertura completa y metodología estandarizada, que ofrece una mayor comparabilidad entre regiones y países.

La Tabla 10 describe la densidad de población y la estructura de edad de WorldPop66.

La población total (WorldPop), la densidad de población (WorldPop_Density), la población total mayor de 65 años (WorldPop_65) y la población total por hombres (WorldPop_M) y mujeres (WorldPop_F) se obtuvieron extrayendo estadísticas zonales con el ráster de mosaicos globales sin restricciones de 2020 archivos con una resolución de 1 km de los conjuntos de datos espaciales de WorldPop, un conjunto armonizado de acceso abierto de capas geoespaciales cuadriculadas con cobertura global producidas a partir de datos de censos, encuestas, satélites y teléfonos móviles. La proporción entre la población de hombres y mujeres (Sex_Ratio) se calculó dividiendo la población de mujeres por la población de hombres.

Las fuentes de datos se enumeran en la Tabla 11.

Los datos unificados se validan periódicamente antes y después del procesamiento comprobando y comparando todos los campos con las fuentes de datos autorizadas disponibles, como la Organización Mundial de la Salud (OMS), los Centros para el Control y la Prevención de Enfermedades (CDC) de EE. UU. y Europa, y entre los diferentes fuentes9,10,11. Cualquier discrepancia significativa o datos poco realistas (p. ej., campos o tipos de datos incorrectos, recuentos negativos y valores inverosímiles) se detectan automáticamente comprobando el tipo de los campos de datos (p. ej., número entero, doble, carácter o fecha) y la tasa de cambios diarios en investigar y corregir los datos unificados, además del sistema automático de detección de anomalías de JHU CSSE, que está diseñado para detectar picos abruptos o aumentos negativos de conteos de casos diarios. La detección de anomalías y las correcciones de datos se agrupan por ID geoespacial, teniendo en cuenta las tendencias recientes y la población total y la fuente de datos. Además, las identificaciones geoespaciales se verifican con los códigos ISO y los archivos de forma correspondientes para todas las unidades geográficas. Todos los componentes del conjunto de datos se actualizan diariamente para sincronizar todos los cambios retrospectivos de las fuentes originales, incluidas las correcciones o reasignaciones de los recuentos de casos. El conjunto de datos actualizado ofrece información más precisa y actualizada para que los investigadores modelen y analicen la dinámica de transmisión de COVID-19 y las asociaciones con las condiciones ambientales.

Los datos de hidrometeorología y calidad del aire se extraen de fuentes de datos que realizan sus propias rutinas de evaluación extensas. No aplicamos una evaluación independiente adicional de estos productos. Se verificó la coherencia de las variables procesadas con los datos de origen para garantizar que no se introdujeran artefactos durante la transferencia de datos o el promedio espacial. Realizamos verificaciones periódicas de datos hidrometeorológicos de series temporales de unidades administrativas seleccionadas para buscar inconsistencias o discontinuidades en los registros de datos ERA5 o NLDAS, ya que tales errores pueden aparecer a veces en los productos de datos terrestres operativos. Hasta la fecha, no hemos identificado ningún problema problemático, pero en caso de que surja, esos datos se marcarán como preliminares hasta que el centro de datos operativo publique las versiones corregidas de los archivos de datos hidrometeorológicos.

La accesibilidad a las ciudades, validada comparándola con el algoritmo de distancia de la red dentro de Google Maps, fue alentadora (R2 = 0,66; diferencia absoluta media 20,7 min). La prevalencia de condiciones comórbidas como se describe en la Tabla 9 se tomó de fuentes en línea directamente o asociadas con organizaciones de salud acreditadas, centros de investigación de salud, organizaciones internacionales y nacionales, revistas de investigación e instituciones académicas. Se realizaron múltiples verificaciones de validación para garantizar que nuestro conjunto de datos unificado coincida con estas fuentes de entrada. Los datos de preparación para una pandemia se obtuvieron de instituciones de investigación reconocidas internacionalmente y organizaciones mundiales de salud de manera similar. Se realizaron múltiples comprobaciones de validación para garantizar la coherencia entre los conjuntos de datos unificados y estas fuentes de datos altamente examinadas.

Algunos condados, territorios e islas de EE. UU. no tienen códigos FIPS estándar o se combinan a partir de unidades estándar, como Bristol Bay más Lake and Peninsula Borough, los condados de Dukes y Nantucket, las jurisdicciones de Utah, la Institución Correccional Federal (FCI), Asuntos de Veteranos y Departamento Correccional de Michigan (MDOC). Esas unidades reciben una identificación única como se indica en la tabla de búsqueda actualizada con frecuencia en GitHub.

Los datos de Covid Tracking Project (CTP) dejaron de actualizarse el 7 de marzo de 2021, después de un año de servicio2. Todas las demás fuentes variables en el tiempo se actualizan/sincronizan actualmente a partir de las fuentes originales diariamente.

Los casos nuevos diarios para algunas unidades pueden faltar o ser negativos cuando se calculan a partir del total de casos acumulados en los datos sin procesar. Esto se puede atribuir a problemas de informes y reasignación de los casos. Corregimos y validamos las entradas de datos solo cuando tenemos pruebas sólidas para hacerlo. De lo contrario, mantenemos los datos originales exactamente como se obtienen de las fuentes oficiales. En el futuro, planeamos proporcionar una versión aumentada de los datos globales en todos los niveles administrativos, derivados de todas las fuentes de datos. Aquí, mantenemos la coherencia entre los datos unificados y sin procesar.

La vida corta de PM2.5 y NO2 y las heterogeneidades espaciales en sus fuentes de emisión pueden dar lugar a diferencias sustanciales entre los promedios simples y ponderados de la población a veces, dependiendo de la distribución espacial de la población y las fuentes de emisión dentro de las unidades administrativas. Debido a la disponibilidad limitada de monitores terrestres en algunos lugares, las concentraciones de NO2 tienen mayor certeza en las áreas urbanas en comparación con las áreas rurales y en América del Norte y Europa en comparación con otras partes del mundo44.

Los datos de población por sexo se ingresaron como valores faltantes para treinta y cuatro áreas subnacionales de Brasil, ya que los valores informados eran incompatibles con la población total. El archivo ráster de accesibilidad no cubría Mónaco y los datos se ingresaron manualmente usando valores en el área circundante. Excluimos las pequeñas divisiones administrativas de NUTS en el extranjero (p. ej., Guadalupe, Guayana Francesa, Reunión) del conjunto de datos unificado para reducir el tiempo computacional necesario para actualizar el conjunto de datos casi en tiempo real. Cabe destacar que los datos de accesibilidad y población serían más relevantes para el análisis a nivel subnacional, en lugar de nacional, debido a la definición operativa de los datos.

Afirmamos que la presentación de material en el mismo no implica la expresión de ninguna opinión por parte de JHU con respecto al estado legal de ningún país, área o territorio o de sus autoridades. No se garantiza que la representación y el uso de límites, nombres geográficos y datos relacionados que se muestran en mapas e incluidos en listas, tablas, documentos y bases de datos en este sitio web estén libres de errores ni implican necesariamente la aprobación o aceptación oficial por parte de JHU.

Los datos se almacenan en múltiples formatos de datos comprimidos: archivos de datos binarios RDS y FST compatibles con R Statistical Software y archivos de datos CSV compatibles con todas las demás herramientas de aprendizaje automático. Los formatos de datos binarios de R conservan de manera eficiente todos los tipos de variables, atributos y clases de objetos. Además, los archivos RDS están altamente comprimidos, lo que facilita la transferencia y el almacenamiento de archivos, mientras que el formato FST proporciona una serialización de datos multiproceso ultrarrápida y un acceso aleatorio completo a los conjuntos de datos almacenados, lo que permite cargar un subconjunto de datos (columnas o filas seleccionadas) sin leer los datos completos. archivo. Esto ofrece una ventaja sobre otros formatos de datos comunes, como los valores separados por comas (CSV) o sus versiones comprimidas, que no especifican explícitamente los tipos de variables (p. ej., entero frente a doble). Además, los archivos producidos son mucho más pequeños, lo que facilita el acceso y el procesamiento de datos.

El código fuente utilizado para limpiar, unificar, agregar y fusionar los diferentes componentes de datos de todas las fuentes estará disponible en GitHub en https://github.com/CSSEGISandData/COVID-19_Unified-Dataset.

Dong, E., Du, H. & Gardner, L. Un tablero interactivo basado en la web para rastrear COVID-19 en tiempo real. Lanceta Infectada. Dis. 20, 533–534 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

El Grupo Mensual Atlántico. El proyecto de seguimiento de COVID. El proyecto de seguimiento de COVID https://covidtracking.com/ (2023).

Departamento de Salud e Higiene Mental de la Ciudad de Nueva York. Datos de la enfermedad por coronavirus de la ciudad de Nueva York 2019 (COVID-19). (2023).

Los New York Times. Datos de coronavirus (Covid-19) en los Estados Unidos (archivados). (2023).

Cota, W. Monitoreo del número de casos y muertes por COVID-19 en Brasil a nivel de unidades municipales y federativas. https://preprints.scielo.org/index.php/scielo/preprint/view/362/version/371, https://doi.org/10.1590/SciELOPreprints.362 (2020).

Departamento de Protección Civil de Italia. Anteriormente COVID-19 Italia. (2023).

Instituto Robert Koch. Centro de datos de COVID-19. Centro de datos de COVID-19 https://npgeo-corona-npgeo-de.hub.arcgis.com/.

Centro Común de Investigación. Justificación del sitio web JRC COVID-19: seguimiento de datos y medidas nacionales. (2023).

Centro Europeo para la Prevención y el Control de Enfermedades. COVID-19. https://www.ecdc.europa.eu/en/covid-19 (2021).

Organización Mundial de la Salud. Tablero de la OMS sobre el coronavirus (COVID-19). https://covid19.who.int (2023).

Centros de Control y Prevención de Enfermedades. Rastreador de datos COVID. Centros para el Control y la Prevención de Enfermedades https://covid.cdc.gov/covid-data-tracker (2020).

Xu, B. et al. Datos epidemiológicos del brote de COVID-19, información de casos en tiempo real. ciencia Datos 7, 106 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Instituto de Métrica y Evaluación de la Salud. Estimaciones diarias y acumulativas de infecciones por SARS-CoV-2 2019–2021. Estimaciones diarias y acumulativas de infecciones por SARS-CoV-2 2019-2021 https://ghdx.healthdata.org/record/ihme-data/covid_19_cumulative_infections (2021).

Cori, A., Ferguson, NM, Fraser, C. & Cauchemez, S. Un nuevo marco y software para estimar los números de reproducción que varían con el tiempo durante las epidemias. Soy. J. Epidemiol. 178, 1505–1512 (2013).

Artículo PubMed Google Académico

Colston, JM y col. Efectos de los factores hidrometeorológicos y de otro tipo sobre el número de reproducción del SARS-CoV-2 en tres países contiguos de los Andes tropicales de América del Sur: un análisis de series temporales desagregadas espaciotemporalmente. Reg. IJID 6, 29–41 (2023).

Artículo PubMed Google Académico

Beesley, LJ et al. Resiliencia multidimensional: una exploración cuantitativa de los resultados de la enfermedad y la resiliencia económica, política y social a la pandemia de COVID-19 en seis países. PLOS UNO 18, e0279894 (2023).

Artículo CAS PubMed PubMed Central Google Scholar

Du, H. et al. Incorporación de datos de frecuencias variantes en el pronóstico a corto plazo de casos y muertes por COVID-19 en los EE. UU.: un enfoque de aprendizaje profundo. eBioMedicine 89, 104482 (2023).

Artículo PubMed PubMed Central Google Académico

Cheam, A., Fredette, M., Marbac, M. y Navarro, F. Agrupamiento funcional invariable en la traducción sobre las muertes por COVID-19 ajustadas según los factores de riesgo de la población. Estado JR. Soc. Ser. Aplicación C Estadística qlad014, https://doi.org/10.1093/jrsssc/qlad014 (2023).

Kerr, GH et al. Impulsores en evolución de la transmisión del SARS-CoV-2 en Brasil: un análisis de series temporales desagregadas espaciotemporalmente de meteorología, políticas y movilidad humana. GeoHealth 7, e2022GH000727 (2023).

Artículo PubMed PubMed Central Google Académico

Wilkinson, MD y col. Los principios rectores de FAIR para la gestión y administración de datos científicos. ciencia Datos 3, 160018 (2016).

Artículo PubMed PubMed Central Google Académico

Badr, HS et al. Conjunto de datos unificados de COVID-19 v1.0. Zenodo https://doi.org/10.5281/zenodo.7789960 (2023).

Abbot, S. et al. EpiNow2: estimación de recuentos de casos en tiempo real y parámetros epidemiológicos variables en el tiempo. (2020).

Abbot, S. et al. Estimación del número de reproducción variable en el tiempo del SARS-CoV-2 utilizando recuentos de casos nacionales y subnacionales. Bienvenido Open Res. 5, 112 (2020).

Artículo Google Académico

Alene, M. et al. Intervalo serial y período de incubación de COVID-19: una revisión sistemática y metanálisis. BMC infectado. Dis. 21, 257 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

McAloon, C. et al. Período de incubación de COVID-19: una revisión sistemática rápida y un metanálisis de la investigación observacional. Abierto 10 de BMJ, e039652 (2020).

Artículo PubMed PubMed Central Google Académico

Lauer, SA et al. El período de incubación de la enfermedad por coronavirus 2019 (COVID-19) a partir de casos confirmados informados públicamente: estimación y aplicación. Ana. Interno. Medicina. 172, 577–582 (2020).

Artículo PubMed Google Académico

Rai , B. , Shukla , A. & Dwivedi , LK Estimaciones de intervalos seriales para COVID-19: una revisión sistemática y metanálisis . clin. Epidemiol. globo Salud 9, 157–161 (2021).

Artículo CAS PubMed Google Académico

Ganyani, T. et al. Estimación del intervalo generacional para la enfermedad por coronavirus (COVID-19) según los datos de inicio de síntomas, marzo de 2020. Eurosurveillance 25 (2020).

Centros Johns Hopkins para el Impacto Cívico. Centro Bloomberg para la Excelencia Gubernamental. GitHub https://github.com/govex.

Sera, F. et al. Un análisis transversal de los factores meteorológicos y la transmisión del SARS-CoV-2 en 409 ciudades de 26 países. Nat. común 12, 5968 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Fontal, A. et al. Firmas climáticas en las diferentes olas pandémicas de COVID-19 en ambos hemisferios. Nat. computar ciencia 1, 655–665 (2021).

Artículo Google Académico

Pan, WK et al. Heterogeneidad en la efectividad de las intervenciones no farmacéuticas durante la primera ola de SARS-CoV2 en los Estados Unidos. Frente. Salud Pública 9, 754696 (2021).

Artículo PubMed PubMed Central Google Académico

Ma, Y., Pei, S., Shaman, J., Dubrow, R. & Chen, K. Papel de los factores meteorológicos en la transmisión del SARS-CoV-2 en los Estados Unidos. Nat. común 12, 3602 (2021).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Kerr, GH, Badr, HS, Gardner, LM, Perez-Saez, J. & Zaitchik, BF Asociaciones entre meteorología y COVID-19 en estudios iniciales: Inconsistencias, incertidumbres y recomendaciones. Una salud 12, 100225 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Centro para la Red Internacional de Información de Ciencias de la Tierra - CIESIN - Universidad de Columbia. Población cuadriculada del mundo, versión 4 (GPWv4): Recuento de población ajustado para coincidir con la revisión de 2015 de los totales de país del WPP de la ONU, revisión 11. (2018).

Xia, Y. et al. Análisis y validación de flujos de agua y energía a escala continental para el proyecto North American Land Data Assimilation System fase 2 (NLDAS-2): 1. Intercomparación y aplicación de productos modelo: ANÁLISIS DE FLUJOS DE AGUA Y ENERGÍA. J. Geophys. Res. Atmósferas 117, n/a/a (2012).

Google Académico

Hersbach, H. et al. El reanálisis global ERA5. Meteorol QJR. Soc. 146, 1999–2049 (2020).

Artículo ANUNCIOS Google Académico

Tarek, M., Brissette, FP y Arsenault, R. Evaluación del reanálisis de ERA5 como un conjunto de datos de referencia potencial para el modelado hidrológico en América del Norte. Hidrol. Sistema Tierra ciencia 24, 2527–2544 (2020).

Artículo ANUNCIOS Google Académico

Liang, D. et al. La contaminación del aire urbano puede aumentar las tasas de letalidad y mortalidad por COVID-19 en los Estados Unidos. La Innovación 1, 100047 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Wu, X., Nethery, RC, Sabath, MB, Braun, D. & Dominici, F. Contaminación del aire y mortalidad por COVID-19 en los Estados Unidos: Fortalezas y limitaciones de un análisis de regresión ecológica. ciencia Adv. 6, eabd4049 (2020).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Pozzer, A. et al. Contribuciones regionales y globales de la contaminación del aire al riesgo de muerte por COVID-19. Cardiovasc. Res. 116, 2247–2253 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Martillo, MS et al. Estimaciones globales y tendencias a largo plazo de las concentraciones de partículas finas (1998–2018). Reinar. ciencia Tecnología 54, 7879–7890 (2020).

Artículo ADS CAS PubMed Google Scholar

Larkin, A. et al. Modelo de regresión global del uso de la tierra para la contaminación del aire por dióxido de nitrógeno. Reinar. ciencia Tecnología 51, 6957–6964 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Anenberg, SC et al. Tendencias a largo plazo en las concentraciones urbanas de NO2 y la incidencia de asma pediátrica asociada: estimaciones de conjuntos de datos globales. Planeta Lanceta. Salud 6, e49–e58 (2022).

Artículo PubMed Google Académico

Anenberg, S. Concentraciones promedio anuales de dióxido de nitrógeno a nivel superficial V1 (SFC_NITROGEN_DIOXIDE_CONC). (2023).

Hale, T. et al. Una base de datos de panel global de políticas pandémicas (Oxford COVID-19 Government Response Tracker). Nat. Tararear. Comportamiento 5, 529–538 (2021).

Artículo PubMed Google Académico

Centros de Control y Prevención de Enfermedades. Personas con Ciertas Condiciones Médicas. Centros para el Control y la Prevención de Enfermedades https://www.cdc.gov/coronavirus/2019-ncov/need-extra-precautions/people-with-medical-conditions.html (2023).

Clark, A. et al. Estimaciones globales, regionales y nacionales de la población con mayor riesgo de COVID-19 grave debido a condiciones de salud subyacentes en 2020: un estudio de modelado. Globo de Lancet. Salud 8, e1003–e1017 (2020).

Artículo PubMed PubMed Central Google Académico

El Banco Mundial. Prevalencia de diabetes (% de la población de 20 a 79 años). https://data.worldbank.org/indicator/SH.STA.DIAB.ZS?name_desc=false.

Fundación Robert Wood Johnson. Diabetes. Estado de la obesidad infantil https://stateofchildhoodobesity.org/demographic-data/adult/ (2023).

Organización Mundial de la Salud. Prevalencia de obesidad entre adultos, IMC ≥ 30, estandarizada por edad. Estimaciones por país. Repositorio de datos del Observatorio Mundial de la Salud https://apps.who.int/gho/data/view.main.CTRY2450A.

Fundación Robert Wood Johnson. Tasas de obesidad en adultos. Estado de la obesidad infantil https://stateofchildhoodobesity.org/demographic-data/adult/.

Agencia Central de Inteligencia. Obesidad - tasa de prevalencia en adultos. El World Factbook https://www.cia.gov/the-world-factbook/field/obesity-adult-prevalence-rate/.

Organización Mundial de la Salud. Prevalencia del consumo actual de tabaco. Datos por país. Repositorio de datos del Observatorio de Salud Global https://apps.who.int/gho/data/view.main.GSWCAH20v.

Sistema de Vigilancia de Factores de Riesgo Conductuales. Datos de prevalencia y tendencias de BRFSS: prevalencia de tabaquismo. https://nccd.cdc.gov/BRFSSPrevalence/rdPage.aspx?rdReport=DPH_BRFSS.ExploreByTopic&irbLocationType=StatesAndMMSA&islClass=CLASS17&islTopic=TOPIC15&islYear=2018&rdRnd=77675.

Instituto de Métrica y Evaluación de la Salud. Herramienta de resultados GBD. Herramienta de resultados de GBD https://vizhub.healthdata.org/gbd-results (2023).

Fundación Robert Wood Johnson. Hipertensión en los Estados Unidos. Estado de la obesidad infantil https://stateofchildhoodobesity.org/demographic-data/adult/ (2023).

Colaboración de factores de riesgo de ENT. Presión arterial Evolución de la presión arterial a lo largo del tiempo. https://ncdrisc.org/data-downloads-blood-pression.html (2017).

Ramshaw, RE y col. Una base de datos de ocurrencias geoposicionadas del coronavirus del síndrome respiratorio de Oriente Medio. ciencia Datos 6, 318 (2019).

Artículo PubMed PubMed Central Google Académico

Organización Mundial de la Salud. Síndrome Respiratorio Agudo Severo (SRAS). https://www.who.int/health-topics/severe-acute-respiratory-syndrome (2022).

Proyecto Atlas de Malaria. Accesibilidad a las Ciudades. https://malariaatlas.org/.

Weiss, DJ et al. Un mapa global del tiempo de viaje a las ciudades para evaluar las desigualdades en accesibilidad en 2015. Nature 553, 333–336 (2018).

Artículo ADS CAS PubMed Google Scholar

Weiss, DJ et al. Mapas globales del tiempo de viaje a los centros de salud. Nat. Medicina. 26, 1835–1838 (2020).

Artículo CAS PubMed Google Académico

Carrasco-Escobar, G., Manrique, E., Tello-Lizarraga, K. & Miranda, JJ Tiempo de viaje a los establecimientos de salud como marcador de accesibilidad geográfica a través de una cobertura territorial heterogénea en Perú. Frente. Salud Pública 8, 498 (2020).

Artículo PubMed PubMed Central Google Académico

Hu, Y., Wang, C., Li, R. y Wang, F. Estimación de una gran matriz de tiempo de manejo entre códigos postales en los Estados Unidos: un enfoque de muestreo diferencial. J.Transp. Geogr. 86, 102770 (2020).

Artículo PubMed PubMed Central Google Académico

Tatem, AJ WorldPop, datos abiertos para demografía espacial. ciencia Datos 4, 170004 (2017).

Artículo PubMed PubMed Central Google Académico

Descargar referencias

Este trabajo cuenta con el apoyo del proyecto de salud y calidad del aire de la NASA 80NSSC18K0327, bajo un suplemento de COVID-19, proyecto 3U19AI135995-03S1 del Instituto Nacional de Salud (NIH) ("Consortium for Viral Systems Biology (CViSB)"; Colaboración con el Instituto de Investigación Scripps y UCLA) y la concesión de la NASA 80NSSC20K1122. Johns Hopkins Applied Physics Laboratory (APL), Data Services y Esri brindan asistencia profesional en el diseño de la estructura de recopilación automática de datos y el mantenimiento del repositorio JHU CSSE GitHub.

Arash Mohegh

Dirección actual: División de Evaluación de la Salud y la Exposición, Junta de Recursos del Aire de California, Sacramento, CA, 95812, EE. UU.

Departamento de Ingeniería Civil y de Sistemas, Universidad Johns Hopkins, Baltimore, MD, 21218, EE. UU.

Hamada S. Badr, Ensheng Dong, Hongru Du, Maximilian Marshall, Kristen Nixon y Lauren M. Gardner

Departamento de Ciencias Planetarias y de la Tierra, Universidad Johns Hopkins, Baltimore, MD, 21218, EE. UU.

Hamada S. Badr y Benjamin F. Zaitchik

Departamento de Salud Ambiental y Ocupacional, Escuela de Salud Pública del Instituto Milken, Universidad George Washington, Washington, DC, 20052, EE. UU.

Gaige H. Kerr, Arash Mohegh, Daniel L. Goldberg y Susan C. Anenberg

Facultad de Artes y Ciencias, Universidad de Virginia, Charlottesville, VA, 22903, EE. UU.

Nhat-Lan H. Nguyen y Patrick Hinson

División de Enfermedades Infecciosas y Salud Internacional, Facultad de Medicina de la Universidad de Virginia, Charlottesville, VA, 22903, EE. UU.

Yen-Ting Chen, Patrick Hinson, Josh M. Colston y Margaret N. Kosek

Departamento de Medicina de Emergencia, Centro Médico Chi-Mei, Tainan, Taiwán

Yen Ting Chen

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

BFZ y LMG concibieron y supervisaron la recopilación de datos y el control de calidad. HSB creó el conjunto de datos unificado, estandarizó los nombres y códigos administrativos por identificación geoespacial y armonizó los nombres y tipos de variables, fusionó todos los componentes de datos, desarrolló el código principal y mantiene la estructura de datos y las actualizaciones en tiempo real. BFZ y GHK procesaron y mantuvieron los datos hidrometeorológicos y de calidad del aire. Todos los autores contribuyeron a las existencias de conjuntos de datos y a escribir y editar el manuscrito.

Correspondencia a Benjamin F. Zaitchik.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Badr, HS, Zaitchik, BF, Kerr, GH et al. Datos epidemiológicos ambientales unificados en tiempo real para el modelado multiescala de la pandemia de COVID-19. Datos científicos 10, 367 (2023). https://doi.org/10.1038/s41597-023-02276-y

Descargar cita

Recibido: 06 mayo 2022

Aceptado: 30 de mayo de 2023

Publicado: 07 junio 2023

DOI: https://doi.org/10.1038/s41597-023-02276-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

COMPARTIR