banner

Notizia

Dec 28, 2023

Reale unificato

Dati scientifici, volume 10, numero articolo: 367 (2023) Citare questo articolo

1 Altmetrico

Dettagli sulle metriche

Esiste un numero impressionante di cataloghi di dati COVID-19. Tuttavia, nessuno è completamente ottimizzato per le applicazioni di scienza dei dati. Denominazioni incoerenti e convenzioni sui dati, controllo di qualità non uniforme e mancanza di allineamento tra i dati sulle malattie e i potenziali predittori pongono ostacoli a modelli e analisi robusti. Per colmare questa lacuna, abbiamo generato un set di dati unificato che integra e implementa controlli di qualità dei dati provenienti da numerose fonti principali di dati epidemiologici e ambientali sul COVID-19. Utilizziamo una gerarchia di unità amministrative coerente a livello globale per facilitare l'analisi all'interno e tra i paesi. Il set di dati applica questa gerarchia unificata per allineare i dati epidemiologici sul COVID-19 con una serie di altri tipi di dati rilevanti per comprendere e prevedere il rischio di COVID-19, inclusi dati idrometeorologici, qualità dell’aria, informazioni sulle politiche di controllo del COVID-19, dati sui vaccini e dati chiave. caratteristiche demografiche.

L’attuale pandemia di COVID-19 ha causato malattie diffuse, perdita di vite umane e sconvolgimenti sociali in tutto il mondo. Mentre la crisi sanitaria pubblica continua, esiste sia un’urgente necessità che un’opportunità unica per monitorare e caratterizzare la diffusione del virus. Ciò include il miglioramento della nostra comprensione della sensibilità spaziotemporale della trasmissione della malattia a fattori demografici, geografici, socio-politici, stagionali e ambientali.

Le comunità globali di ricerca e scienza dei dati hanno risposto a questa sfida con un’ampia gamma di sforzi per raccogliere, catalogare e diffondere dati sul conteggio dei casi di COVID-19, ricoveri, mortalità, vaccinazioni e altri indicatori di incidenza e peso del COVID1,2. 3,4,5,6,7,8,9,10,11,12,13,14. Sebbene questi database abbiano supportato un enorme volume di ricerca, monitoraggio del rischio e discussione pubblica, spesso hanno struttura incoerente, convenzioni di denominazione, valori, risoluzione, qualità e mancanza di allineamento tra i dati sulle malattie infettive e i potenziali fattori di rischio. Questi problemi richiedono una laboriosa pulizia per combinare dati provenienti da diverse fonti che ritardano il progresso della ricerca e potrebbero influenzarne la qualità. Inoltre, i set di dati critici che quantificano fattori di rischio come il clima e la mobilità umana sono soggetti a pregiudizi e disponibilità limitata, ponendo ulteriori sfide per l’elaborazione dei dati.

Per utilizzare questi diversi tipi di dati provenienti da fonti diverse a diversi livelli di granularità, è necessario combinarli e armonizzarli. Senza un'adeguata armonizzazione, cura e verifica della coerenza, l'analisi di questi set di dati può portare a risultati spuri. Un set di dati unificato che affronta questi problemi aiuterà ad accelerare la nostra comprensione del rischio COVID-19 attraverso la modellazione spaziotemporale multiscala eliminando i passaggi aggiuntivi, dispendiosi in termini di tempo, necessari per pulire, standardizzare e unire le diverse fonti di dati. Ad esempio, forniamo un caso di test con la generazione di stime del numero riproduttivo effettivo (Rt) da due diverse fonti di dati, inclusi i conteggi dei casi segnalati e le infezioni giornaliere stimate, che vengono importati direttamente dal nostro set di dati unificato senza perdere tempo nell'unificazione dei nomi delle variabili /types e pulitura o georeferenziazione dei dati.

Pertanto, il nostro set di dati unificato sul COVID-19 mira a (1) armonizzare le convenzioni di denominazione e codifica da fonti di dati credibili a più livelli amministrativi, (2) implementare il controllo di qualità per il conteggio dei casi COVID-19 di diversi tipi, (3) allineare sistematicamente potenziali predittori con i dati COVID-19 e (4) fornisce aggiornamenti e correzioni in tempo reale e incorpora nuove fonti per le variabili rilevanti non appena diventano disponibili. Nello specifico, il set di dati Unified COVID-19 include componenti chiave per l'epidemiologia, tra cui demografia, idrometeorologia, qualità dell'aria, politiche, vaccinazioni e accessibilità sanitaria, mappa tutte le unità geospaziali a livello globale in un identificatore univoco, standardizza nomi amministrativi, codici, date, dati tipi e formati, unifica nomi di variabili, tipi e categorie. Curiamo inoltre i dati per correggere le voci confuse che derivano dai nomi contrastanti delle stesse unità geografiche, dalle diverse strategie e pianificazioni di segnalazione e dall'accumulo di variabili epidemiologiche. Il set di dati è distribuito in formati accessibili e ottimizzato per le applicazioni di apprendimento automatico per supportare la ricerca riproducibile di alta qualità. La disponibilità di questo set di dati ha facilitato le analisi dei fattori di rischio COVID-19 a risoluzione subnazionale in più paesi15,16,17,18 e gli studi sui cambiamenti nei fattori di rischio nel corso della pandemia19.

CONDIVIDERE