banner

Blog

Oct 06, 2023

Un nuovo approccio di apprendimento federato decentralizzato per la formazione su dati medici privati ​​distribuiti a livello globale, di scarsa qualità e protetti

Rapporti scientifici volume 12, numero articolo: 8888 (2022) Citare questo articolo

4400 accessi

2 citazioni

3 Altmetrico

Dettagli sulle metriche

La formazione su più fonti di dati diverse è fondamentale per garantire un’intelligenza artificiale imparziale e generalizzabile. Nel settore sanitario, le leggi sulla privacy dei dati vietano lo spostamento dei dati al di fuori del paese di origine, impedendo che i set di dati medici globali vengano centralizzati per la formazione sull’intelligenza artificiale. L'apprendimento federato incentrato sui dati e tra silo rappresenta un percorso avanti per la formazione su set di dati medici distribuiti. Gli approcci esistenti in genere richiedono che gli aggiornamenti a un modello di formazione vengano trasferiti a un server centrale, violando potenzialmente le leggi sulla privacy dei dati, a meno che gli aggiornamenti non siano sufficientemente mascherati o astratti da impedire la ricostruzione del set di dati. Qui presentiamo un approccio di apprendimento federato completamente decentralizzato, utilizzando la distillazione della conoscenza, garantendo la privacy e la protezione dei dati. Ogni nodo funziona in modo indipendente senza la necessità di accedere a dati esterni. L’accuratezza dell’IA che utilizza questo approccio risulta essere paragonabile alla formazione centralizzata e quando i nodi comprendono dati di scarsa qualità, cosa comune nel settore sanitario, l’accuratezza dell’IA può superare le prestazioni della formazione centralizzata tradizionale.

I pregiudizi nell’intelligenza artificiale e le conseguenti limitazioni di scalabilità stanno iniziando a emergere come temi comuni nel settore sanitario dell’intelligenza artificiale. È stato recentemente proposto che queste limitazioni siano una conseguenza della formazione su set di dati "ristretti" che non rappresentano la diversità clinica o dei pazienti nel mondo reale1,2. La diversità dei dati e l’utilizzo di dati provenienti da più fonti hanno dimostrato un maggiore potenziale per addestrare un’intelligenza artificiale più accurata e generalizzabile rispetto all’intelligenza artificiale addestrata su un set di dati più ampio (meno diversificato) da un’unica fonte3,4,5,6,7,8.

Nel settore sanitario, l’accesso a questi diversi set di dati può essere difficile. Non solo i dati medici sono distribuiti in molte istituzioni a livello globale, ma l’aggregazione centralizzata dei dati per la formazione sull’intelligenza artificiale è sempre più limitata a causa di barriere legali e normative che impediscono il movimento dei dati al di fuori della regione di origine, al fine di proteggere la privacy dei dati9,10.

La qualità dei dati può anche rappresentare una sfida se non è possibile valutare la qualità dei singoli set di dati distribuiti. Per molti problemi del mondo reale, i dati possono essere intrinsecamente di scarsa qualità a causa di incertezza, soggettività, errori o soggetti ad attacchi avversari11,12,13. Questo problema è esagerato quando i dati privati ​​in ciascuna località non possono essere visualizzati o verificati manualmente. Pertanto, ridurre al minimo l’impatto negativo dei dati di scarsa qualità sulle prestazioni dell’intelligenza artificiale è fondamentale e la capacità di qualsiasi approccio di gestire livelli realistici di rumore dei dati rappresenterà una parte fondamentale della sua scalabilità.

Questo studio valuta l’efficacia dell’approccio decentralizzato alla formazione dell’IA, in primo luogo su un set di dati non medici con rumore di dati sintetici e in secondo luogo su un set di dati medici, per misurare la generalizzabilità in più sedi. Utilizziamo anche metodi per ottimizzare le topologie di un framework basato su modelli che consente di specificare un compromesso tra precisione e costo. È importante sottolineare che dimostriamo che l’accuratezza dell’intelligenza artificiale risultante dal nostro approccio è paragonabile a uno scenario in cui tutti i dati sono centralizzati. Inoltre, quando i nodi contengono dati di scarsa qualità, cosa comune negli scenari del mondo reale, la precisione dell’intelligenza artificiale può superare il tradizionale addestramento centralizzato. Concludiamo che la formazione decentralizzata sull’intelligenza artificiale può essere resa pratica e scalabile entro la tolleranza desiderata di generalizzabilità, il tutto proteggendo la privacy dei dati.

Questo articolo è organizzato come segue. Dopo aver riassunto i lavori correlati in "Lavori correlati". di seguito, i Risultati sono presentati nella seconda sezione. Gli esperimenti sono suddivisi in quelli che considerano un set di dati non medici ("Set di dati non medici"), inclusi gli scenari etichettati i. fino a iv., e quelli che considerano un dataset medico (“Medical dataset”). La "Discussione" è presentata nella terza sezione. Infine, i "Metodi" sono descritti nella quarta sezione, inclusa la progettazione dell'esperimento, la procedura di addestramento e la composizione dei set di dati medici e non medici come "Progettazione dell'esperimento e procedura di addestramento", "Composizione del set di dati non medici" e Set di dati medici composizione, rispettivamente.

CONDIVIDERE