Problemi persistenti negli studi genomici assistiti dall'IA, anche per l'Alzheimer

20 Nov 2024

genetics AD

Ricercatori dell'Università del Wisconsin di Madison avvertono che gli strumenti di intelligenza artificiale (IA) che stanno diventando popolari nei settori della genetica e della medicina possono portare a conclusioni errate sulla connessione tra geni e caratteristiche fisiche, compresi i fattori di rischio per malattie come il diabete e l'Alzheimer.

Le previsioni difettose sono legate all'uso da parte dei ricercatori dell'IA per aiutare gli studi di associazione a livello del genoma. Tali studi scansionano centinaia di migliaia di variazioni genetiche di molte persone, per cogliere i legami tra geni e tratti fisici. Di particolare interesse sono le possibili connessioni tra variazioni genetiche e determinate malattie.

Il legame genetica - malattia non è sempre semplice

La genetica ha un ruolo nello sviluppo di molte condizioni di salute. Mentre i cambiamenti in alcuni singoli geni sono collegati direttamente ad un aumento del rischio di malattie come la fibrosi cistica, la relazione tra genetica e tratti fisici è spesso più complicata.

Gli studi di associazione a livello dell'intero genoma hanno contribuito a districare alcune di queste complessità, spesso lavorando su grandi database di profili genetici e caratteristiche della salute di individui, come il progetto All of Us dei National Institutes of Health in USA e la UK Biobank. Tuttavia, questi database mancano spesso di dati sulle condizioni di salute che i ricercatori stanno cercando di studiare.

"Alcune caratteristiche sono molto costose o elaborate da misurare, quindi semplicemente non hai abbastanza campioni per trarre conclusioni statistiche significative sulla loro associazione con la genetica", afferma Qiongshi Lu, professore associato nel dipartimento di informatica medica della UW-Madisone ed esperto di studi di associazione a livello dell'intero genoma.

I rischi di coprire le lacune nei dati con l'IA

I ricercatori stanno tentando sempre più di risolvere questo problema colmando le lacune nei dati con strumenti di IA sempre più sofisticati.

"Negli ultimi anni è diventato molto popolare sfruttare i progressi nell'apprendimento automatico, quindi ora abbiamo questi modelli avanzati di IA che i ricercatori usano per prevedere tratti complessi e rischi per le malattie, persino con dati limitati", afferma Lu, che ora, con i suoi colleghi ha dimostrato il pericolo di fare affidamento su questi modelli senza proteggere dalle distorsioni che possono introdurre.

Il team descrive il problema in uno studio (rif.1) pubblicato su Nature Genetics. In esso, mostra che un tipo comune di algoritmo di apprendimento automatico impiegato negli studi di associazione a livello dell'intero genoma può erroneamente collegare diverse variazioni genetiche con il rischio di un individuo di sviluppare il diabete di tipo 2.

"Il problema è che se ti fidi che il rischio di diabete previsto dall'apprendimento automatico è il rischio effettivo, potresti pensare che tutte quelle variazioni genetiche siano correlate al diabete effettivo anche se non lo sono", afferma Lu. "Questi 'falsi positivi' non si limitano a queste variazioni specifiche e al rischio del diabete, ma sono un pregiudizio pervasivo negli studi assistiti dall'IA".

Il nuovo metodo statistico può ridurre i falsi positivi

Oltre a identificare il problema dell'affidamento eccessivo sugli strumenti di IA, Lu e i suoi colleghi propongono un metodo statistico che i ricercatori possono usare per garantire l'affidabilità dei loro studi di associazione a livello dell'intero genoma assistiti dall'IA.

Il metodo aiuta a rimuovere la distorsione che gli algoritmi di apprendimento automatico possono introdurre quando stanno facendo inferenze basate su informazioni incomplete. "Questa nuova strategia è statisticamente ottimale", afferma Lu, che osserva che il team l'ha usata per individuare meglio le associazioni genetiche con la densità minerale ossea degli individui.

IA non l'unico problema di alcuni studi di associazione a livello del genoma

Mentre il metodo statistico proposto dal gruppo potrebbe aiutare a migliorare l'accuratezza degli studi assistiti dall'IA, Lu e i colleghi hanno recentemente identificato problemi in studi simili che riempiono le lacune dei dati con informazioni rappresentative (proxy) piuttosto che con algoritmi.

In un altro studio (rif.2) pubblicato di recente su Nature Genetics, i ricercatori suonano l'allarme sugli studi che si basano eccessivamente alle informazioni rappresentative nel tentativo di stabilire connessioni tra genetica e determinate malattie. Ad esempio, i grandi database sanitari come la UK Biobank hanno molte informazioni genetiche su grandi popolazioni, ma non hanno molti dati sull'incidenza di malattie che tendono a spuntare più avanti nella vita, come la maggior parte delle neurodegenerazioni.

Per il morbo di Alzheimer (MA) in particolare, alcuni ricercatori hanno tentato di colmare questo divario con dati rappresentativi raccolti attraverso sondaggi sulla storia della salute familiare, in cui gli individui possono segnalare la diagnosi di MA di un genitore.

Il team dell'UW-Madison ha scoperto che tali studi con informazioni rappresentative possono produrre una "correlazione genetica altamente fuorviante" tra il rischio di MA e le capacità cognitive più elevate.

“Al momento, gli scienziati genomici lavorano abitualmente con set di dati di biobanche che hanno centinaia di migliaia di individui; tuttavia, man mano che il potere statistico aumenta, anche i pregiudizi e la probabilità di errori sono amplificati in questi enormi set di dati", afferma Lu. "I recenti studi del nostro gruppo forniscono esempi avvilenti ed evidenziano l'importanza del rigore statistico negli studi di ricerca su scala di biobanca".

Fonte: Will Cushman in University of Wisconsin-Madison (> English) - Traduzione di Franco Pellizzari.

Riferimenti:

J Miao, [+5], Q Lu. Valid inference for machine learning-assisted genome-wide association studies. Nat Genet, 2024, DOI
Y Wu, [+6], Q Lu. Pervasive biases in proxy genome-wide association studies based on parental history of Alzheimer’s. Nat Genet, 2024, DOI

Copyright: Tutti i diritti di testi o marchi inclusi nell'articolo sono riservati ai rispettivi proprietari.

Liberatoria: Questo articolo non propone terapie o diete; per qualsiasi modifica della propria cura o regime alimentare si consiglia di rivolgersi a un medico o dietologo. Il contenuto non rappresenta necessariamente l'opinione dell'Associazione Alzheimer OdV di Riese Pio X ma solo quella dell'autore citato come "Fonte". I siti terzi raggiungibili da eventuali collegamenti contenuti nell'articolo e/o dagli annunci pubblicitari sono completamente estranei all'Associazione, il loro accesso e uso è a discrezione dell'utente. Liberatoria completa qui.

Nota: L'articolo potrebbe riferire risultati di ricerche mediche, psicologiche, scientifiche o sportive che riflettono lo stato delle conoscenze raggiunte fino alla data della loro pubblicazione.

Ricerche