Big data, machine learning e medicina di precisione.

(Update: il post è stato arricchito dalla sintesi a cura di Anna Pellizzone.)

Il 10 maggio 2018 si è tenuto il terzo incontro del ciclo ‘La medicina di precisione: opportunità terapeutiche e responsabilità pubblica’, primo atto della collaborazione tra Università di Pavia e Fondazione Giannino Bassetti.

L’incontro, titolato “Big data, machine learning e medicina di precisione” è stato introdotto da Piero Bassetti con una costatazione: “(…) la quantità fa qualità. Siamo di fronte a una sfida enorme perché quello che sta avvenendo è che i dati quando sono infinitamente tanti sono sostitutivi del fenomeno.
La realtà la recepivamo dal fenomeno; adesso stiamo constatando che saremo richiesti di guardare la realtà non tanto dal fenomeno – in greco vuol dire ‘apparire’ – quanto dal contare, quanto dal numero“. Tale problematica è stata poi affrontata nella sua fattualità affiancandola alla complessità dello sviluppo della medicina di precisione durante l’incontro di cui forniamo le intere riprese e la documentazione di slide e fotografie.

Indice della pagina:

Riprese integrali dell’incontro con link alle slide
La sintesi dell’incontro (a cura di Anna Pellizzone)
Il podcast in versione integrale dell’evento.
le fotografie dell’evento

Sono intervenuti:

Antonietta Mira, Università della Svizzera Italiana e Università dell’Insubria (parte uno, 27’26”). Qui le slide.
Gianluigi Zanetti, CRS4 – Centro di Ricerca, Sviluppo e Studi Superiori in Sardegna (parte due, 27’24”). Qui le slide.
Riccardo Bellazzi, Università di Pavia (parte tre, 24’52”). Qui le slide.
Matteo Santoro, Camelot Biomedical System (parte quattro, 24’12”). Qui le slide.
Alessandro Venturi, Università di Pavia (parte cinque, 20’00”).

Sintesi dell’incontro

Lo scorso 10 maggio si è tenuto il terzo incontro del ciclo ‘La medicina di precisione: opportunità terapeutiche e responsabilità pubblica’, frutto della collaborazione tra Università di Pavia e Fondazione Giannino Bassetti. Il dialogo, intitolato Big data, machine learning e medicina di precisione, ha visto la partecipazione di esperti provenienti da diversi campi del sapere, dall’ingegneria alla statistica, dalla bioinformatica al diritto.

Il dibattito è stato aperto da Piero Bassetti che ha evidenziato come in sanità e in politica il tema della differenza tra dati big data sarà cruciale. “Siamo di fronte a una sfida enorme, perché quando i dati sono infinitamente tanti, stanno diventando sostitutivi del fenomeno: stiamo constatando che saremo richiesti di guardare la realtà non tanto dall’apparire, quanto dal contare”.
Proprio a partire dallo spunto di Piero Bassetti “la quantità fa la qualità”, Angela Simone, moderatrice dell’incontro, ha quindi introdotto il dibattito partendo da due esperienze concrete, che sono indubbiamente paradigmatiche dello sviluppo e degli impatti della medicina di precisione e del big data in sanità. Lo scorso 10 aprile, durante il Digital Day, è stato infatti raggiunto un accordo sulla base del quale l’Europa punta ad arrivare entro il 2022 a collezionare e scambiare tra Stati Membri 1 milione di genomi. Allo stesso tempo, oltreoceano, negli Stati Uniti, è stata lanciata già qualche anno fa sotto il governo Obama l’iniziativa All of Us, prosecuzione della Precision Medicine Initiative. Oggi il progetto sta entrando nel vivo ed è appena partita la campagna di recruiting di volontari che dovranno condividere non solo dati genetici, ma anche di lifestyle, con l’obiettivo di creare una banca dati che possa essere utilizzata da tutti i ricercatori USA.

Nel primo intervento Antonietta Mira, Professore ordinario presso l’Università della Svizzera Italiana e Università dell’Insubria, ha portato la propria esperienza di statistica, concentrandosi in particolare sul caso degli Adaptive Clinical Trials. Un po’ come avvenne con l’universo, quando Galileo inventò il cannocchiale, oggi misurano sempre meglio l’infinitamente piccolo grazie a strumenti sempre più precisi, ma anche grazie a simulazioni algoritmiche sempre più sofisticate e a computer sempre più potenti. Questi strumenti funzionano come lenti di ingrandimento e acceleratori del tempo che ci consentono di misurare non in vivo, né in vitro, ma in silico, cose come la struttura spaziale delle proteine, che oggi richiede 100 mila volte meno tempo uomo rispetto a 20 anni fa. E richiede anche meno denaro. Ad esempio, il costo del sequenziamento è sceso da 3 miliardi di dollari nel 2000 a meno di 1000 dollari oggi.
Allo stesso tempo, la produttività dell’innovazione in ambito medico sembra scendere inesorabilmente e oggi per sviluppare un nuovo farmaco servono mediamente 2 miliardi e mezzo di dollari (l’investimento è cioè cresciuto di 200 volte in 30 anni). Mentre le pubblicazioni raddoppiano, la capacità di tradurre i dati in scoperta al letto del paziente è disarmante e assistiamo a un divario tra impact factor scientifico e impact factor clinico. Oggi i dati permettono di stratificare sempre più a fondo i pazienti e le terapie sono sempre più differenziate in profondità in sottogruppi sempre più piccoli. I farmaci sono applicati a meno pazienti e il costo del farmaco lievita.
La scienza dei dati, ha spiegato Antonietta Mira, si occupa di traduzione di dati grezzi in banche dati. I dati al momento della raccolta sono molto diversi e hanno spesso diversi livelli di precisione e affidabilità. Quindi prima di tutto vanno organizzati in database. Poi bisogna estrarli usando algoritmi e intelligenze artificiali.
La conoscenza scaturisce quindi dalla digestione dei dati attraverso una catena che parte dai dati grezzi arriva alla conoscenza azionabile, che richiede un dialogo tra saperi: biologi, sociologi, statistici, bioinformatici, ingegneri, che creano banche dati, che dovrebbero essere il più possibile open source, così come gli algoritmi che li organizzano.
Venendo alla sperimentazione clinica, attraverso l’intelligenza artificiale è oggi possibile progettare dei “trial intelligenti” che possono raccogliere dati in itinere e aumentare gli obiettivi di efficacia e safety.
Questo tipo di sperimentazioni si chiamano adaptive clinical trials, sono riconosciuti dall’Fda e seguono un protocollo preciso. Si tratta di sperimentazioni adaptive by design e si basano sul fatto che attraverso i dati si può stabilire un piano di adattamento – leggi anche data driven modification – che ha il vantaggio di rendere i trials più flessibili ed efficienti, anche se ovviamente lo svantaggio è che i tempi si allungano.
Secondo l’esperta, il settore presenta anche numerose sfide. Come la necessità di portare l’innovazione al letto del paziente attraverso un approccio integrato tra statistica, scienze computazionali e intelligenza artificiale, che hanno punti di forza complementari. Altro punto centrale è il fatto che negli adaptive clinical trials i criteri di responsabilità pubblica e privata si incorporano in quella che viene chiamata funzione di utilità, che deve essere costruita anche considerando fattori etiche. Nell’intelligenza artificiale non esiste meccanismo per incorporare in modo trasparente e coerente gli aspetti etici legati ai dati. Per questo è necessario combinare tra loro diverse discipline. È necessario monitorare la privacy e la sicurezza, ad esempio attraverso strumenti tipo blokchain che possono essere usate anche per gestire i dati e dare al singolo controllo sui propri dati e scardinare i monopoli sui big data che già esistono, anche per la presenza di nuovi attori come Google, Alibaba e Amazon.

Ma che cosa sono esattamente i big data e perché sono così importanti? A spiegarlo, Gianluigi Zanetti, direttore dell’Advanced Computing and Communications Program e del Distributed Computing and Biomedical Computing groups di CRS4 – associazione di ricerca privata no profit Centro di Ricerca, Sviluppo e Studi Superiori in Sardegna.
Come ha spiegato Zanetti, di formazione fisico, il settore biomedico sta diventando sempre più data-intensive. Le cosiddette tecnologie abilitanti oggi fanno sì che a costi bassi sia oggi possibile raccogliere grandi quantità di informazioni, ad esempio molecolari, ma dopo aver raccolto i dati bisogna estrapolare le informazioni. Molti aspetti legati alla salute si stanno digitalizzando, ad esempio l’anatomia patologica, ma ovviamente anche la genomica e la proteomica. È vero che siamo di fronte a una grande mole di dati, ma siamo anche di fronte a una grande eterogeneità dei dati. Per realizzare la medicina di precisione, queste informazioni devono essere messe insieme e per fare questo i dati devono avere delle caratteristiche specifiche.
Per riconoscere il big data, nome ormai utilizzato dal 2006, tradizionalmente si ricorre alle cosiddette quattro “V”:
1) il Volume dei dati che ho;
2) la Velocità con cui i dati arrivano;
3) la Varietà dei dati che mi dice quanto sono eterogeneo;
4) la Veracità, cioè l’affidabilità dei dati.
Sulla base di questa descrizione, possiamo parlare di big data in vari ambiti: in astronomia, nell’ambito dei social network, ma oggi anche in sanità perché si è passati ad esempio dai 10-40GB occupati da un set di vetrini ai 300GB, ordine di grandezza intorno a cui si può quantificare il sequenziamento di un genoma.
Ma come integrare questi dati con la clinica? Zanetti porta alcuni esempi, come il 100K Genomes Project, un progetto pilota di integrazione profonda della genomica a livello di sistema sanitario nazionale (NHS). O il Milieu Intérieur Project, che cerca di stabilire, per una particolare malattia, i confini della risposta immune “sana” per valutare come è controllata dalla genetica, dall’epigenetica e dall’ambiente.
L’idea è quella di creare un sistema a tre livelli che comprendano l’individuo, un meccanismo che permette di estrapolare informazioni dall’individuo e restituirgliele, e la big information resource, con l’obiettivo di creare uno scambio virtuoso di informazioni utile dall’individuo alla comunità e viceversa. Le sfide in questo senso sono tutt’altro che risolte, a partire dalla tensione che si può creare tra l’interesse del singolo e quello della comunità.
Zanetti ha quindi sottolineato come oggi si assista ad un forte disaccoppiamento tra la necessità di risorse computazionali e l’incombenza di doverle gestire: in altre parole, si è disaccoppiato il bisogno di fare conti dal bisogno di gestire la struttura che fa i conti.

Carlo Bellazzi, Professore Ordinario di bioingegneria elettronica e informatica dell’Università di Pavia, ha quindi aggiunto un ulteriore tassello al dibattito, quello del machine learning, partendo da alcune delle più recenti notizie sull’argomento, come quella pubblicata su Nature nel 2017 che ha sancito lo sviluppo di un’architettura neurale di rete profonda con prestazioni equivalenti a quelle di un dermatologo che era stata allenata usando un generico database contenente 1 milione di immagini.
Avendo a disposizioni grandi basi di dati, noi siamo in grado di costruire degli algoritmi che hanno dei pattern che funzionano molto bene. Ma i dermatologi non devono preoccuparsi, perché già oggi utilizziamo delle macchine che sono in grado di analizzare le immagini e aiutarci a migliorare la nostra comprensione del fenomeno che stiamo osservando. Queste architetture aprono quindi delle opportunità per migliorare in senso generale la nostra performance.
Bellazzi ha quindi sottolineato come la nostra sfida non sia quella di usare una sola tipologia di dati, ma di creare sistemi predittivi, o comunque di supporto alle decisioni, che siano in grado di lavorare con più informazioni. La partita è aperta e non solo sul fronte dei dati di ricerca che arrivano, ad esempio, dalla genomica, ma anche dai dati che vengono generati da altre sorgenti, come i pazienti stessi e i cittadini.
Il Professore ha quindi portato l’esperienza dell’iniziativa ib2b, attraverso cui si sta cercando di realizzare delle architetture di machine learning non tanto per supportare la big science – quindi la produzione di nuova conoscenza – quanto per aiutare gli ospedali e le strutture sanitarie ad apprendere, diventando così dei “learning health systems” in grado di utilizzare i dati che loro raccolgono durante la pratica clinica.
Come ha sottolineato Bellazzi, è importante realizzare sistemi informatici che da un lato recuperino le informazioni prodotte durante il processo di cura e le usino per generare ricerca e dall’altro raccolgano i risultati della ricerca per tradurli nella pratica clinica nel modo più veloce possibile.
Un esempio a cui ha lavorato l’Università di Pavia, il progetto Onco-i2b2, portato avanti in collaborazione con gli Istituti Clinici Maugeri riguarda le pazienti con tumore al seno. Le pazienti possono donare i propri campioni e i propri dati, che vengono sincronizzati in modo anonimo e che vanno ad alimentare un’infrastruttura che dà la possibilità al ricercatore di interrogare i dati clinici raccolti e, contestualmente, di recuperare i campioni associati che sono stati stoccati.
Ma se abbiamo degli algoritmi fantastici, se abbiamo infrastrutture anche open source che possiamo utilizzare per fare integrazione dati, se abbiamo nuovi strumenti per cercare dati dove prima non potevamo farlo, dove stanno le difficoltà?

Tutte queste condizioni stanno creando grandissime aspettative che stanno dando il la per il prossimo “AI winter“, un po’ sulla falsa riga di quello che è successo intorno al 1970, quando si è scoperto che la prima architettura di reti neurali non era in grado di risolvere problemi anche piuttosto banali. Tre questioni molto concrete da affrontare sono la qualità dei dati, la disponibilità dei dati e la privacy.

Anche Matteo Santoro, CEO di Camelot Biomedical System, ha sottolineato come una delle grandi questioni che non dobbiamo sottovalutare quando parliamo di medicina di precisione è quello del trasferimento tecnologico. Se da un lato abbiamo dei risultati ricerca strabilianti, lo sviluppo di prodotti e servizi è abbastanza limitato. L’AI che è alla base della medicina di precisione – ha evidenziato l’esperto di Camelot – è un esempio paradigmatico. Sono stati partoriti tantissimi modelli, da un punto di vista scientifico c’è un hype, ma poi succede che ci si disinnamora, perché non si riesce ad andare oltre. Allora la domanda è: quali sono le sinergie necessarie che possano consentire alle industrie di produrre tecnologie che arrivino davvero al paziente? Il trasferimento tecnologico è fatto di tantissimi insuccessi e qualche successo.
Santoro ha portato l’esempio di un progetto di ricerca in grado di integrare dati genomici, proteomici, clinici e radiologici: un sistema di machine learning sviluppato nel contesto di una malattia pediatrica rara. L’obiettivo era quello di individuare dei biomarker in grado di predire l’evoluzione della malattia. Ma poi il progetto ha dovuto fare i conti con il fatto che il sistema sanitario nazionale rimborsa la radiografia e per i ricercatori è stata una doccia gelata. L’innovazione, oltre ad essere costosa nella fase di ricerca, è costosa nel processo di accreditamento della terapia. Il prodotto, ha evidenziato il CEO di Camelot, era molto sofisticato, ma non era applicabile.
Dopo una serie di altri esempi concreti di applicazioni riconducibili alla medicina personalizzata e al big data, Santoro ha concluso con una riflessione sulla questione della privacy, argomento centrale anche dal suo punto di vista. Oggi assistiamo a un distacco tra la richiesta di informazioni e dati ai pazienti e il ritorno che essi hanno in termini di vantaggi per la salute che crea una barriera difficilissima da superare. Secondo il CEO di Camelot, “quando invece la tecnologia è più vicina il paziente, egli è entusiasta di mettere a disposizione i propri dati”. In altre parole: “il paziente vuole capire cosa ha in ritorno, perché la domanda che fa il paziente non è «non voglio dare i dati», ma la domanda è «perché dovrei darli?»”.

L’incontro si è concluso con l’intervento di Alessandro Venturi – Università di Pavia – che ha portato alcune riflessioni su come il diritto intervenga in questo dibattito. Secondo il giurista, i macro problemi giuridici derivanti dal machine learning applicato all’ambito sanitario sono principalmente di due ordini: il primo derivante da rilievo diffuso di dati personali e fisiologici, il secondo derivante dal procedimento algoritmico, ovvero se, e in che misura, la decisione finale è influenzata supportata o sostituita da procedimento algoritmico questo pone una serie di problemi.
Venturi ha ripreso nel suo intervento una citazione di Wiener: “i problemi giuridici sono per loro natura problemi di comunicazione e di cibernetica e cioè sono problemi relativi al regolato e ripetibile governo di certe situazioni critiche”. Alla base delle Costituzioni contemporanee e della legge vi è in un certo senso un complesso algoritmico decisionale. Con il passare del tempo le istituzioni e le pubbliche amministrazioni hanno introdotto le loro procedure, spesso complesse, poco intuitive, poco trasparenti rispetto a una struttura algoritmica. Secondo Venturi, “riportare il dibattito dentro una dialettica sullo stato dell’arte […] per cui non passiamo da una situazione di chiarezza e di trasparenza a una situazione di incertezza”. E alcune pubblicazioni sono arrivate ad ipotizzare l’obbligo giuridico per il medico di utilizzare il machine learning per evitare pratiche negative.
Come dovremmo quindi prepararci per un futuro di questo tipo dal punto di vista del diritto e delle istituzioni di governo? Secondo l’esperto dell’Università di Pavia, è dedicare maggiore attenzione a questo tema, senza ostracizzarlo. E anche i pazienti dovrebbero sapere quando e perché i loro medici si affidano al procedimento algoritmico come supporto decisionale o anche sostitutivo della diagnosi.
Forse è necessario stabilire che la giurisdizione sulla capacità di analizzare obiettivamente la realtà e quindi di assumere conseguentemente delle decisioni in funzione di quel tipo di osservazione è una rivendicazione tradizionalmente ascrivibile a un tipo speciale di autorità, l’autorità pubblica. Ma oggi le cose stanno cambiando e le prestazioni dell’oggettività algoritmica sono fondamentali per mantenere e legittimare una fiducia anche nei confronti dei consociati, dei cittadini, di coloro che formano una comunità. Da questo punto vista il tradizionale modello normativo che si concentra sulle regole piuttosto che sui risultati è inadeguato per rispondere a questo bisogno. In questo senso la legge ancora oggi rappresenta un artefatto che ha un tempo di adattamento troppo dilatato rispetto al cambiamento rapido che la conoscenza scientifica e l’innovazione apporta nella vita sociale.
Secondo Venturi, la legittimazione delle istituzioni di governo come piattaforme digitali che han come presupposto l’accessibilità dei dati analizzabili, la loro disponibilità, integrità, certificazione e sicurezza.
E citando Dave Guston, secondo cui c’è un’identità tra legislazione e tecnologia che si sostanzia nel fatto che entrambe sono create da un’élite, ha concluso: se la nostra tradizione giuridica e costituzionale ci spinge a ritenere che la legge debba scaturire da un impulso democratico per risultare accettabile ed equa, allo stesso modo deve essere l’innovazione. Niente innovazione senza rappresentanza. La sfida quindi è continuare a riflettere su questo e coinvolgere tutti i cittadini anche i pazienti in questo continuo processo.

PODCAST