Intelligenza umana e artificiale: culture a confronto

Giampaolo Collecchia
MMG, CSeRMEG, Massa (MS)
Per corrispondenza: Giampaolo Collecchia, g.collec@vmail.it


“…La filosofia arriva sempre troppo tardi. Come pensiero nel mondo, essa appare per la prima volta nel tempo,
dopo che la realtà ha compiuto il suo processo di formazione ed è bell’e fatta… Quando la filosofia dipinge a chiaroscuro,
allora un aspetto della vita è invecchiato, e, dal chiaroscuro esso non si lascia ringiovanire, ma soltanto riconoscere:
la nottola di Minerva inizia il suo volo sul far del crepuscolo”
(GWF Hegel1)


Summary. Human and artificial intelligence: comparison and clash of cultures. Machine learning has become ubiquitous and indispensible for solving complex problems in most sciences. As patients' conditions and medical technologies become more complex, its role will continue to grow. However the risk is of over reliance on these systems: no amount of algorithmic finesse or computing power can squeeze out information that is not present. In fact, clinical data alone have relatively limited predictive power for hospital readmissions that may have more to do with social determinants of health. Combining machine-learning software with the clinical judgement and a wise interpretation of information from health care professionals will help to increase the integration between digital world and real practice.


il datanami

Si sente spesso affermare e si scrive che i dati sono il nuovo petrolio, in realtà non è vero. Infatti, mentre quest’ultimo è una risorsa limitata, i dati sono rinnovabili all’infinito, destinati a crescere rapidamente e ininterrottamente, dal momento che gli stessi dispositivi di gestione sono tra le principali fonti di nuovi dati, in un ciclo che si autoalimenta. Ogni giorno viene prodotta una enorme quantità di informazioni digitali, stimata intorno ai 2,5 esabyte (10 18 bytes) (Tabella 1). In 1-2 anni verrebbero prodotti un numero di dati maggiore di quelli accumulati nel corso della storia dell’umanità, con un volume complessivo pari a 4,4 zettabytes nel 2014 e a 44 zettabytes secondo stime di proiezione riferibili ai primi anni del 2020.2
Questo è il cosiddetto datanami, tsunami dei dati, che ha ed avrà un forte impatto sulla professione medica in ambiti di fondamentale rilevanza quali la predittività, la diagnostica, la relazione medico-paziente. Ciò si può realizzare mediante l'elaborazione dei dati per mezzo dell'intelligenza artificiale (IA) che, ormai con diversi decenni alle spalle, da quando nel 1940 Alan Turing ne ha posto le basi, ha subito un'evoluzione radicale nel suo significato e nelle applicazioni, diventando uno strumento contemporaneo, che ci supporta quotidianamente in numerose attività (assistenti telefonici, motori di ricerca, social network, filtri anti-spam, profilazioni commerciali). I recenti progressi della tecnologia informatica computazionale hanno permesso la messa a punto di una nuova generazione di sistemi capaci di rivaleggiare/superare le capacità umane in determinati domini o in compiti specifici. Questi sistemi sono inoltre in grado di imparare dalle loro stesse esperienze e intraprendere azioni spesso non contemplate dai progettisti. Non è più vero che “ i computer fanno solo quello che sono programmati a fare”.3






il dato (non) È “dato”

Gli ostacoli per un utilizzo dell'IA nella pratica medica, potenzialmente utile anche per ovviare alla imminente carenza di professionisti e ottenere teoricamente una riduzione dei costi della sanità, sono peraltro diversi. Il primo problema è la disponibilità di dati digitali validi a disposizione degli algoritmi di DL. Un grande volume di informazioni non corrisponde infatti automaticamente a una migliore qualità delle inferenze e delle applicazioni che da queste derivano. I dati di per sé sono inutili. Affinché possano essere realmente utili, devono essere selezionati, strutturati e interpretati. Non sono pertanto le tecnologie ad essere decisive ma la capacità di estrarre valore dal loro uso. Il dato non è un'entità chiusa, “data”, ma un costrutto sociale, risultato concreto di specifiche scelte culturali, sociali, tecniche ed economiche messe in campo da individui, istituzioni o società per raccogliere, analizzare e utilizzare informazione e conoscenza. Lo stesso concetto di raw data (dato grezzo) è un ossimoro, non esiste il dato non contaminato da teoria o analisi o contesto, ma è sempre frutto di operazioni e elaborazioni di varia natura.5
Contrariamente alle affermazioni di C. Anderson, ex direttore della rivista Wired e teorico del digitale (Riquadro 1), l'enorme quantità di dati richiede, ancora più che in passato, uno sforzo interpretativo enorme, che i calcolatori non sono (per ora?) in grado di svolgere autonomamente.





intelligenza artificiale e medicina clinica

Una delle principali applicazioni pratiche del machine learning (ML) in medicina è l'interpretazione dei dati clinici, radiologici, istologici, dermatologici, in maniera più accurata e rapida che con la metodologia classica. La biologia umana è infatti talmente complessa e l'espansione delle conoscenze così rapida che nessuna intelligenza naturale può competere con l'IA in termini di velocità e capacità di elaborazione delle informazioni. In pratica, i sistemi basati sul ML vengono “addestrati” attraverso la presentazione di enormi data set, costituiti da milioni di immagini digitalizzate (ad esempio radiografie, fotografie, elettrocardiogrammi), già classificate sulla base di un gold standard (in genere una diagnosi definita a maggioranza da un gruppo di specialisti). Dopo questo periodo di apprendimento supervisionato, segue una fase in cui al modello vengono presentate immagini nuove, sempre ordinate dagli esperti, ma senza che al sistema sia mostrata la classificazione corretta. Viene pertanto osservata la sua capacità predittiva e l'accuratezza diagnostica autonoma rispetto ai casi già classificati correttamente. Questo processo può essere ripetuto fino a che non raggiunge livelli di accuratezza predittiva molto elevati.
Anche se la diagnostica supportata dal computer non è una novità, basti pensare ai cosiddetti sistemi esperti, il cambiamento profondo risiede nello sviluppo del deep learning (DL), sistema di algoritmi in grado non di seguire regole predefinite ma di imparare dai dati stessi, in maniera autonoma, rilevando pattern “nascosti” tra i dati, che spesso nemmeno gli addetti ai lavori sono in grado di spiegare. In pratica, spiegano Rasoini et al., nel momento in cui un modello di deep learning predice l'indicazione ad una indagine bioptica di una lesione cutanea poiché, con elevata probabilità, si tratta di un melanoma, nessuno può stabilire sulla base di quali caratteristiche della lesione la macchina abbia elaborato questa predizione, tanto che la modalità operativa di questi sistemi è stata definita come black box, ovvero scatola nera.7
I sistemi di supporto decisionale basati sul DL si sono dimostrati validi in vari ambiti, in particolare nella diagnostica della retinopatia diabetica e dell'edema maculare8 e dei tumori cutanei,9 riportando un livello di accuratezza pari a quello di specialisti esperti. Altre possibili applicazioni sono numerose, ad esempio gli algoritmi sono in grado di analizzare in maniera sistematica tracciati elettrocardiografici di molti giorni e identificare variazioni minime apparentemente correlate al rischio di morte improvvisa.10
L'applicazione della IA in contesti reali può determinare numerosi potenziali vantaggi, come la velocità di esecuzione, i costi potenzialmente ridotti, sia diretti che indiretti, la migliore accuratezza diagnostica, la maggiore efficienza clinica e operativa (“gli algoritmi non dormono”), la possibilità di accesso agli accertamenti anche a persone che non possono beneficiarne altrimenti per cause geografiche, politiche ed economiche.11


possibili algo (a)ritmie

Le grandi aspettative nei confronti dell'IA rischiano di sottovalutare i rischi relativi ad una accettazione acritica delle tecnologie correlate, in particolare dei sistemi decisionali. Ad esempio, i dati necessari all'addestramento degli algoritmi di ML per elaborare i modelli predittivi sono in genere di qualità non ottimale, perché non sottoposti a quel processo di “ripulitura” e di rielaborazione che sarebbe insostenibile nella pratica clinica quotidiana12 e quindi possono non essere in grado di fornire risposte implementabili per decisioni e trattamenti clinici, anche perché, talvolta, potrebbero “imparare” gli errori delle intelligenze naturali. Oltre che non strutturati, i dati del cosiddetto real world, ad esempio i registri o le cartelle cliniche elettroniche, non sempre sono disponibili, non lo sono ovunque e il loro valore è inoltre limitato al setting di raccolta. Gli aspetti di contesto, difficilmente esplicitabili in termini quantitativi, possono pertanto essere sottovalutati e sotto-rappresentati, basti pensare alle condizioni non ben definibili in termini di patologia, la fragilità, le condizioni di disagio extra-cliniche, i fattori psicologici, sociali, familiari, le condizioni di svantaggio economico o culturale, logistico, che influiscono sempre sulla gestione clinica del paziente. Ad esempio, i dati clinici da soli hanno limitato potere predittivo nel caso di pazienti il cui rischio di re-ospedalizzazione sia dipendente soprattutto da determinanti sociali.13
Caruana et al. hanno evidenziato una situazione clinica in cui l'efficacia predittiva dei sistemi di supporto decisionali è risultata tecnicamente valida ma in pratica fuorviante. In oltre 14.000 pazienti affetti da polmonite sono stati valutati differenti algoritmi per predire il rischio di mortalità. Il risultato è stato che i pazienti con storia di asma erano classificati come a rischio minore di morte rispetto ai non asmatici.14 Come riportato da Cabitza et al., l'inatteso risultato è stato spiegato dal fatto che i pazienti con polmonite e storia di asma erano in genere ricoverati in terapia intensiva e la minore mortalità dipendeva probabilmente da una tendenza dei medici a trattarli in modo precoce e con maggiore aggressività. In pratica, algoritmi formalmente perfetti possono sbagliare a causa dell'incompletezza e della variabilità dei dati inseriti.
Un altro limite all'attendibilità dei dati è legato all'incertezza, variabile inevitabile in medicina, caratterizzata da ampie aree grigie di conoscenza, per il dominio incompleto del sapere disponibile ed i limiti intrinseci del sapere medico. Nel caso degli studi su nuovi test diagnostici, ad esempio, il gold standard di riferimento può essere multiplo e comunque sottoposto al rischio di incertezza nell'interpretazione. A seconda della scelta di quale utilizzare per l'addestramento dell'algoritmo, i livelli di accuratezza possono essere differenti. Nello studio sopra citato, sulla diagnostica della retinopatia diabetica, l'utilizzo come gold standard della OCT (tomografia ottica a coerenza di fase) al posto della decisione maggioritaria di un gruppo di oftalmologi, secondo alcuni ricercatori avrebbe potuto aumentare i pur alti livelli di accuratezza ottenuti.15
Un'altra criticità riguarda le capacità predittive della IA in ambito prognostico. L'utilizzo dei big data presenta infatti dei limiti che dipendono dalla loro stessa natura: rischi di bias nella selezione del campione, nella raccolta e nell'interpretazione delle informazioni che vengono elaborate, in grado di minacciare la validità e la generalizzabilità delle conclusioni. In ambito epidemiologico, ad esempio, i flussi di dati sono particolarmente utili in quanto permettono di fare una fotografia, spesso istantanea, di un certo fenomeno in un dato momento, ma non consentono di cogliere gli aspetti legati alle interazioni tra i cittadini/pazienti e il contesto, spesso di difficile rappresentazione ed espressione esplicita in termini di digitalizzazione, a causa della possibile presenza di variabili confondenti e correlazioni spurie. È pertanto necessaria una validazione da parte di fonti epidemiologiche esterne, al fine di non giungere a inferenze causali sbagliate che potrebbero determinare una sottrazione di risorse a interventi di dimostrata efficacia. 16 Come afferma l'epidemiologico R. Saracci, il valore dei big secondary data non è nella loro ampiezza ma nella validità del percorso che ha portato alla loro misurazione e che è la base della stima della validità interna ed esterna di qualsiasi ricerca. La stessa medicina di precisione, che si propone di utilizzare i big data di varia provenienza per analizzare lo stato di ciascun individuo a scopi predittivi, diagnostici e terapeutici, in realtà, secondo Saracci, si propone obiettivi, nella pratica, irraggiungibili. L'unico possibile strumento di decision making è attualmente la stratificazione del rischio di malattia per gruppi di soggetti, il più possibile omogenei, in termini di prognosi e di risposta ai trattamenti. Per un lungo periodo di tempo saranno ancora indispensabili interventi su popolazioni, sottopopolazioni o gruppi, privilegiando, soprattutto in ambito farmacologico, la risposta del paziente medio, malato o in salute (ben sapendo che in realtà non esiste), rispetto al caso particolare. Occorre dunque l'utilizzo di una epidemiologia saggia, in grado di utilizzare i flussi di dati come strumento di conoscenza di sanità pubblica, in particolare per limitare i grandi gap di salute tra i diversi paesi.17
La stessa dimostrazione di elevata affidabilità predittiva potrebbe peraltro portare ad un notevole ricorso all'automazione nella pratica medica e quindi ad una serie di criticità (vedi Riquadro 2).





conclusioni

L'IA sta cambiando il paradigma culturale della medicina: le sue applicazioni potrebbero diventare sempre più indispensabili per fornire risposte in contesti ad elevata complessità e incertezza e consentire ai medici di avere più tempo per prendere in carico i bisogni assistenziali del proprio paziente. I dati peraltro non sono valori, qualunque intervento basato su di essi deve essere personalizzato, tenendo anche conto della frequente contraddittorietà delle conoscenze fornite dalla letteratura. La IA sarà utile essenzialmente in quanto complementare per il medico, che potrà delegare alle macchine i calcoli e le operazioni sui dati ma tenere per sé l'interpretazione dei fenomeni complessi e le conseguenti possibili soluzioni. I sistemi di IA devono essere considerati uno strumento, come il microscopio, il fonendoscopio, l'elettrocardiografo, sviluppati nel tempo per sopperire alla limitata capacità percettiva dei medici. I risultati migliori sono attesi quando l'IA lavora di supporto al personale sanitario, “secondo set di occhi”, modalità di integrazione culturale tra umani e macchine smart,18 evitando di enfatizzare dispute, in fondo abbastanza irrilevanti, su quale sistema cognitivo, umano o artificiale, sia più intelligente. Come affermato da A. Verghese, “i clinici dovrebbero ricercare un'alleanza in cui le macchine predicono (con una accuratezza significativamente maggiore) e gli esseri umani spiegano, decidono e agiscono”.19
Il personale sanitario deve pertanto svolgere un ruolo di guida, supervisione e monitoraggio, utilizzando la propria intelligenza e le capacità che li rende superiori alle macchine, in particolare l'astrazione, l'intuizione, la flessibilità e l'empatia, per esercitare un approccio conservativo e costruttivamente critico, evidenziandone le enormi potenzialità, spesso enfatizzate acriticamente per motivi commerciali, ma anche i limiti (e le possibili minacce, come la distopia fantascientifica delle macchine al potere!). Ciò significa ad esempio rilevare la mancanza di studi sull'efficacia della IA in rapporto ad esiti clinici importanti, come la riduzione della morbilità/mortalità o il miglioramento della qualità di vita dei pazienti. Gli obiettivi dovrebbero comprendere anche il livello di soddisfazione, sia dei medici che dei pazienti, nel nuovo contesto relazionale di integrazione del mondo digitale con quello reale.
È ironico che proprio quando il tempo nella pratica clinica è sempre più limitato, è invece indispensabile una profonda riflessione sui possibili effetti della trasformazione in atto, in termini di accettazione da parte dei curanti e di tutti gli operatori, di cambiamenti di ruolo professionale, di relazione con il paziente, di indispensabili necessità formative. La responsabilità della scelta dovrebbe rimanere personale, condivisa con il paziente, sia nel caso che il professionista decida di avvalersi dei sistemi di IA, sia che decida di non avvalersene, anche se in generale è più probabile che si sviluppi un meccanismo psicologico di de-responsabilizzazione e di delega dell'intelligenza alle macchine: “non sono io che sbaglio”, con relative conseguenze medico-legali tutte da considerare in un ambito ancora sostanzialmente sconosciuto. Sicuramente è necessaria una sensibilizzazione di tutto il personale sanitario per iniziare un percorso di confronto allo scopo di stabilire le strategie e le politiche nei confronti di una tecnologia che, anche se attualmente è scarsamente impiegata rispetto alle sue potenzialità, in un futuro non lontano è destinata a cambiare l'essenza della medicina.
L'alternativa è perdere la partita o comunque arrivare a conoscere la vastità del fenomeno troppo tardi, a cose fatte, come la nottola di Minerva, che arriva quando la realtà è “bell'e fatta”.


BIBLIOGRAFIA

1. Hegel GWF. Lineamenti di filosofia del diritto. Bompiani, 2006.
2. Rizzati L. Digital data storage is undergoing mind-boggling growth. EETimes 2018; https://www.eetimes.com/ author.asp? section_id=36&doc_id=1330462&print=yes.  
3. Kaplan J. Intelligenza artificiale. Guida al futuro prossimo. Roma: LUISS, 2017.
4. Obermeyer Z, Emanuel EJ. Predicting the future - big data, machine learning, and clinical medicine. New Engl J Med 2016; 375:1216-9.
5. Accoto C. Il mondo dato. Cinque brevi lezioni di filosofia digitale. Milano: Egea, 2017.
6. Anderson C. The end of Theory: the data deluge makes the scientific method obsolete. Wired, 2008.
7. Rasoini R, Cabitza F, Alderighi C, Gensini GF. Intelligenza artificiale in medicina: tra hype, incertezza e scatole nere. Toscana Medica 2017; 11:18-20.
8. Gulshan V, Peng L, Coram M, Stumpe MC, Narayanaswamy A, Venugopalam S, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. JAMA 2016;316:2402-10.
9. Esteva A, Kuprel L, Novoa RA, Swetter SM, Blau HM, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017; 54:115-8.
10. Syed Z, Stultz CM, Scirica BM, Guttag JV. et al. Computationally generated cardiac biomarkers for risk stratification after acute coronary syndrome. Sci Transl Med 2011;3:102ra95.
11. Obermeyer Z, Eanuel EJ. Predicting the future: big data, machine learning, and clinical medicine. N Engl J Med 2016;375:1216-9.
12. Cabitza F, Alderighi C, Rasoini R, Gensini GF. Potenziali conseguenze inattese dell'uso di sistemi di intelligenza artificiale oracolari in medicina. Recenti Prog Med 2017;108:397-401.
13. Chen JH, Asch SMl. Machine learning and prediction in medicine - Beyond the peak of inflated expectations. N Engl J Med 2017;376:2507-9.
14. Caruana R, Lou Y, Gehrke J, Koch P, Sturm M, Elhadad N. Intelligible models for healthcare: predicting pneumonia risk and hospital 30-day readmission. Proceeding of the 21th ACM SIGKDD international Conference on Knowledge Discovery and Data Minings 2015;1721-30.
15. Wong TY, Bressier NM. Artificial intelligence with deep learning technology looks into diabetic retinopathy screening. JAMA 2016;316:2366-7.
16. Vineis P. Big data. Big bias; https://pensiero.it/in-primo-piano/interviste/big-data-big-biases
17. Saracci R. Epidemiology in wonderland: Big data and precision medicine. Eur J Epidemiology 2018: 33: 245-57.
18. Davenport TH. Artificial intelligence and the augmentation of health care decision-making. N Engl J Med Catalyst 2018.
19. Verghese A, Shah NH, Harrington RA. What this computer needs is a physician. Humanism and artificial intelligence. JAMA 2017;319:19-20.