Geriatria e gerontologia
credits - editoriale geriatria - meetings - notiziario - pubblicazioni
Presentazione
Una premessa
L'invecchiamento
Tempo libero e solitudine
Geragogia
Alimentazione
Alcolismo
Alcol e invecchiamento cerebrale
Attività fisica
   
  Links
  Email
   
  site design Doublespeak
 
Study of an old Man's Profile - Galleria degli Uffizi - Firenze
Il rischio cardiovascolare assoluto individuale: trappole della statistica classica e possibili soluzioni Torna agli editoriali

di
Enzo Grossi

Panorama teorico

E' noto che il rischio cardiovascolare cresce con l'aumentare dell'eta, ragion per cui il soggetto anziano rappresenta classicamente un prototipo di esaltazione della possibilità di eventi gravi di natura cardiovascolare.La medicina preventiva trova quindi proprio nel soggetto anziano la maggiore possibilità di un uso consapevole anche se molto spesso indiscriminato.
Un fattore critico poco conosciuto è rappresentato dal fenomeno è noto come "paradosso della prevenzione".
Facciamo l'esempio delle strategie di riduzione del cosiddetto rischio coronarico.Su questo argomento prendo a prestito quanto lucidamente espresso da uno dei più scaltri statistici italiani, il prof. Angelo Bignamini:
"qui come del resto in molti altri settori le strategie per la riduzione di rischio sono prevalentemente quelle di popolazione, basate sul fatto che la maggior parte dei casi di cardiopatia ischemica risulta dovuta all'esposizione di una larga parte della popolazione a fattori di rischio moderatamente elevati, e che è ragionevole ridurre questi fattori di rischio nella popolazione nel suo insieme. Se però ridurre del 10% il colesterolo nella popolazione generale potrebbe abbassare del 20% l'incidenza di malattie cardiache, con un vantaggio per la comunità, questo vantaggio sarebbe non percepito nella maggior parte degli individui, ed anzi in alcuni di essi , specie se anziani, potrebbe essere addirittura dannoso, per gli effetti collaterali del medicinale impiegato. Ne deriva quindi il concetto che una misura molto vantaggiosa per la comunità può essere di scarso aiuto per la persona, anche se si trova tra coloro che sono a rischio maggiore.
Un altro aspetto critico rilevante è inerente al calcolo del rischio relativo, che dovrebbe permettere di attribuire ciascun soggetto ad un sottogruppo che presenta mediamente un certo profilo di rischio. Specificamente, un soggetto ad alto rischio presenta un profilo compatibile con quello della popolazione che esprimerà un numero elevato di eventi in un tempo determinato; un soggetto a basso rischio presenta un profilo compatibile con quello della popolazione che esprimerà un piccolo numero di eventi nello stesso tempo. In realtà, invece,nella vita di tutti i giorni il termine "rischio" che è pertinente nel caso di una popolazione viene inconsapevolmente utilizzato in rapporto al singolo individuo. Dal punto di vista del medico utilizzatore e del soggetto, il soggetto ad alto rischio presenta singolarmente un rischio elevato di eventi. Ma questa definizione è in sé incongruente. Infatti per il singolo soggetto l'evento può solo presentarsi o non presentarsi. Quindi qualsiasi valore di rischio diverso da 0 o 1 perde di significato in relazione al singolo, mentre ciò che non perde significato è l'intervento di correzione dei fattori di rischio modificabili, in quanto la riduzione del rischio nella popolazione - quindi la riduzione del numero presumibile di eventi - passa per la correzione dei fattori di rischio in ciascuno dei soggetti che compongono la popolazione o possono essere assegnati alla popolazione."

Recentemente sono stati proposti alla comunità medica un certo numero di algoritmi per la valutazione dei rischi cardiovascolari (1-6). Il loro obiettivo è di assistere i medici nella definizione del livello di rischio del singolo paziente rispetto agli eventi cardiovascolari di maggiore gravità che possono verificarsi negli anni. Questi algoritmi sono stati ricavati dalle analisi statistiche effettuate su coorti di studio longitudinali in cui sono stati esaminati gli eventi verificatisi in una popolazione generale posta sotto osservazione per un periodo di tempo considerato sufficiente. Questi algoritmi considerano un certo numero di variabili e il loro risultato esprime la percentuale di rischio che si sviluppino eventi cardiovascolari di maggiore gravità, di tipo fatale e non, nei successivi dieci-vent'anni. Per esempio, se l'algoritmo dà un valore iniziale del 10% il suo significato è che considerando 100 soggetti della popolazione di riferimento in un dato momento con caratteristiche simili a quelle del soggetto sotto osservazione, 10 di loro svilupperebbero un evento cardiovascolare nei successivi 10 anni. Questi algoritmi presentano alcune trappole collegate ai limiti dell'approccio statistico classico nel trattare questo genere di informazioni non lineari e complesse. Lo scopo di questo editoriale è quello di esaminare il vantaggio potenziale fornito dai nuovi strumenti dell'intelligenza artificiale in questo ambito specifico.

La prima trappola: incapacità di cogliere la complessità della malattia

Gli algoritmi attualmente in uso impiegano un numero limitato di variabili per i loro modelli. Ciò è dovuto al fatto che l'approccio statistico tradizionale tende a selezionare soltanto le variabili che hanno un livello elevato di correlazione lineare con la variabile target. A dispetto del loro nome le tecniche statistiche multivariabili classiche utilizzano un approccio multifattoriale dove solo un fattore varia nel tempo mentre gli altri fattori rimangono costanti. L'utilizzo di queste tecniche rende difficile interpretare l'insieme di elementi predittivi potenziali riferibili ai singoli pazienti, e ciò è dovuto ai limiti imposti dalle connessioni di tipo non lineare e dalle interrelazioni complesse fra i fattori osservati. Le reti neurali artificiali (RNA) sono dei modelli adattivi di analisi dei dati ispirati al processo di funzionamento del cervello umano. Sono sistemi in grado di modificare la loro struttura interna in relazione ad una funzione oggettiva. Sono inoltre particolarmente adatti a risolvere problemi di tipo non linare, essendo in grado di ricostruire le regole fuzzy che rappresentano la soluzione ottimale per questi problemi. Le reti neurali artificiali (RNA) sono in grado di gestire contemporaneamente un ampio numero di variabili nonostante non presentino tra loro connessioni di tipo lineare. Questo rappresenta un grande vantaggio rispetto ai modelli statistici classici nelle situazioni in cui la quantità di informazioni disponibili è enormemente cresciuta e domina il problema della non linearità. Grazie alle reti neurali artificiali si è più interessati al numero reale delle variabili in gioco piuttosto che alla loro natura. Grazie a particolari paradigmi matematici, le RNA non hanno limiti nella gestione di un numero crescente di variabili che costituiscono la base per la formulazione di algoritmi ricorsivi. Le RNA possono introdurre contemporaneamente valori fattoriali multipli, effettuando diverse combinazioni secondo equazioni specifiche, generalmente di tipo non lineare. La differenza, in termini di valori di previsione e nel numero dei modelli di previsione, può essere spiegata dal fatto che la statistica convenzionale rivela solo parametri significativi per l'intera popolazione, mentre le reti neurali artificiali includono parametri il cui significato potrebbe non estendersi all'intera popolazione, ma che sono altamente significativi a livello individuale. In anni recenti sono stati pubblicati alcuni studi sull'utilizzo delle reti neurali artificiali (RNA) in ambito cardiovascolare (tabella1). In tutti questi studi le RNA hanno rivelato una migliore capacità di previsione rispetto alle tecniche statistiche tradizionali. In particolare ci sono due pubblicazioni che hanno focalizzato l'attenzione sulla previsione di eventi cardiovascolari in relazione ai tradizionali fattori di rischio nella popolazione.
Nello studio di Baldassarre è stata analizzata una banca dati che include 949 pazienti e 54 variabili, per valutare la capacità delle RNA di riconoscere i pazienti con una storia di eventi vascolari (EV+, n = 196) dai pazienti senza una storia di eventi vascolari (EV-, n = 753) sulla base dei fattori di rischio vascolare (FRV), delle variabili ultrasuono cariotidee (VU) o di entrambe. La rappresentazione fornita dalle Reti Neurali Artificiali è determinata dal calcolo preciso della percentuale di pazienti con EV+ e EV- (rispettivamente sensibilità e specificità) e dall'accuratezza della capacità di previsione (media ponderata fra sensibilità e specificità). I risultati hanno mostrato che le RNA possono essere sviluppate per identificare i soggetti con EV+ dai soggetti con EV- con maggiore precisione rispetto alle analisi discriminanti. Quando i FRV (fattori di rischio vascolare) e le VU (variabili ultrasuono cariotidee) sono state utilizzate come variabili di ingresso, le Reti Neurali Artificiali hanno fornito rispettivamente il miglior risultato a livello di capacità di previsione rispettivamente con percentuali di attendibilità dell'80.8% e del 79.2%. L'aggiunta di variabili quali il genere, l'età, il peso, l'altezza e l'indice della massa corporea ha accresciuto il livello di previsione fino all'83.0%. Quando è stato concesso alle RNA di scegliere automaticamente i dati rilevanti da introdurre (I.S. system-Semeion), furono selezionate 37 variabili fra 54, cinque delle quali erano VU. Utilizzando questo insieme di variabili come dati di ingresso, la performance delle RNA nel loro compito classificatorio raggiunse un livello di previsione dell'85% e del 92.0% rispetto alla classificazione dei pazienti con EV+ .
Nello studio di Voss gli autori esaminarono se le reti neurali migliorassero la valutazione del rischio della Regressione Logistica mediante l'analisi dei dati emersi dallo Studio di Munster sulle Prospettive Cardiovascolari (PROCAM), un vasto studio prospettico di tipo epidemiologico sui fattori di rischio delle malattie coronariche fra gli uomini e le donne nei posti di lavoro nel nord della Germania. Un recettore multi-dimensionale (multi-layer perceptron MLP) e le reti neurali probabilistiche (probabilistic neural networks PNN) furono utilizzate per valutare il rischio di infarto miocardico o di morte causata da un evento coronarico acuto (eventi coronarici) nei successivi 10 anni fra 5159 uomini di età compresa fra i 35 e i 65 anni al momento del reclutamenteo nel PROCAM. In totale si sono verificati in questo gruppo 325 eventi coronarici. La rappresentazione di ciascuna procedura è stata valutata mediante la misurazione dell'area sottostante la curva caratteristica dei ricettori operativi (area under the receiver-operating characteristics curve-AUROC). L'AUROC dell'MLP risultava più grande di quello del PNN (lo 0.897 contro lo 0.872), ed entrambi eccedevano l'AUROC per una RL (regressione logistica) dello 0.840. Questa analisi suggerisce che l'utilizzo dell' MLP per identificare i candidati ad elevato rischio individuale da sottoporre ai trattamenti farmacologici consentirebbe una prevenzione degli eventi coronarici del 25% in uomini di età media, rispetto ai valori del 15% e dell'11% ottenuti rispettivamente mediante i modelli della RL e del PNN.

La seconda trappola: incapacità di cogliere le dinamiche di processo

Un ulteriore svantaggio dell'approccio probabilistico è che la previsione tende a comportarsi come un processo statico. Se un determinato soggetto presenta un rischio assoluto del 62% questo significa che c'è il 62% delle probabilità che lui o lei soffriranno di un evento vascolare di maggiore entità nei successivi 10 anni e il 38% di probabilità che lui o lei non ne soffriranno. La lotteria delle probabilità ci rivelerà la verità nel futuro. In questo caso il soggetto è posizionato in modo statico in una delle due possibilità che esclude automaticamente il fatto che si possa verificare l'altra opzione: per cui si parla di evento o di assenza dell'evento, senza la possibilità di dedurre una specifica tendenza del rischio, nonostante il fatto che lo stesso tipo di valutazione rappresentata 10 anni prima stava dicendo che il rischio assoluto a quel tempo era del 34%. Infatti, anche se dopo dieci anni l'algoritmo esprime che ci sono più probabilità che questo soggetto sia sottoposto ad un evento, l'imposizione della logica binaria non permette di raffigurare matematicamente una progressione dinamica e formale del rischio. Il soggetto rimarrà ancora dubbioso e il suo destino rimarrà (apparentemente) ancora dipendente dal caso. L'utilizzo della logica fuzzy, correlata all'intelligenza artificiale, e di conseguenza l'utilizzo del concetto di "plausibilità" piuttosto che di probabilità può aiutare a superare questa trappola ingannevole.
Si suggerisce al lettore di riferirsi ad un precedente editoriale per analizzare la differenza tra probabilità e plausibilità o alla pubblicazione che ne è la fonte (7).
Il medico sarebbe paradossalmente più preciso nell'utilizzo della terminologia fuzzy: come si spiegherebbe ad un uomo, senza osservarlo, che si sta incamminando passo dopo passo da un punto sicuro verso l'orlo di un dirupo, il medico potrebbe spiegare al paziente che, data la sua attuale condizione clinica, egli ha raggiunto il 62% del suo percorso tra una condizione precedente di buona salute e un evento futuro inevitabile. Questo concetto in realtà introduce un processo dinamico. Infatti poichè nell'esempio la plausibilità che l'evento si verificasse nei 10 anni precedenti era del 34%, il paziente è stato informato del fatto che si sia registrata una progressione secondo un modello del tutto virtuale e che se niente interverrà a rallentare questa evoluzione nei successivi 10 anni sarà ragionevolmente vicino ad un punto in cui un evento indesiderato potrebbe essere inevitabile ( 90%). Il soggetto in questo caso non sentirebbe più di far parte di una crudele lotteria, ma acquisirebbe una sostanziale fiducia rispetto al fatto che il suo destino potrebbe essere segnato se qualcosa non fosse cambiato nei suoi fattori di rischio.
Come affermato nel precedente editoriale l'utilizzo di una logica fuzzy permetterebbe di eludere la trappola della teoria della probabilità al fine di affrontare un certo grado di incertezza, con il vantaggio di rendere più accessibile al paziente il significato di determinate prognosi.

La terza trappola: l'ampio intervallo di confidenza nella valutazione del rischo individuale

Un'ulteriore e inevitabile trappola della traslazione dei paramentri statistici a livello individuale è collegata al problema dell'ampio intervallo di confidenza delle classificazioni. Nell'ambito dell'approccio statistico il soggetto è incluso all'interno di un determinato sottogruppo di individui che mediamente presentano determinate probabilità che un evento si verifichi.
L'epidemiologia clinica e la statistica medica non sono particolarmente tagliate per rispondere a domande specifiche a livello individuale. Esse, dopo tutto, sono state sviluppate primariamente per focalizzarsi su gruppi di individui e non su individui. La statistica Fischeriana, nata intorno agli anni 30 del secolo scorso in campo agricolo e successivamente trasferita al campo medico, aveva l'ambizione di poter giudicare la rilevanza statistica di eventuali differenze nella resa di un raccolto in due diversi campi coltivati, senza necessariamente curarsi dello stato di salute di ogni singola pianticella.
E' abbastanza chiaro il concetto che l'individuo paziente-soggetto non è (e bisogna rendersene conto), il rappresentante medio della popolazione. Piuttosto egli o ella è una persona con caratteristiche genotipiche, fenotipiche e psicologiche uniche. Da qui il primo problema nel trasferire i risultati"medi" di un gruppo ottenuti in studi randomizzati a livello del singolo individuo.
Noi sappiamo che la deduzione statistica è estremamente debole in assenza di un "campione", che per definizione richiede un numero > 1. Per questo motivo i modelli predittivi possono drammaticamente fallire se applicati ai singoli individui.
Il grado di confidenza per un modello che ha mediamente un grado di attendibilità del 90% di prevedere un evento a livello di gruppo, può fallire in modo sostanziale quando applicato al singolo soggetto.
Supponiamo che sia stato sviluppato e validato un modello predittivo per la valutazione del rischio in un set di dati in studio e che esso permetta un livello di attendibilità complessivo dello 0.9 Supponiamo che l'intervallo di confidenza di questo grado di previsione sia lo 0.06 (0.84-0.96).
Noi ora valuteremo un gruppo di nuovi soggetti con i nostri strumenti. Possiamo ragionevolmente aspettarci di commettere degli errori nella classificazione dell'ordine del 4% - 16%. In alter parole da 4 a 16 nuovi pazienti su 100 sarebbero valutati erroneamente rispetto al loro valore di rischio assoluto.Se sono un nuovo paziente e sono stato classificato in un certo modo (elevato rischio di subire un infarto miocardico), potrei pensare di avere il 90% delle possibilità di essere correttamente classificato (l'84% nel peggiore dei casi e il 96% nel migliore).
Sfortunatamente il mio intervallo di confidenza in questa classificazione non sarebbe uguale all'intervallo del gruppo poichè in caso di errori nella classificazione soffrirei per tutte le situazioni o per nessuna (prognosi corretta verso una prognosi sbagliata). Questo significherebbe una differenza del 100%.
In altre parole, a livello individuale l'intervallo di confidenza sarebbe più ampio di un valore mediano a livello di gruppo. Qualche soluzione per questo problema? Poichè non è possible trasformare l'individuo singolo in un gruppo di individui su cui riportare alcune statistiche, si potrebbe fare l'opposto, cioè trattare un individuo singolo con un gruppo di dati statistici; in altre parole questo significa utilizzare sullo stesso soggetto diversi modelli di classificazione indipendenti l'uno dall'altro che fanno errori diversi al fine di ottenere una capacità predittiva media simile. Le reti neurali artificiali lo consentono.
Le reti neurali possono introdurre contemporaneamente valori fattoriali multipli, combinandoli e ricombinandoli diversamente secondo specifiche equazioni (generalmente non lineari). In aggiunta alla loro accresciuta potenza come tecniche modellanti rispetto ai metodi statistici classici nella valutazione del rischio cardiovascolare (8)(9)(10), con le reti neurali è possible costruire un elevato numero di modelli indipendenti che, grazie a lievi differenze nella loro architettura, topologia e regole di apprendimento, hanno capacità predittive diverse nella classificazione dei pazienti a seconda di determinati target. In generale simili reti neurali appartenenti a setting specifici non forniscono un'unica soluzione perchè la loro performance è determinata da molti fattori, come per esempio l'incidenza iniziale randomizzata delle interconnessioni fra i nodi, l'ordine di presentazione dei casi durante il ciclo di formazione, il numero dei cicli di formazione. Anche altre variabili appartenenti ad attributi matematici di una rete neurale specifica influenzeranno lo stato finale di una rete neurale addestrata dando un numero elevato di possibili combinazioni. In effetti sono stati proposti algoritmi evolutivi per trovare il disegno più localizzabile delle reti neurali al fine di ottenere una migliore previsione, dato l'elevato numero di possibili parametri e di combinazioni. (11). E' inoltre teoricamente possible istruire diverse reti neurali con lo stesso set di dati, pervenendo ad un insieme piuttosto ampio di reti neurali artificiali con una media simile di performance ma con predisposizioni diverse nel compiere errori a livello individuale. In questo modo è possible produrre un ampio set di reti neurali con capacità di istruzione variabili per processare in modo indipendente un set di nuovi pazienti al fine di prevedere le loro possibilità di sopravvivenza. Per ciascun paziente sarebbero generate fino ad un migliaio di domande. Perciò quando un nuovo paziente deve essere classificato, grazie a questo tipo di parlamento di giudici indipendenti in azione simultaneamente potrebbe essere ottenuta una distribuzione parametrica specifica di valori estratti con un esito statistico di tipo descrittivo (media, mediana, variazione, intervallo di confidenza, ecc.). E' interessante notare che la classificazione ricavata dalle reti neurali è generalmente espressa secondo lo schema della logica fuzzy, lungo una scala continua di "grado di appartenenza"alla classe di riferimento, compresa fra lo 0 (minimo grado di appartenenza) a 1 (massimo grado di appartenenza). In base a questi ragionamenti si potrebbe stabilire un grado di confidenza per una specifica classificazione adatto ad un singolo paziente, superando il dogma per il quale si esclude la possibilità di fare deduzioni statistiche quando il campione è composto da un solo soggetto.

Conclusioni

L'utilizzo di algoritmi predittivi per valutare il rischio assoluto individuale di eventi cardiovascolari futuri è attualmente ostacolato da limiti metodologici e matematici. L'utilizzo di nuovi approcci collegati all'intelligenza artificiale come la logica fuzzy e le reti neurali artificiali sembra meglio indirizzare sia la sfida alla crescente complessità dei fattori di predisposizione collegati ai dati sull'insorgenza di eventi cardiovascolari, sia la previsione di eventi futuri riguardanti il soggetto.


Tabella 1: Esempi di analisi riguardanti le Reti Neurali in ambito cardiovascolare

I.M : Infarto Miocardico; CV: cardiovasculare ; RNA Reti Neurali Artificiali; RLog: Regressione Logistica; ALD: Analisi lineare discriminante

Riferimenti Bibliografici

1. Wilson PWF, D'Agostino RB, Levy D, et al. Prediction of coronary heart disease using risk factor categories. Circulation 1998; 97: 1837-47.

2. Assmann G, Cullen P, Schulte H. Simple scoring scheme for calculating the risk of acute coronary events based on the 10-year follow-up of the prospective cardiovascular Munster (PROCAM) study. Circulation 2002; 105: 310-15.

3. Menotti A, Puddu PE, Lanti M. Comparison of the Framingham risk function-based coronary chart with risk function from an Italian population study. Eur Heart J 2000; 21: 365-70.

4. Menotti A, Puddu PE, Lanti M. The estimate of cardiovascular risk. Theory, tools and problems. Ann Ital Med Int 2002; 17: 81-94.

5. Conroy RM, Pyorala K, Fitzgerald AP, et al. Estimation of ten-year risk of fatal cardiovascular disease in Europe: the SCORE project. Eur Heart J 2003; 24: 987-1003.

6. Giampaoli S, Palmieri L, Chiodini P, Ferrario M, Panico S, Pilotto L, Vanuzzo D e il gruppo di ricerca del progetto CUORE. La carta del rischio cardiovascolare globale. Ital Heart J 2004; 5 (suppl 3): 177-85.

7. Grossi E. Medical concepts related to individual risk are better explained with "plausibility" rather than "probability". BMC Cardiovasc Disord. 2005 Sep 27;5:31.

8. Voss R, Cullen P, Schulte H, Assmann G. Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Munster Study (PROCAM) using neural networks. Int J Epidemiol. 2002 Dec;31(6):1253-62; discussion 1262-64.

9. Baldassarre D, Grossi E, Buscema M, Intraligi M, Amato M, Tremoli E, Pustina L, Castelnuovo S, Sanvito S, Gerosa L, Sirtori CR. Recognition of patients with cardiovascular disease by artificial neural networks.Ann Med. 2004;36(8):630-40.

10. Bigi R, Gregori D, Cortigiani L, Desideri A, Chiarotto FA, Toffolo GM.Artificial neural networks and robust Bayesian classifiers for risk stratification following uncomplicated myocardial infarction. Int J Cardiol. 2005 Jun 8;101(3):481-7.

11. Juang CF. A hybrid of genetic algorithm and particle swarm optimization for recurrent network design. IEEE Trans Syst Man Cybern B Cybern. 2004 Apr;34(2):997-1006.

Enzo Grossi
Bracco Spa Dipartimento Medico
Folli 50 - 20131 Milano, Italia
Telefono: +39-02-21772274

Indirizzo e-mail: enzo.grossi@bracco.com

Gli editoriali più recenti
   
Geragogia.net © - Dott. Giovanni Cristianini - 2001 - 2018