banner

Blog

Dec 03, 2023

Sviluppare solidi parametri di riferimento per promuovere l’innovazione dell’IA nel settore sanitario

Nature Machine Intelligence volume 4, pagine 916–921 (2022) Citare questo articolo

5730 accessi

2 citazioni

21 Altmetrico

Dettagli sulle metriche

Le tecnologie di apprendimento automatico hanno visto una maggiore applicazione nel settore sanitario. I principali fattori trainanti sono i set di dati sanitari liberamente disponibili e l’interesse generale della comunità a utilizzare i propri poteri per la scoperta di conoscenze e i progressi tecnologici in questo campo più conservatore. Tuttavia, con questo volume aggiuntivo arrivano una serie di domande e preoccupazioni: i risultati ottenuti sono significativi e le conclusioni accurate; come sappiamo di aver migliorato lo stato dell'arte; il problema clinico è ben definito e il modello lo affronta? Riflettiamo sugli aspetti chiave della pipeline end-to-end che riteniamo soffrano maggiormente in questo ambito e suggeriamo alcune buone pratiche per evitare di riprodurre questi problemi.

Il nostro pubblico previsto è chiunque esegua esperimenti di benchmarking sull'apprendimento automatico (ML) nel settore sanitario e presenti questi risultati a conferenze o riviste; e chiunque recensisca per questi luoghi. Per benchmarking clinico ci riferiamo al seguire il processo combinato.

La scelta di un problema nello spazio sanitario.

Utilizzo o creazione di set di dati associati.

Sviluppo di una suite di modelli ML e della relativa infrastruttura corrispondente.

Valutare questi modelli in base a una serie di criteri per valutare quanto bene risolvono il problema originale.

Il problema di trovare un buon benchmark è molto più diffuso nel settore sanitario perché non c’è abbastanza allineamento su ciò che esso effettivamente costituisce1. In un tipico ciclo di ricerca, quando il machine learning viene applicato per la prima volta a una nuova area medica, porta a una pubblicazione che misura le prestazioni del modello e stabilisce lo standard per quel problema. Il set di dati, i dati concreti, le metriche o il codice non vengono sempre esaminati tanto quanto nel machine learning tradizionale, poiché c'è molto interesse nel vedere cosa può effettivamente fare la nuova tecnologia nella pratica. Vorremmo sostenere che i documenti di benchmarking dovrebbero essere esaminati ancora di più, poiché la variabilità nelle definizioni, nelle impostazioni e nella valutazione può portare a molte false rappresentazioni dei risultati, nonché a confusione per i nuovi arrivati ​​nel campo su come confrontare il loro lavoro.

Nelle quattro sezioni successive, tratteremo le aree in cui riteniamo che risiedano la maggior parte delle discrepanze tra due diverse pubblicazioni di benchmarking: set di dati, strumenti e pratiche, formulazione dei problemi e risultati. A nostro avviso, qualsiasi cambiamento di questo tipo potrebbe avere un impatto sull’applicazione clinica complessiva, poiché i progressi sarebbero molto più facili da quantificare. Ispirato dal rif. 2, classifichiamo i nostri suggerimenti in tre categorie: necessari, raccomandati e incoraggiati (Riquadro 1–4). Ciascuna sezione si basa sulla precedente e viene inserita in un determinato segmento tenendo conto di un mix di impatto e difficoltà di implementazione. Anche se alcuni potrebbero non essere completamente d’accordo con la categorizzazione, ci aspettiamo di avviare una conversazione su questi argomenti che vedrà cambiamenti nel campo.

Esiste un lavoro in questo ambito che mira a definire standard di reporting (ad esempio STARD-AI3, TRIPOD-AI4) o a specificare le migliori pratiche quando si tratta di sviluppo di modelli e reporting di tecniche5. Entrambe queste direzioni incoraggiano l'inclusione di dettagli aggiuntivi nei lavori finali per ridurre l'incertezza riguardo ai metodi utilizzati. Riteniamo che il nostro lavoro si basi su ed estenda questi lavori, esaminando la pipeline end-to-end e affrontando argomenti meno esplorati come strumenti e infrastrutture.

È difficile ottenere set di dati sanitari grandi, di alta qualità, diversificati e ben documentati poiché la condivisione dei dati non è la norma nel machine learning per la ricerca sanitaria6. In primo luogo, i set di dati sanitari contengono informazioni estremamente sensibili e sono quindi strettamente regolamentati, con recenti ricerche che mirano a comprendere l'atteggiamento dei pazienti nei confronti della condivisione dei dati sanitari7,8. Questo è il motivo per cui questi set di dati vengono generalmente deidentificati prima del rilascio pubblico, un processo che comporta la rimozione del nome del paziente, del numero di identificazione, della data e del luogo di raccolta dei dati. Anche così, è stato recentemente dimostrato che i dati anonimizzati della risonanza magnetica (MRI) o della tomografia computerizzata possono essere utilizzati per ricostruire il volto di un paziente9, il che solleva dubbi sulla capacità degli attuali standard di deidentificazione di essere sufficienti per un rilascio pubblico sicuro dei dati. In secondo luogo, la raccolta, la manutenzione e la cura di tali set di dati richiedono sforzi, tempo e costi sostanziali. Inoltre, i set di dati sono visti come un vantaggio commerciale competitivo, con casi in cui le aziende si formano attorno all’uso esclusivo di uno di essi. Pertanto, tendono ad avere un valore commerciale sostanziale, rendendo così meno attraente per i raccoglitori di dati condividere liberamente il proprio lavoro. Tuttavia, per ampliare l’impatto della pubblicazione di ricerche su set di dati non pubblici e incoraggiare la riproducibilità, i curatori dei dati potrebbero creare un’infrastruttura che consenta alla comunità di sviluppare modelli utilizzando tecniche ML che preservano la privacy come l’apprendimento federato10,11,12. In tale ambito, il titolare del trattamento definisce i propri processi di governance, le relative privacy policy e le strategie di gestione degli accessi, sia in fase di formazione che in fase di validazione. Ciò consente l’esplorazione di set di dati sanitari da parte di ricercatori esterni pur mantenendo la privacy dei dati, accelerando così il progresso. Riconosciamo tuttavia che vi è una ripida curva di apprendimento nell’impostarlo, ed è difficile fidarsi di tali sistemi dato che questi metodi sono relativamente nuovi. Potrebbe essere preferibile quindi, all’inizio, che i curatori dei dati lavorino con data scientist esterni controllati. Un altro campo promettente per preservare il valore aziendale è tracciare quando un membro di un set di dati viene utilizzato per addestrare un modello. Esempi di ciò includono il recente lavoro sul "watermarking" di un dato set di dati per facilitare l'identificazione di modelli addestrati su di esso13, o tecniche come l'inferenza dell'appartenenza14. Facciamo attenzione che questo campo non è ancora stato stabilito, quindi è necessario prestare attenzione se si segue questa strada.

CONDIVIDERE