Luxdada Logo

Digitalizzazione di cartelle cliniche ed estrazione strutturata verso Excel

Da documenti clinici eterogenei a un foglio di lavoro tabellare con metriche e variabili estratte in modo ripetibile, validabile e confrontabile nel tempo.

Cliente: Fondazione Alfieri

Logo Fondazione Alfieri

Problema clinico-informatico

Le cartelle cliniche persistono spesso in forma mista: referti dattiloscritti, pdf scannerizzati, allegati firmati digitalmente e note liberamente redatte. Tale eterogeneità ostacola analisi di coorte, audit qualitativi e confronti longitudinali su indicatori definiti formalmente. L’obiettivo del progetto non è meramente «digitalizzare l’immagine», ma produrre una rappresentazione tabellare—tipicamente un foglio Excel condiviso nel perimetro autorizzato—in cui ogni riga corrisponde a un episodio documentale e le colonne corrispondono a variabili cliniche e amministrative estratte con regole esplicite.

Il vincolo di validità impone che ogni valore estratto sia ricondotto al passaggio sorgente (provenienza pagina, frammento di testo o coordinate di layout), in modo che revisioni umane e controlli automatici possano convivere.

Pipeline cognitiva e schema di destinazione

Il flusso elaborativo concatena riconoscimento ottico dei caratteri e/o estrazione di testo nativo, segmentazione semantica delle sezioni cliniche (esame obiettivo, terapia, esiti di laboratorio) e normalizzazione lessicale verso un dizionario controllato di unità e codifiche. I campi strutturati—pressione arteriosa mediana, emoglobina glicata, punteggi di scala—vengono quindi proiettati su colonne tipizzate del foglio di calcolo, mentre i campi liberi restano disponibili come note annotate.

Indichiamo con ϕ\phi la trasformazione che mappa un documento grezzo xx in un vettore di attributi zRd\mathbf{z} \in \mathbb{R}^d coerente con lo schema concordato; la componente zjz_j rappresenta il valore estratto per la jj-esima metrica clinica o indicatore amministrativo.

z=ϕ(x),zjVj{}\mathbf{z} = \phi(x), \qquad z_j \in \mathcal{V}_j \cup \{\bot\}

Il simbolo \bot denota esplicitamente l’assenza di informazione attestata nel documento, distinguendo il «non rilevato» dal «non applicabile».

Valutazione estrattiva: precisione, richiamo e F₁

Per ciascun slot estrattivo si definisce un gold standard revisionale; classificando veri positivi, falsi positivi e falsi negativi è possibile quantificare l’accordo tra sistema e revisori umani su campioni stratificati.

P=TPTP+FP,R=TPTP+FN,F1=2PRP+RP = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}, \quad R = \frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}, \quad F_1 = \frac{2PR}{P+R}

Quando le etichette sono sbilanciate (prevalenza bassa di alcuni eventi clinici), il F1F_1 fornisce una sintesi più informativa della sola accuratezza marginale; in alternativa si possono impiegare medie macro per slot e reportare intervalli di confidenza bootstrap sulle stime.

Esportazione Excel e tracciabilità

Il workbook finale aggrega più fogli (episodi, laboratorio, farmaci) collegati da chiavi pseudonimizzate; ogni cella numerica riporta, in metadati affiancati o in foglio di lookup, l’identificativo della porzione documentale che ha alimentato l’estrazione. Questa architettura consente riesecuzioni batch dopo aggiornamento dei modelli o del dizionario clinico, con diff minimi rispetto alla baseline precedente—proprietà particolarmente apprezzata nei comitati di qualità.

  • Requisito centrale: riproducibilità delle metriche tra versioni successive della pipeline.
  • Secondario: interoperabilità verso BI e registri già in uso, tramite colonne tipizzate e codifiche standard laddove disponibili.

Riflessioni conclusive

La transizione da archivi cartacei o pdf isolati a un foglio di lavoro strutturato non elimina la necessità di supervisione clinica, ma sposta il dibattito dal trascrivere manualmente al validare sistematicamente eccezioni e casi limite. In questo senso, la digitalizzazione documentale funge da infrastruttura empirica per successive analisi—descrittive e, con le dovute cautele inferenziali, anche comparative.

WhatsApp