Problema clinico-informatico
Le cartelle cliniche persistono spesso in forma mista: referti dattiloscritti, pdf scannerizzati, allegati firmati digitalmente e note liberamente redatte. Tale eterogeneità ostacola analisi di coorte, audit qualitativi e confronti longitudinali su indicatori definiti formalmente. L’obiettivo del progetto non è meramente «digitalizzare l’immagine», ma produrre una rappresentazione tabellare—tipicamente un foglio Excel condiviso nel perimetro autorizzato—in cui ogni riga corrisponde a un episodio documentale e le colonne corrispondono a variabili cliniche e amministrative estratte con regole esplicite.
Il vincolo di validità impone che ogni valore estratto sia ricondotto al passaggio sorgente (provenienza pagina, frammento di testo o coordinate di layout), in modo che revisioni umane e controlli automatici possano convivere.
Pipeline cognitiva e schema di destinazione
Il flusso elaborativo concatena riconoscimento ottico dei caratteri e/o estrazione di testo nativo, segmentazione semantica delle sezioni cliniche (esame obiettivo, terapia, esiti di laboratorio) e normalizzazione lessicale verso un dizionario controllato di unità e codifiche. I campi strutturati—pressione arteriosa mediana, emoglobina glicata, punteggi di scala—vengono quindi proiettati su colonne tipizzate del foglio di calcolo, mentre i campi liberi restano disponibili come note annotate.
Indichiamo con la trasformazione che mappa un documento grezzo in un vettore di attributi coerente con lo schema concordato; la componente rappresenta il valore estratto per la -esima metrica clinica o indicatore amministrativo.
Il simbolo denota esplicitamente l’assenza di informazione attestata nel documento, distinguendo il «non rilevato» dal «non applicabile».
Valutazione estrattiva: precisione, richiamo e F₁
Per ciascun slot estrattivo si definisce un gold standard revisionale; classificando veri positivi, falsi positivi e falsi negativi è possibile quantificare l’accordo tra sistema e revisori umani su campioni stratificati.
Quando le etichette sono sbilanciate (prevalenza bassa di alcuni eventi clinici), il fornisce una sintesi più informativa della sola accuratezza marginale; in alternativa si possono impiegare medie macro per slot e reportare intervalli di confidenza bootstrap sulle stime.
Esportazione Excel e tracciabilità
Il workbook finale aggrega più fogli (episodi, laboratorio, farmaci) collegati da chiavi pseudonimizzate; ogni cella numerica riporta, in metadati affiancati o in foglio di lookup, l’identificativo della porzione documentale che ha alimentato l’estrazione. Questa architettura consente riesecuzioni batch dopo aggiornamento dei modelli o del dizionario clinico, con diff minimi rispetto alla baseline precedente—proprietà particolarmente apprezzata nei comitati di qualità.
- Requisito centrale: riproducibilità delle metriche tra versioni successive della pipeline.
- Secondario: interoperabilità verso BI e registri già in uso, tramite colonne tipizzate e codifiche standard laddove disponibili.
Riflessioni conclusive
La transizione da archivi cartacei o pdf isolati a un foglio di lavoro strutturato non elimina la necessità di supervisione clinica, ma sposta il dibattito dal trascrivere manualmente al validare sistematicamente eccezioni e casi limite. In questo senso, la digitalizzazione documentale funge da infrastruttura empirica per successive analisi—descrittive e, con le dovute cautele inferenziali, anche comparative.

