Einzelprojekt

DQ-LIR - Verbesserte Datentiefe und -qualität durch Large-Language-Model-basierte Imputation von klinischen Routinedaten in entitätsspezifischen klinischen Registern

Förderkennzeichen: 01KD2433
Fördersumme: 49.068 EUR
Förderzeitraum: 2224 - 2025
Projektleitung: PD Dr. Thomas Weber
Adresse: Martin-Luther-Universität Halle-Wittenberg, Medizinische Fakultät und Universitätsklinikum, Klinik und Poliklinik für Innere Medizin IV
Ernst-Grube-Str. 40
06120 Halle (Saale)

Das übergeordnete Ziel des Projektes ist die Etablierung eines auf großen Sprachmodellen basierenden Ansatzes zur automatisierten Extraktion und Eingabe von Daten der klinischen Routineversorgung in wissenschaftliche Datenbanken, insbesondere in entitätsbezogene Register und Biomaterialbanken. Dadurch sollen der personelle Aufwand reduziert, die Datendichte, -qualität und -validität in den Registern signifikant erhöht und die Schwelle zur Teilnahme reduziert werden. Dies ist unter anderem von großer Relevanz für die klinische Forschung bei seltenen und heterogenen Tumorerkrankungen mit eingeschränkter Durchführbarkeit von prospektiven klinischen Studien. Die lokale Verortung des Modells ermöglicht eine datenschutzkonforme Nutzung im klinischen Kontext. Im Rahmen des Projekts sollen aus bereits pseudonymisierten Histologie- und Radiologiebefunden definierte Variablen extrahiert und in das Datenformat einer klinischen Registerdatenbank überführt werden. Der Prozess erfolgt durch den Einsatz eines großen Sprachmodells, das in einer geschlossenen Umgebung geladen und darauf programmiert wird, spezifische Merkmale zu identifizieren und strukturiert in die Datenbank zu integrieren. Die Ergebnisse des Modells werden durch Vergleich mit bereits medizinisch validierten, manuell erfassten Daten überprüft und durch iterative Optimierung weiter verbessert.