Förderkennzeichen: | 01KD25013 |
Fördersumme: | 43.511 EUR |
Förderzeitraum: | 2025 - 2026 |
Projektleitung: | Dr. Claudio Benzoni |
Adresse: |
Klinikum der Technischen Universität München (TUM Klinikum), Institut für Künstliche Intelligenz (KI) und Informatik in der Medizin, Lehrstuhl für Gesundheitsinformatik Neherstr. 1 81675 München |
Große Sprachmodelle (LLMs) werden klinisch evaluiert, sind aber Black Boxes. Ihr internes Verständnis medizinischer Konzepte ist unklar. Diese Opazität ist höchst riskant: LLMs können Verständnis vortäuschen, intern aber kritische klinische Unterscheidungen (z. B. zwischen Krebstypen mit spezifischen Therapien/Prognosen oder Elementen divergierender Behandlungspfade) gefährlich falsch abbilden. Das Projekt untersucht systematisch die internen Wissensrepräsentationen vortrainierter LLMs. Es nutzt existierende, ontologie-annotierte onkologische Radiologieberichte, um zu prüfen, ob LLMs medizinische Konzepte intern klinisch adäquat organisieren. Annotierte Texte werden durch Open-Source LLMs (Llama, Mistral, Qwen) prozessiert, um deren interne Embeddings (Vektorrepräsentationen) zu extrahieren. Diese Embeddings werden mit etablierten medizinischen Ontologien – RadLex (organisiert radiologische Terminologie hierarchisch) und NCI Thesaurus (NCIt, bietet detaillierte krebsspezifische Konzepte) – als Referenz verglichen. So wird die Genauigkeit der internen LLM-Konzeptorganisation bewertet. Zentrale Forschungsfragen sind: 1) Liefern laut RadLex synonyme/eng verwandte Krebstermini in verschiedenen LLMs konsistent ähnliche Embeddings? 2) Spiegelt der Embedding-Raum eines LLMs die korrekten hierarchischen Beziehungen onkologischer Konzepte (z. B. "Mammakarzinom" vs. "Karzinom") wider? Ziel ist die Entwicklung einer evidenzbasierten Anleitung zur LLM-Auswahl für die Klinik, basierend auf verlässlichem internen Verständnis statt nur oberflächlicher Textgenerierung, zur Erhöhung der Patientensicherheit.