Verbund

CHAIS - Crossmodale Mensch-KI-Kollaboration zur Assistenz für selektives Hören

Die Integration von Neurowissenschaften und Künstlicher Intelligenz (KI) bietet große Potentiale für Synergien und Innovationen. Die Prinzipien der Informationsverarbeitung des Gehirns und die biologischen Grundlagen kognitiver Prozesse, wie z. B. Lernen, Gedächtnis, Sprache oder Kreativität, können eine reichhaltige Inspirationsquelle für die Entwicklung innovativer und ressourceneffizienter KI-Systeme liefern. Gleichzeitig eröffnen die Methoden und Modelle der KI neue Möglichkeiten für die Erforschung der Funktionsprinzipien des Gehirns und das Verständnis kognitiver Fähigkeiten.

Das interdisziplinäre Verbundprojekt CHAIS verbindet Erkenntnisse aus den Neurowissenschaften mit moderner KI-Technologie (Sprach- und multimodale Signalverarbeitung, Mensch-KI-Kommunikation). Inspiriert von der Funktionsweise des Gehirns, insbesondere davon, wie Menschen in einer lauten Umgebung gezielt einem Gespräch folgen können (Cocktailparty-Phänomen), soll eine neue, intelligente KI-Lösung entwickelt werden, die verschiedene Sinne wie Hören und Sehen kombiniert, um Gespräche klarer herauszufiltern.

Das Projekt plant die Entwicklung eines Prototyps einer Smart-Glasses Anwendung. Ziel ist es, künftig neue, energieeffiziente und alltagstaugliche Systeme zu entwickeln, die sich z.  B. in Hörgeräte oder smarte Assistenten integrieren lassen, um so Menschen im Alltag bei selektiven Höraufgaben gezielt zu unterstützen.

Teilprojekte

Smart-Glasses-Anwendung

Förderkennzeichen: 01GQ2511A
Gesamte Fördersumme: 315.501 EUR
Förderzeitraum: 2025 - 2028
Projektleitung: Prof. Dr. Frank Steinicke
Adresse: Universität Hamburg, Fakultät für Mathematik, Informatik u. Naturwissenschaften, Fachbereich Informatik, Human-Computer Interaction
Vogt-Kölln-Str. 30
22527 Hamburg

Smart-Glasses-Anwendung

In jüngster Zeit haben künstliche Intelligenz (KI), insbesondere große Sprachmodelle (LLMs) sowie natürliche Sprachverarbeitung (NLP), enorme Fortschritte erzielt. Insbesondere die Kombination von sprachbasierten Technologien und Conversational Agents hat große Aufmerksamkeit erhalten und könnte allgegenwärtig eingesetzt werden, beispielsweise in intelligenten Hörgeräten oder in der Interaktion mit intelligenten virtuellen Assistenten. Trotz ihrer beeindruckenden Leistung (unter idealen Bedingungen) treten in vielen realen Situationen immer wieder Probleme auf. In lauten Umgebungen führen Faktoren wie beispielsweise die Anwesenheit mehrerer Sprecher, Hintergrundgeräusche oder Echos häufig zu Fehlern. Menschen hingegen können ihre Aufmerksamkeit sehr effizient auf bestimmte Sprachsignale lenken und die attendierte Stimme verstehen, selbst wenn mehrere Klänge miteinander konkurrieren. In einer interdisziplinären Zusammenarbeit zwischen KI (d. h. Sprach- und multimodale Signalverarbeitung sowie Mensch-KI-Kommunikation) und Neurowissenschaften (d. h. Neuroinformatik und Computational Neuroscience) wird das Projekt neuro-inspirierte und crossmodale KI-basierte Sprachsignalverarbeitungsalgorithmen entwickeln, um das Cocktailparty-Phänomen zu erforschen. Das Vorhaben der Universität Hamburg (UHH) fokussiert dabei auf der Umsetzung eines menschzentrierten Entwicklungsprozesses. Hierbei werden zunächst mittels Anforderungsanalysen die Bedürfnisse der Endnutzer mit qualitativen und quantitativen Methoden erfasst. Die UHH wird auf Basis eines crossmodalen neuronalen Netzwerks zur Sprachsignalverarbeitung ein multimodales Machine Learning (ML)-Modell mit bio-inspirierten, speicher- und recheneffizienten Netzwerkarchitekturen entwickeln und optimieren. Im Anschluss wird die UHH dieses iterativ in Prototypen der Smart-Glasses-Anwendung integrieren, die in einen Early-Demonstrator (Mitte des Projekts) und finalen Demonstrator (Ende des Projekts) bereitgestellt werden.

Neuronale Modelle

Förderkennzeichen: 01GQ2511B
Gesamte Fördersumme: 226.817 EUR
Förderzeitraum: 2025 - 2028
Projektleitung: Prof. Dr. Stefano Panzeri
Adresse: Universitätsklinikum Hamburg-Eppendorf, Zentrum für Molekulare Neurobiologie Hamburg (ZMNH)
Falkenried 94
20251 Hamburg

Neuronale Modelle

In jüngster Zeit haben künstliche Intelligenz (KI), insbesondere große Sprachmodelle (LLMs) sowie natürliche Sprachverarbeitung (NLP), enorme Fortschritte erzielt. Vor allem die Kombination von sprachbasierten Technologien und Conversational Agents hat große Aufmerksamkeit erhalten und könnte allgegenwärtig eingesetzt werden, beispielsweise in intelligenten Hörgeräten oder intelligenten virtuellen Assistenten. Trotz ihrer beeindruckenden Leistung (unter idealen Bedingungen) treten in vielen realen Situationen Probleme auf. In lauten Umgebungen führen Faktoren wie die Anwesenheit mehrerer Sprecher, Hintergrundgeräusche, Echos oder Nachhall häufig zu Fehlern. Menschen hingegen können ihre Aufmerksamkeit sehr effizient auf bestimmte Sprachsignale lenken und die attendierte Stimme verstehen, selbst wenn mehrere Klänge miteinander konkurrieren. Obwohl dieses sogenannte Cocktailparty-Phänomen seit mehr als einem halben Jahrhundert untersucht wird, werden die grundlegenden neuronalen Mechanismen erst seit kurzem verstanden. Darüber hinaus können die heutigen KI-basierten Sprachtechnologien keineswegs das gesamte Spektrum solcher Wahrnehmungseffekte reproduzieren. In einer interdisziplinären Zusammenarbeit zwischen Kerndisziplinen der KI (d. h. Sprach- und multimodale Signalverarbeitung sowie Mensch-KI-Kommunikation, Universität Hamburg) und Neurowissenschaften (d. h. Neuroinformatik und Computational Neuroscience, UKE) wir das Verbundprojekt neuro-inspirierte und crossmodale KI-basierte Sprachsignalverarbeitungsalgorithmen entwickeln, um das Cocktailparty-Phänomen zu erforschen. Um das einzigartige Synergiepotenzial dieser interdisziplinären Zusammenarbeit zu demonstrieren, wird das Projekt die Algorithmen in den Prototyp einer Smart-Glasses-Anwendung integrieren, um Menschen bei selektiven Höraufgaben zu unterstützen.