13. September 2022 – Der Start des Innovationsprojekts „UNISONO: Sensorsystem für KI-gesteuerte klinische Phänotypisierung mit Sprach-Biomarkern für Herzinsuffizienz“ wurde heute von der Zana Technologies GmbH, einem in Deutschland ansässigen Anbieter von Konversations- und Sprach-KI-Technologie für das Gesundheitswesen, zusammen mit der Cosinuss GmbH, einem zertifizierten Medizintechnikunternehmen, das auf die mobile Echtzeitmessung von Vitalparametern spezialisiert ist, und dem Deutschen Zentrum für Herzinsuffizienz (DZHI) am Universitätsklinikum Würzburg bekannt gegeben.

Ziel von UNISONO ist die Entwicklung eines neuartigen Systems, das einen im Ohr getragenen Sensor mit Spracherkennung kombiniert. Neben der kontinuierlichen Messung von Vitalparametern soll der Sensor mit einem Sprachassistenten ausgestattet werden, der eine sprachgeführte Kommunikation ermöglicht. Aus den gesammelten Daten sollen neuartige stimmliche Biomarker für die KI-gesteuerte klinische Phänotypisierung von Patient:innen mit chronischer Herzinsuffizienz abgeleitet werden, einer Erkrankung, von der allein in Deutschland mehr als 3 Millionen Menschen betroffen sind.

In einem sehr umkämpften Auswahlverfahren schaffte es UNISONO unter die besten 8% der vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms KMU-innovativ geförderten Projekte im Bereich „Interaktive Technologien für Gesundheit und Lebensqualität“. Das dreijährige Projekt startete am 1. August 2022 und es fand ein erstes gemeinsames Treffen aller Partner und des Projektträgers VDI/VDE Innovation + Technologie GmbH statt.

Die Neuheit von UNISONO

Die Innovation von UNISONO besteht darin, die bestehende KI-Plattform von Zana mit der neuartigen Stimmbiomarker-Technologie durch das klinische Fachwissen des DZHI zu nutzen und gleichzeitig den cosinuss° Im-Ohr Sensor für die Sprachinteraktion zu erweitern. Die dekompensierte Herzinsuffizienz als ein komplexes Krankheitsbild ist durch Symptome wie Atemnot, Ödeme, verminderte Belastbarkeit gekennzeichnet. Das Einhergehen einer Stimmveränderung im Rahmen der Dekompensation wird in wenigen Studien beschrieben. Akustische Messungen von veränderten Stimmmerkmalen könnten jedoch als Frühindikatoren für eine beginnende Dekompensation oder Veränderungen des Gesundheitszustands des/der Patient:in dienen.

„Mit UNISONO untersuchen wir, wie sich Sprach- und Vitaldaten so weit kombinieren lassen und wie die Datenqualität durch einen intelligenten Assistenten verbessert werden kann, um sie als Gesundheitsprädiktor bei Herzinsuffizienz zu nutzen“, sagt Dr. Julia Hoxha, Geschäftsführerin von Zana und koordinierende Partnerin. Sie fügt hinzu: „Auf diese Weise bringt UNISONO die KI-gestützte Erfassung von Daten aus der realen Welt in den Kernbereich der Gesundheitsversorgung und der klinischen Forschung.“

Um gleichzeitig Sprachinteraktion zu ermöglichen und Vitaldaten (wie Körpertemperatur, Herzfrequenz, Sauerstoffsättigung und Atemfrequenz) zu messen, wird die Hardware des patentierten Ohrsensors von cosinuss° um Mikrofon und Lautsprecher erweitert. „Diese Technologie ermöglicht es uns, die Vitalparameter und die Stimme des/der Patient:in über mehrere Wochen kontinuierlich und ohne aufwändige Verkabelung in Echtzeit zu überwachen und damit eine große Datenbank für die Entwicklung eines Stimm-Biomarkers für die klinische Phänotypisierung aufzubauen“, so Dr. Johannes Kreuzer, Geschäftsführer von Cosinuss°.

In Zusammenarbeit mit dem klinischen Partner DZHI werden aus den gesammelten Daten digitale klinische Phänotypen identifiziert und mit etablierten Faktoren verknüpft, die mit einer schlechteren Prognose bei Herzinsuffizienz verbunden sind. „Stimmbiomarker haben ein enormes Potenzial für die Verbesserung der Patient:innenversorgung bei Herzinsuffizienz, da sie nicht-invasiv, kostengünstig und einfach zu erheben sind und aus der Ferne beurteilt werden können“, erklärt Dr. Fabian Kerwagen, MPH, Leiter des Projekts UNISONO am DZHI. „Die Kombination der Patient:innenstimme mit der am Ohr getragenen Technologie wird eine umfassende digitale Phänotypisierung von Herzinsuffizienz-Patient:innen ermöglichen und neue Möglichkeiten für das Telemonitoring und die Prävention bei Herzinsuffizienz bieten.“

Aktualisierung (April 2024): Erste Zwischenergebnisse

Am 19. März 2024 fand das vierte Konsortiumstreffen aller Projektpartner in den Münchner Büroräumlichkeiten von cosinuss° statt (siehe Abb. 1). Hier wurde zum einen der um eine Audiofunktion erweiterte Prototyp des Im-Ohr Sensors c-med° alpha präsentiert. Zum anderen wurden erste Zwischenergebnisse der AHF-Voice-Studie, die Teil des UNISONO-Projekts ist, vorgestellt und diskutiert. Die monozentrische, prospektive Kohortenstudie wird am Universitätsklinikum Würzburg durchgeführt. Bis zum Zeitpunkt des Konsortiumtreffens wurden bereits 100 von den angestrebten 123 Patient:innen rekrutiert. Mittlerweile liegen Ergebnisse der ersten 50 AHF-Voice-Patient:innen vor, die zwischen April und August 2023 im Klinikum aufgenommen wurden. Unter Aufsicht des Studienpersonals nahmen die Patient:innen1 täglich ihre Stimme in einer speziellen, von Zana Technologies GmbH entwickelten Smartphone-App auf. Es wurden dabei drei verschiedene Stimmaufgaben absolviert: Spontanes Sprechen, das möglichst lange Halten des Vokals /a:/ und das Lesen eines standardisierten Textes. Daneben wurden von jedem/jeder Patient:in die Krankengeschichte, routinemäßige Blutwerte, Ergebnisse aus technischen Untersuchungen wie dem Herzultraschall, sowie Gesundheits-Fragebögen erhoben.

Abb. 1: Konsortiumstreffen der UNISONO-Projektpartner: Dr.-Ing. Julia Hoxha und Ongun Tuna von Zana Technologies GmbH, Dr. Fabian Kerwagen und Maximilian Bauser vom Uniklinikum Würzburg sowie Dr. Michael Weber und David Geiger von der Cosinuss GmbH.

Analyse von Stimmveränderungen

In den ersten Analysen wurden die aufgezeichneten anhaltenden Vokallaute (/a:/) der Patient:innen verwendet. Ziel war es herauszufinden, ob anhand von Veränderungen der aufgezeichneten Stimmmerkmale eine nicht-invasive Methode zur Erkennung einer drohenden Herzinsuffizienz-Episode möglich ist. Die erste Zwischenanalyse basiert auf 45 Sprachaufnahme-Paaren (jeweils eine bei Krankenhausaufnahme und eine bei der Entlassung, n=90). Die aufgezeichneten Sprachmerkmale wurden mithilfe der Software Praat2 extrahiert. Die Ergebnisse zeigen, dass sich folgende Aspekte der Stimme signifikant zwischen Aufnahme und Entlassung der Patient:innen veränderten: Shimmer (Überlagerung der Grundfrequenz eines Sprachsignals mit einem Rauschen), Jitter (Unregelmäßigkeit in der Grundfrequenz bzw. der Periode eines Sprachsignals), Maximale Phonationszeit, Gesamtenergie, Anzahl der Glottisschläge, cepstrale Spitzen (cepstral Peak Prominence) und Anzahl der Stimmabbrüche. Keine signifikanten Veränderungen konnten von folgenden Stimmmerkmalen nachgewiesen werden: Mittelwerte der Tonhöhe und das Verhältnis von Harmonizität zum Geräuschanteil (siehe Abb. 2).

Abb. 2: Veränderungen der Stimmparameter (Boxplots) von der Aufnahme bis zur Entlassung. Die statistische Signifikanz wurde mit dem Student’s t-test geprüft. MPT = maximale Phonationszeit. CPP = cepstrale Peak-Prominence. / Changes of voice parameters (boxplots) from admission to discharge. Statistical significance was tested using student’s t-test. MPT = maximum phonation time. CPP = cepstral peak prominences. Quelle: herzmedizin.de 

Diese Zwischenanalyse zeigt, dass sich eine Reihe leicht ableitbarer Stimmmerkmale je nach Zustand der dekompensierten Herzinsuffizienz verändert. Der klinische Nutzen von solch stimmlichen Biomarkern als nicht-invasive Methode für die Erkennung einer beginnenden Herzinsuffizienz ist vielversprechend, bedarf allerdings weiterer Forschung.

Stimmbasierte Phänotypisierung der Patient:innen

Während des Krankenhausaufenthalts fand eine umfassende Phänotypisierung der Patient:innen statt. Dabei wurden insgesamt 2.753 Stimmaufnahmen von 42 Patient:innen für die Analyse berücksichtigt (Durchschnittsalter 74±11 Jahre, 64 % Männer)3. Die Verarbeitung und das Clustern der Audiodaten und der darin enthaltenen Stimmmerkmale wurde mithilfe von Machine Learning Methoden4 durchgeführt. Auf diese Weise konnten bei der unüberwachten Clusterbildung allein auf der Grundlage von Stimmmerkmalen drei Cluster mit unterschiedlichen Phänotypen identifiziert werden (siehe Abb. 3): Cluster 1 hatte die längste Dauer der Herzinsuffizienz, die höchsten Werte an natriuretischen Peptiden (Hormone, die an der Regulation des Wasser-Elektrolyt-Haushaltes beteiligt sind) und die niedrigste linksventrikuläre Ejektionsfraktion (LVEF, gibt Aufschluss darüber wie viel Blut die linke Herzkammer bei einem Herzschlag verlässt). Cluster 2 hatte eine mittlere LVEF und den höchsten Kaliumspiegel. Cluster 3 hatte die höchste LVEF und den höchsten Anteil an Frauen.

Abb. 3: Cluster, die sich aus der Hauptkomponentenanalyse (PCA, K-Mittel-Ansatz) für stimmliche Merkmale ergeben, die aus den Audioaufnahmen der Patient:innen extrahiert wurden. / Clusters resulting from Principal Component Analysis (PCA, K-means approach) on voice-based features extracted from patients’ audio recordings. Quelle: herzmedizin.de 

Die Zwischenergebnisse der Phänotypisierung deuten darauf hin, dass Clusteranalysen von Stimmmerkmalen, die auf maschinellem Lernen basieren, in der Lage sind verschiedene Gruppen von Herzinsuffizienz-Patient:innen zu identifizieren.

Ausblick 2024/2025

Im weiteren Projektverlauf von UNISONO wird Ende dieses Jahres die “In-Ear-Sensor-Substudie” (Machbarkeitsstudie) starten. Hierfür wurde, wie eingangs erwähnt, der Im-Ohr Sensor von cosinuss°, der c-med° alpha (siehe Abb. 4), den Projektanforderungen entsprechend modifiziert. Die wichtigste Änderung stellt die Ergänzung einer Audiofunktionalität dar. Neben des Einbaus eines Mikrofons und Lautsprechers wurden außerdem verschiedene andere Anpassungen und Optimierungen vorgenommen. Ein funktionierender Prototyp des Im-Ohr Sensors wurde bereits fertiggestellt und getestet. Der modifizierte c-med° alpha inkl. Audiofunktionalität erfüllt alle Anforderungen hinsichtlich der Messgenauigkeit der Vitalparameter5 und wird derzeit auf seine Audioqualität getestet.

Abb. 4: c-med° alpha, ein medizinisches Messgerät der Klasse IIa, das kontinuierlich Datenströme von drei wichtigen Vitalparametern erzeugt: Körperkerntemperatur, Pulsfrequenz, Sauerstoffsättigung (SpO2).

Darüber hinaus wurden die hier beschriebenen Analysen auf der 90. DGK-Jahrestagung vorgestellt. Weitere Zwischenergebnisse der AHF-Voice-Studie werden außerdem in den kommenden Monaten auf verschiedenen Kongressen vorgestellt, u.a. auf dem Heart Failure – World Congress on Acute Heart Failure im Mai 2024 (Lissabon, Portugal)

Wir freuen uns bald über weitere Aktualisierungen und Ergebnisse berichten zu können!

Author

  • Gerrit Schweiger

    B.A. Kommunikationsdesigner und UX/UI Designer mit Schwerpunkt auf Digitalisierung im Gesundheitswesen. // B.A. Communication Designer and UX/UI Designer with a focus on digitalization in healthcare.

Quellen / References

  1. Einschlusskriterien: Krankenhausaufenthalt wegen akuter Herzinsuffizienz, Alter ≥18 Jahre, Lebenserwartung ≥6 Monate. Ausschlusskriterien: Herzinsuffizienz mit hohem Output, kardiogener Schock, eine Listung für eine Herztransplantation mit hoher Dringlichkeit oder eine Vorgeschichte von Stimmbanderkrankungen oder -OPs.
  2. Version 6.3.13, 31.07.2023, The Netherlands
  3. Von 50 Patient:innen zogen vier ihre Zustimmung zurück, weitere vier Patient:innen wurden aufgrund der schlechten Aufnahmequalität ausgeschlossen.
  4. Für die Audioverarbeitung und die Extraktion von bestimmten Stimmmerkmalen wurde eine Pipeline für vocal Biomarker eingerichtet. Die Daten wurden mittels der Hauptkomponentenanalyse (PCA) mit einem unüberwachten K-Means-Clustering-Ansatz analysiert. Die Anzahl der Cluster wurde mit Hilfe des Silhouetten-Scores bestimmt.
  5. Der SpO2-Algorithmus wurde auf den Daten der Validierungsstudie für Medizinprodukte validiert und erfüllt die Norm.