Neues KI-Modell kann die menschliche Wahrnehmung nutzen, um laute Audiosignale auszublenden

Estimated read time 3 min read

Forscher haben ein KI-Modell entwickelt, das die Audioqualität in realen Situationen erheblich verbessern kann, indem es die menschliche Sprachwahrnehmung nutzt



Im Bereich der künstlichen Intelligenz (KI) hat es in letzter Zeit eine rasante Entwicklung gegeben, und Forscher haben neue Wege gefunden, um den Alltag zu verbessern. Jetzt haben sie ein KI-Modell entwickelt, das die Audioqualität in realen Situationen erheblich verbessern kann, indem es die menschliche Sprachwahrnehmung nutzt.

Die von Forschern der Ohio State University durchgeführte Studie zeigte, dass die subjektiven Bewertungen der Klangqualität durch Menschen mit einem Sprachverbesserungsmodell kombiniert werden könnten, das eine bessere Sprachqualität liefern kann, gemessen an objektiven Metriken.

Das neue Modell schneide besser ab als andere Standardansätze, die auf die Minimierung von Störgeräuschen abzielen – unerwünschte Geräusche, die das, was der Hörer eigentlich hören möchte, stören könnten, heißt es in einer Pressemitteilung der Universität. Bemerkenswerterweise korrelierten die vorhergesagten Qualitätswerte, die das Modell generiert, stark mit den Urteilen, die Menschen fällen würden.

„Was diese Studie von anderen unterscheidet, ist, dass wir versuchen, die Wahrnehmung zu nutzen, um das Modell zu trainieren, unerwünschte Geräusche zu entfernen“, sagte Co-Autor Donald Williamson in der Erklärung. „Wenn Menschen etwas über die Qualität des Signals wahrnehmen können, kann unser Modell dies als zusätzliche Informationen nutzen, um zu lernen und Rauschen besser zu entfernen.“

Die Ergebnisse, veröffentlicht in der Zeitschrift IEEE XploreZiel war es, Sprache zu verbessern, die von einer einzelnen Audioquelle wie einem Mikrofon stammt. Die Forscher trainierten das Modell anhand von zwei Datensätzen aus früheren Untersuchungen, bei denen es sich um Aufzeichnungen von sprechenden Personen handelte.

Die hohe Leistung dieses Modells sei einer gemeinsamen Lernmethode zu verdanken, die ein spezielles Sprachmodul zur Sprachverbesserung zusammen mit einem Vorhersagemodell nutzte, das den durchschnittlichen Meinungswert vorhersagen konnte, den menschliche Zuhörer bei einem lauten Signal geben könnten, heißt es in der Erklärung weiter.

Allerdings kann die Nutzung der menschlichen Wahrnehmung auch mit einigen Problemen verbunden sein. Beispielsweise ist es schwierig, unerwünschte Geräusche zu bewerten, da sie subjektiv sein können. Es hängt von den Hörfähigkeiten und Erfahrungen einer Person ab. Darüber hinaus beeinflussen Faktoren wie der Besitz eines Hörgeräts oder eines Cochlea-Implantats, wie stark eine Person ihre Geräuschumgebung wahrnimmt, fügte Williamson in der Erklärung hinzu.

Um das Modell zu verbessern, planen die Forscher, weiterhin die subjektiven Bewertungen des Menschen zu nutzen, um es für den Umgang mit komplexeren Audiosystemen und den sich ändernden Erwartungen menschlicher Benutzer zu trainieren.

Forscher haben KI-Modelle für verschiedene Anwendungen entwickelt. Beispielsweise wurde im Dezember 2023 eine Studie in der Fachzeitschrift veröffentlicht Naturinformatik zeigte, dass KI-Modelle Daten zu Wohnort, Bildung, Einkommen, Gesundheit und Arbeitsbedingungen von Menschen analysieren und Lebensereignisse mit hoher Genauigkeit vorhersagen können.

Eine weitere Studie, die auf der NeurIPS-Konferenz im Dezember 2023 vorgestellt wurde, stellte ein tragbares, nicht-invasives KI-System vor, das stille Gedanken entschlüsseln und in Text umwandeln kann.



Image Source

You May Also Like

More From Author

+ There are no comments

Add yours