Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über die nächsten Termine unseres Kommunikationstechnischen Kolloquiums.
*Montag, 21. Oktober 2019** **Vortragender*: Till Hardenbicker *Ort*: Hörsaal 4G IKS *Zeit:* 11:00 Uhr
*Master-Vortrag*: Source Localization Using Binaural and Monaural Cues
Acoustic source localization exploiting binaural cues is used in applications such as binaural conferencing and heairng aids. Binaural cues are features that can easily be extracted from binaural signals but only provide an ambiguous location estimation, since they do not, for example, enable a front-back distinction. In the human auditory system, this distinction is made based on so-called monaural cues, which are signal features that arise from filtering effects of outer ear, head and torso.
This thesis deals with the full-sphere localization of speech sources based on binaural and monaural cues contained in binaural signals. It is demonstrated that unlike binaural cues, monaural cues provide information about the elevation angle. Attention is particularly paid to the extraction of monaural cues. As the original source signal is not known, this extraction is not trivial. Several algorithms are proposed to estimate the source position by identifying Head-Related Transfer Functions without knowledge of the source signal. The approaches can be divided into least-square and codebook-based concepts and artificial neural network-based concepts. Binaural and monaural cues are combained such that the monaural estimators only resolve the ambiguities left by the binaural estimators.
Different estimator topologies are individually optimized and then analyzed with regard to their performance and potential for standalone applications. The results indicate that all proposed estimators enable a front-back distinction. While one estimator performs best in exchange for a high computation time, two of them compromise well between computation time and localization accuracy.
* **Montag, 21. Oktober 2019* *Vortragender:* Alexander Sobolew *Ort:* Hörsaal 4G IKS *Zeit:* 14:00 Uhr
*Bachelor-Vortrag*: Untersuchung geeigneter Features zur Rekonstruktion verlorener Sprachsignalanteile
In der Praxis sind Audio- sowie Sprachsignale häufig Störungen ausgesetzt. Dabei wird das Nutzsignal in frequenz- und zeit-begrenzten Anteilen verzerrt. Bereits existierende Ansätze aus der Störgeräuschreduktion oder der Echo-Kompensation gehen dieses Problem an. Jedoch entstehen dabei hörbare Artefakte. Um diese Artefakte zu vermeiden, soll das Nutzsignal mithilfe von Ansätzen aus dem Machine-Learning rekonstruiert werden. Dieser Vorgang wird /Speech Inpainting/ genannt. Ziel ist nun die Reduzierung der Komplexität des Trainings der Machine-Learning-Modelle mithilfe einer Dimensionsreduktion der verwendeten Signaldaten.
Zunächst werden die Ergebnisse einer umfassenden Recherche bezüglich geeigneter Merkmalsgruppen aus der /Merkmalsextraktion/ präsentiert und die Beschaffenheit der Merkmalstypen näher erläutert. Als Qualitätsmaß der Merkmalsauswahl wird die Transinformation verwendet. Dazu wird ein geeigneter Schätzer vorgestellt und die Wahl des unbestimmten Parameters /k/ untersucht, der die Anzahl an Nachbarn im /k-Nearest-Neighbor-Algorithmus/ innerhalb des Schätzers angibt. Des Weiteren werden für die Auswahl der Merkmale nötigen, bereits existierenden Algorithmen implementiert und weitere Algorithmen entwickelt. Deren Ziel ist die Reduzierung der Laufzeit und der Komplexität. Es erfolgt eine abschließende Evaluation der Algorithmen. Unter Berücksichtigung dieser Evaluation werden die abschließenden Ergebnisse der /Merkmalsauswahl /diskutiert und bewertet.
*Montag, 21. Oktober 2019* *Vortragender*: Alexej Sobolew *Ort*: Hörsaal 4G IKS *Zeit*: 14:45 Uhr
*Bachelor-Vortrag*: Untersuchung der statistischen Abhängigkeiten aufeinanderfolgender Sprachsegmente
In der Praxis sind Audio- und Sprachsignale Störungen ausgesetzt. Dadurch entstehen zeit- und frequenzbegrenzte Verzerrungen, die z. B. mithilfe der Störgeräuschreduktion oder der Echo-Kompensation abgeschwächt werden können. Bei diesen Vorgängen entstehen allerdings hörbare Artefakte. Die Linder dieser Artefakte kann durch die Rekonstruktion der geschädigten Stellen erfolgen. Dieser Rekonstruktionsprozess wird als Speech Inpainting bezeichnet. Zur Rekonstruktion existieren Ansätze mithilfe von Machine-Learning-Algorithmen. Dazu müssen die Eingangsdaten auf ihre Relevanz hin untersucht und die signifikanten Anteile extrahiert werden.
Um dieses Ziel zu erreichen, werden die Daten zunächst auf die Eigenschaften der Normalverteilung untersucht. Als Qualitätsmaß für die statistischen Abhängigkeiten werden die Korrelation und die Transinformation gewählt. Die Normalverteilung erweist sich hierbei für die Untersuchung mithilfe der Korrelation als sinnvoll. Des Weiteren werden die zeitlichen Abhängigkeiten analysiert und die Daten auf ihre Frequenzabhängigkeit erforscht. Darauffolgend wird die Auswirkung der Zunahme zusätzlicher Elemente ermittelt. Hierbei muss zunächst auf die Vergleichbarkeit der Ergebnisse unterschiedlich-dimensionaler Eingangsdaten geachtet werden. Dazu kann eine passend gewählte Normierung verwendet werden. Im anschließenden Schritt werden die Daten in unterschiedliche Cluster aufgeteilt, um weitere Zusammenhänge zu erkennen.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich. Allgemeine Informationen zum Kolloquium sowie eine aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums finden Sie unter http://www.iks.rwth-aachen.de/aktuelles/kolloquium/