Kommunikationstechnisches Kolloquium am IKS

15 Oct 2019

      Sehr geehrte Abonnenten des Kolloquium-Newsletters,

gerne informieren wir Sie über die nächsten Termine unseres 
Kommunikationstechnischen Kolloquiums.

*Montag, 21. Oktober 2019**
**Vortragender*: Till Hardenbicker
*Ort*: Hörsaal 4G IKS
*Zeit:* 11:00 Uhr

*Master-Vortrag*: Source Localization Using Binaural and Monaural Cues

Acoustic source localization exploiting binaural cues is used in 
applications such as binaural conferencing and heairng aids. Binaural 
cues are features that can easily be extracted from binaural signals but 
only provide an ambiguous location estimation, since they do not, for 
example, enable a front-back distinction. In the human auditory system, 
this distinction is made based on so-called monaural cues, which are 
signal features that arise from filtering effects of outer ear, head and 
torso.

This thesis deals with the full-sphere localization of speech sources 
based on binaural and monaural cues contained in binaural signals. It is 
demonstrated that unlike binaural cues, monaural cues provide 
information about the elevation angle. Attention is particularly paid to 
the extraction of monaural cues. As the original source signal is not 
known, this extraction is not trivial. Several algorithms are proposed 
to estimate the source position by identifying Head-Related Transfer 
Functions without knowledge of the source signal. The approaches can be 
divided into least-square and codebook-based concepts and artificial 
neural network-based concepts. Binaural and monaural cues are combained 
such that the monaural estimators only resolve the ambiguities left by 
the binaural estimators.

Different estimator topologies are individually optimized and then 
analyzed with regard to their performance and potential for standalone 
applications. The results indicate that all proposed estimators enable a 
front-back distinction. While one estimator performs best in exchange 
for a high computation time, two of them compromise well between 
computation time and localization accuracy.

*
**Montag, 21. Oktober 2019*
*Vortragender:* Alexander Sobolew
*Ort:* Hörsaal 4G IKS
*Zeit:* 14:00 Uhr

*Bachelor-Vortrag*: Untersuchung geeigneter Features zur Rekonstruktion 
verlorener Sprachsignalanteile

In der Praxis sind Audio- sowie Sprachsignale häufig Störungen 
ausgesetzt. Dabei wird das Nutzsignal in frequenz- und zeit-begrenzten 
Anteilen verzerrt. Bereits existierende Ansätze aus der 
Störgeräuschreduktion oder der Echo-Kompensation gehen dieses Problem 
an. Jedoch entstehen dabei hörbare Artefakte. Um diese Artefakte zu 
vermeiden, soll das Nutzsignal mithilfe von Ansätzen aus dem 
Machine-Learning rekonstruiert werden. Dieser Vorgang wird /Speech 
Inpainting/ genannt. Ziel ist nun die Reduzierung der Komplexität des 
Trainings der Machine-Learning-Modelle mithilfe einer 
Dimensionsreduktion der verwendeten Signaldaten.

Zunächst werden die Ergebnisse einer umfassenden Recherche bezüglich 
geeigneter Merkmalsgruppen aus der /Merkmalsextraktion/ präsentiert und 
die Beschaffenheit der Merkmalstypen näher erläutert. Als Qualitätsmaß 
der Merkmalsauswahl wird die Transinformation verwendet. Dazu wird ein 
geeigneter Schätzer vorgestellt und die Wahl des unbestimmten Parameters 
/k/ untersucht, der die Anzahl an Nachbarn im 
/k-Nearest-Neighbor-Algorithmus/ innerhalb des Schätzers angibt. Des 
Weiteren werden für die Auswahl der Merkmale nötigen, bereits 
existierenden Algorithmen implementiert und weitere Algorithmen 
entwickelt. Deren Ziel ist die Reduzierung der Laufzeit und der 
Komplexität. Es erfolgt eine abschließende Evaluation der Algorithmen. 
Unter Berücksichtigung dieser Evaluation werden die abschließenden 
Ergebnisse der /Merkmalsauswahl /diskutiert und bewertet.

*Montag, 21. Oktober 2019*
*Vortragender*: Alexej Sobolew
*Ort*: Hörsaal 4G IKS
*Zeit*: 14:45 Uhr

*Bachelor-Vortrag*: Untersuchung der statistischen Abhängigkeiten 
aufeinanderfolgender Sprachsegmente

In der Praxis sind Audio- und Sprachsignale Störungen ausgesetzt. 
Dadurch entstehen zeit- und frequenzbegrenzte Verzerrungen, die z. B. 
mithilfe der Störgeräuschreduktion oder der Echo-Kompensation 
abgeschwächt werden können. Bei diesen Vorgängen entstehen allerdings 
hörbare Artefakte. Die Linder dieser Artefakte kann durch die 
Rekonstruktion der geschädigten Stellen erfolgen. Dieser 
Rekonstruktionsprozess wird als Speech Inpainting bezeichnet. Zur 
Rekonstruktion existieren Ansätze mithilfe von 
Machine-Learning-Algorithmen. Dazu müssen die Eingangsdaten auf ihre 
Relevanz hin untersucht und die signifikanten Anteile extrahiert werden.

Um dieses Ziel zu erreichen, werden die Daten zunächst auf die 
Eigenschaften der Normalverteilung untersucht. Als Qualitätsmaß für die 
statistischen Abhängigkeiten werden die Korrelation und die 
Transinformation gewählt. Die Normalverteilung erweist sich hierbei für 
die Untersuchung mithilfe der Korrelation als sinnvoll. Des Weiteren 
werden die zeitlichen Abhängigkeiten analysiert und die Daten auf ihre 
Frequenzabhängigkeit erforscht. Darauffolgend wird die Auswirkung der 
Zunahme zusätzlicher Elemente ermittelt. Hierbei muss zunächst auf die 
Vergleichbarkeit der Ergebnisse unterschiedlich-dimensionaler 
Eingangsdaten geachtet werden. Dazu kann eine passend gewählte 
Normierung verwendet werden. Im anschließenden Schritt werden die Daten 
in unterschiedliche Cluster aufgeteilt, um weitere Zusammenhänge zu 
erkennen.

Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht 
erforderlich. Allgemeine Informationen zum Kolloquium sowie eine 
aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums 
finden Sie unter
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/

-- 
Irina Ronkartz
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
ronkartz@iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/