Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über die nächsten Termine unseres Kommunikationstechnischen Kolloquiums.
Montag, 21. Oktober 2019
Vortragender: Till Hardenbicker
Ort: Hörsaal 4G IKS
Zeit: 11:00 Uhr
Master-Vortrag: Source Localization Using Binaural and Monaural Cues
Acoustic source localization exploiting
binaural cues is used in applications such as binaural
conferencing and heairng aids. Binaural cues are features that
can easily be extracted from binaural signals but only provide
an ambiguous location estimation, since they do not, for
example, enable a front-back distinction. In the human auditory
system, this distinction is made based on so-called monaural
cues, which are signal features that arise from filtering
effects of outer ear, head and torso.
This thesis deals with the full-sphere localization of speech sources based on binaural and monaural cues contained in binaural signals. It is demonstrated that unlike binaural cues, monaural cues provide information about the elevation angle. Attention is particularly paid to the extraction of monaural cues. As the original source signal is not known, this extraction is not trivial. Several algorithms are proposed to estimate the source position by identifying Head-Related Transfer Functions without knowledge of the source signal. The approaches can be divided into least-square and codebook-based concepts and artificial neural network-based concepts. Binaural and monaural cues are combained such that the monaural estimators only resolve the ambiguities left by the binaural estimators.
Different estimator topologies are
individually optimized and then analyzed with regard to their
performance and potential for standalone applications. The
results indicate that all proposed estimators enable a
front-back distinction. While one estimator performs best in
exchange for a high computation time, two of them compromise
well between computation time and localization accuracy.
Montag, 21. Oktober 2019
Vortragender: Alexander Sobolew
Ort: Hörsaal 4G IKS
Zeit: 14:00 Uhr
Bachelor-Vortrag: Untersuchung geeigneter Features zur Rekonstruktion verlorener Sprachsignalanteile
In der Praxis sind Audio- sowie Sprachsignale häufig Störungen ausgesetzt. Dabei wird das Nutzsignal in frequenz- und zeit-begrenzten Anteilen verzerrt. Bereits existierende Ansätze aus der Störgeräuschreduktion oder der Echo-Kompensation gehen dieses Problem an. Jedoch entstehen dabei hörbare Artefakte. Um diese Artefakte zu vermeiden, soll das Nutzsignal mithilfe von Ansätzen aus dem Machine-Learning rekonstruiert werden. Dieser Vorgang wird Speech Inpainting genannt. Ziel ist nun die Reduzierung der Komplexität des Trainings der Machine-Learning-Modelle mithilfe einer Dimensionsreduktion der verwendeten Signaldaten.
Zunächst werden die Ergebnisse einer
umfassenden Recherche bezüglich geeigneter Merkmalsgruppen aus
der Merkmalsextraktion präsentiert und die
Beschaffenheit der Merkmalstypen näher erläutert. Als
Qualitätsmaß der Merkmalsauswahl wird die Transinformation
verwendet. Dazu wird ein geeigneter Schätzer vorgestellt und die
Wahl des unbestimmten Parameters k untersucht, der die
Anzahl an Nachbarn im k-Nearest-Neighbor-Algorithmus
innerhalb des Schätzers angibt. Des Weiteren werden für die
Auswahl der Merkmale nötigen, bereits existierenden Algorithmen
implementiert und weitere Algorithmen entwickelt. Deren Ziel ist
die Reduzierung der Laufzeit und der Komplexität. Es erfolgt
eine abschließende Evaluation der Algorithmen. Unter
Berücksichtigung dieser Evaluation werden die abschließenden
Ergebnisse der Merkmalsauswahl diskutiert und bewertet.
Montag, 21. Oktober 2019
Vortragender: Alexej Sobolew
Ort: Hörsaal 4G IKS
Zeit: 14:45 Uhr
Bachelor-Vortrag: Untersuchung der statistischen Abhängigkeiten aufeinanderfolgender Sprachsegmente
In der Praxis sind Audio- und Sprachsignale
Störungen ausgesetzt. Dadurch entstehen zeit- und
frequenzbegrenzte Verzerrungen, die z. B. mithilfe der
Störgeräuschreduktion oder der Echo-Kompensation abgeschwächt
werden können. Bei diesen Vorgängen entstehen allerdings hörbare
Artefakte. Die Linder dieser Artefakte kann durch die
Rekonstruktion der geschädigten Stellen erfolgen. Dieser
Rekonstruktionsprozess wird als Speech Inpainting bezeichnet.
Zur Rekonstruktion existieren Ansätze mithilfe von
Machine-Learning-Algorithmen. Dazu müssen die Eingangsdaten auf
ihre Relevanz hin untersucht und die signifikanten Anteile
extrahiert werden.
Um dieses Ziel zu erreichen, werden die Daten
zunächst auf die Eigenschaften der Normalverteilung untersucht.
Als Qualitätsmaß für die statistischen Abhängigkeiten werden die
Korrelation und die Transinformation gewählt. Die
Normalverteilung erweist sich hierbei für die Untersuchung
mithilfe der Korrelation als sinnvoll. Des Weiteren werden die
zeitlichen Abhängigkeiten analysiert und die Daten auf ihre
Frequenzabhängigkeit erforscht. Darauffolgend wird die
Auswirkung der Zunahme zusätzlicher Elemente ermittelt. Hierbei
muss zunächst auf die Vergleichbarkeit der Ergebnisse
unterschiedlich-dimensionaler Eingangsdaten geachtet werden.
Dazu kann eine passend gewählte Normierung verwendet werden. Im
anschließenden Schritt werden die Daten in unterschiedliche
Cluster aufgeteilt, um weitere Zusammenhänge zu erkennen.
Alle Interessierten sind herzlich eingeladen,
eine Anmeldung ist nicht erforderlich. Allgemeine Informationen
zum Kolloquium sowie eine aktuelle Liste der Termine des
Kommunikationstechnischen Kolloquiums finden Sie unter
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
-- Irina Ronkartz Institute of Communication Systems (IKS) RWTH Aachen University Muffeter Weg 3a, 52074 Aachen, Germany +49 241 80 26958 (phone) ronkartz@iks.rwth-aachen.de http://www.iks.rwth-aachen.de/