Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über den nächsten Termin unseres
Kommunikationstechnischen Kolloquiums.
*Donnerstag, 2. Mai 2019**
**Vortragender:* Patrick von Platen
*Ort: *Hörsaal 4G IKS
*Zeit:* 14:00 Uhr
*Master-Vortrag: *Speech Recognition with Deep Neural Networks for Raw
Multichannel Signals
Traditional automatic speech recognition (ASR) systems often use an
acoustic model (AM) built on handcrafted acoustic features, such as log
Mel-filter bank (FBANK) values. Recent studies found that AMs with
convolutional neural networks (CNNs) can directly use the raw waveform
signal as input. Given sufficient training data, these AMs can yield a
competitive word error rate (WER) to those built on FBANK features.
In this thesis a novel multi-span structure for acoustic modelling based
on both single- and multi-channel raw waveform signal is proposed, which
is based on multiple streams of CNN input layers, each processing a
different span of the raw waveform signal. Experiments on both CHiME4
and AMI single-channel data show that the multi-span structure can
significantly outperform conventional AMs based on FBANKs.
Furthermore, it is shown that a widely used single-span raw waveform AM
can be improved significantly by using a smaller CNN kernel size and
increased stride to yield improved WERs. Experiments on CHiME4
multi-channel data show that CNN input layer kernels can learn to filter
frequencies synchronously on multiple channel inputs. While the WERs
obtained for multi-channel raw waveform acoustic modelling are
encouraging, they still lag behind WERs obtained by AMs built on more
robust log-Mel filterbank acoustic features, which are preprocessed by
beamforming.
Analysis reveals that, the AM's increased set of parameters for
multi-channel raw waveform signal input aggravates its CNN input layer
kernels to learn robust feature representations. In further work more
sophisticated regularization techniques and additional experiments for
multi-channel raw waveform acoustic modelling can be investigated.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
--
Irina Ronkartz
Institute of Communication Systems(IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958(phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/
Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über die nächsten Termine unseres
Kommunikationstechnischen Kolloquiums.
*Montag, 29. April 2019*
*Vortragender:* Pascal Mousel
*Ort:* Hörsaal 4G IKS
*Zeit*: 11:00 Uhr
*Master-Vortrag*: Signalzerlegung für die Kalman-Filter basierte
Stereo-Echokompensation
In der adaptiven Stereo-Echokompensation stellt die starke Korrelation
zwischen den beiden Kanälen des Stereo-Eingangssignals eine große
Herausforderung dar. Diese verursacht ein Non-Uniqueness Problem bei der
Berechnung der Signalschätzung zur Echokompensation im adaptiven Filter.
Die nur langsam gegen eine richtige Lösung konvergierende
Echokompensation wird aus diesem Grund bei jeder Signalveränderung
abfallen und die Schätzung neu angesetzt werden.
Um diesem Problem entgegenzuwirken, werden in dieser Arbeit Methoden
erarbeitet das Stereo-Eingangssignal in zwei stark korrelierte
Primäranteile und zwei von diesen aber auch untereinander unkorrelierte
Ambientanteile aufzuteilen. Diese können durch einen mehrkanaligen
adaptiven Stereo-Echokompensator auf Kalman-Filter Basis getrennt
bearbeitet werden. Dadurch kann das Schätzproblem verbessert werden,
weil die Schätzungen der Ambientanteile eine bessere Konvergenz haben,
auch wenn die Primäranteile nach wie vor sehr langsam konvergieren.
In der Arbeit wird gezeigt, dass die Methoden zur Signalzerlegung einen
positiven Einfluss auf die erreichte Echokompensation haben. Es wird
anhand von Simulationen analysiert, wie die Methoden die besten
Ergebnisse erzielen können. Mit dem Splitter verbundene Probleme oder
Schwachstellen werden aufgezeigt und diskutiert. Es werden Ergebnisse
präsentiert und Möglichkeiten zur Erweiterung dieser Arbeit angegeben.
und
*Dienstag, 30. April 2019*
*Vortragender:* Jan Stephan
*Ort:* Hörsaal 4G IKS
*Zeit:* 11:15 Uhr
*Bachelor-Vortrag*: Optimierung von Übersprechkompensationsfiltern für
die binaurale Wiedergabe über Lautsprecher
Bei der Wiedergabe von Binauralsignalen über Lautsprecher müssen das
Übersprechen und die Frequenzgänge der Lautsprecher mittels einer sog.
Übersprechkompensation entzerrt werden, um eine korrekte Wiedergabe des
Binauralsignals an den Ohren des Zuhörers zu ermöglichen. Dabei ist es
möglich, dass sehr große Verstärkungen in den
Übersprechkompensationsfiltern auftreten. Dies birgt zahlreiche Nachteile.
In dieser Arbeit wurde daher eine frequenzabhängige Regularisierung
untersucht, um diese Verstärkungen zu begrenzen. Dazu wurde ein
Optimierungskriterium basierend auf einem symmetrischen Modell der
Freifeldübertragung auf beliebige (asymmetrische) Übertragungsfunktionen
erweitert. Die Untersuchungen wurden mit einer Anordnung von zwei
Lautsprechern durchgeführt.
Die erarbeitete frequenzabhängige Regularisierung erfüllt das geforderte
Optimierungskriterium. Erste Auswertungen legen eine Robustheit
gegenüber leichten Kopfdrehungen nahe. Eine weitergehende
psychoakustische Auswertung steht noch aus.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
--
Irina Ronkartz
Institute of Communication Systems(IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958(phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/
Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über den nächsten Termin unseres
Kommunikationstechnischen Kolloquiums.
*Dienstag, 23. April 2019*
*Vortragender*: Si Hu
*Ort:* Hörsaal 4G IKS
*Zeit*: 14:00 Uhr
*Master-Vortrag*: Investigations on Joint Application of Blind Source
Separation and Primary-Ambient Extraction to Stereo Signals
Due to the rapid development of surround sound systems, audio files in
multi-channel format are increasingly required. In consideration of the
fact that most legacy audio recordings are in stereo format, it is
favorable to convert these audio recordings in stereo multi-channel
format which refers to upmixing technology. In the upmixing process,
so-called primary and ambient components play an important role. They
are extracted from the input stereo signal by means of Primary-Ambient
Extraction (PAE). There are many PAE approaches available, but they have
a common shortcoming. When they handle audio signals with multiple
concurrent primary sources, the extraction quality will dastically
degrade and the listening experience will be significantly impaired.
In order to address this issue, we consider to incorporate Blind Source
Separation (BSS) into the PAE process. In BSS, it is investigated how to
recover every single sound source form a mixed audio signal. The basic
idea is that an audio signal with multiple concurrent primary sources
can be separated into several sub-signals by means of BSS. Each
sub-signal is expected to contain only on primary source. Then PAE is
executed for every single sub-signal. Theoretically, PAE processing
should be facilitated, because PAE works well when dealing with the
signals with only a single primary soure.
In this thesis, the feasibility of this idea is validated. Non-negative
Tensor Factorization (NTF), as a prevalent BSS technique, is employed in
the experiments. We propose several NTF based strategies to execute PAE
on audio input signals with three primary sources. A series of numerical
experimental results and subjective listening tests show that the PAE
performance can be enhanced in this way in the case of multiple primary
sources.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
--
Irina Ronkartz
Institute of Communication Systems(IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958(phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/