April 2019 - Kommunikationstechnik-Kolloquium

Kommunikationstechnisches Kolloquium am IKS
by Ronkartz 26 Apr '19

26 Apr '19

Sehr geehrte Abonnenten des Kolloquium-Newsletters, gerne informieren wir Sie über den nächsten Termin unseres Kommunikationstechnischen Kolloquiums. *Donnerstag, 2. Mai 2019** **Vortragender:* Patrick von Platen *Ort: *Hörsaal 4G IKS *Zeit:* 14:00 Uhr *Master-Vortrag: *Speech Recognition with Deep Neural Networks for Raw Multichannel Signals Traditional automatic speech recognition (ASR) systems often use an acoustic model (AM) built on handcrafted acoustic features, such as log Mel-filter bank (FBANK) values. Recent studies found that AMs with convolutional neural networks (CNNs) can directly use the raw waveform signal as input. Given sufficient training data, these AMs can yield a competitive word error rate (WER) to those built on FBANK features. In this thesis a novel multi-span structure for acoustic modelling based on both single- and multi-channel raw waveform signal is proposed, which is based on multiple streams of CNN input layers, each processing a different span of the raw waveform signal. Experiments on both CHiME4 and AMI single-channel data show that the multi-span structure can significantly outperform conventional AMs based on FBANKs. Furthermore, it is shown that a widely used single-span raw waveform AM can be improved significantly by using a smaller CNN kernel size and increased stride to yield improved WERs. Experiments on CHiME4 multi-channel data show that CNN input layer kernels can learn to filter frequencies synchronously on multiple channel inputs. While the WERs obtained for multi-channel raw waveform acoustic modelling are encouraging, they still lag behind WERs obtained by AMs built on more robust log-Mel filterbank acoustic features, which are preprocessed by beamforming. Analysis reveals that, the AM's increased set of parameters for multi-channel raw waveform signal input aggravates its CNN input layer kernels to learn robust feature representations. In further work more sophisticated regularization techniques and additional experiments for multi-channel raw waveform acoustic modelling can be investigated. Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich. Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums finden Sie unter: http://www.iks.rwth-aachen.de/aktuelles/kolloquium/ -- Irina Ronkartz Institute of Communication Systems(IKS) RWTH Aachen University Muffeter Weg 3a, 52074 Aachen, Germany +49 241 80 26958(phone) ronkartz(a)iks.rwth-aachen.de http://www.iks.rwth-aachen.de/

1 0

Kommunikationstechnisches Kolloquium am IKS
by Ronkartz 23 Apr '19

23 Apr '19

Sehr geehrte Abonnenten des Kolloquium-Newsletters, gerne informieren wir Sie über die nächsten Termine unseres Kommunikationstechnischen Kolloquiums. *Montag, 29. April 2019* *Vortragender:* Pascal Mousel *Ort:* Hörsaal 4G IKS *Zeit*: 11:00 Uhr *Master-Vortrag*: Signalzerlegung für die Kalman-Filter basierte Stereo-Echokompensation In der adaptiven Stereo-Echokompensation stellt die starke Korrelation zwischen den beiden Kanälen des Stereo-Eingangssignals eine große Herausforderung dar. Diese verursacht ein Non-Uniqueness Problem bei der Berechnung der Signalschätzung zur Echokompensation im adaptiven Filter. Die nur langsam gegen eine richtige Lösung konvergierende Echokompensation wird aus diesem Grund bei jeder Signalveränderung abfallen und die Schätzung neu angesetzt werden. Um diesem Problem entgegenzuwirken, werden in dieser Arbeit Methoden erarbeitet das Stereo-Eingangssignal in zwei stark korrelierte Primäranteile und zwei von diesen aber auch untereinander unkorrelierte Ambientanteile aufzuteilen. Diese können durch einen mehrkanaligen adaptiven Stereo-Echokompensator auf Kalman-Filter Basis getrennt bearbeitet werden. Dadurch kann das Schätzproblem verbessert werden, weil die Schätzungen der Ambientanteile eine bessere Konvergenz haben, auch wenn die Primäranteile nach wie vor sehr langsam konvergieren. In der Arbeit wird gezeigt, dass die Methoden zur Signalzerlegung einen positiven Einfluss auf die erreichte Echokompensation haben. Es wird anhand von Simulationen analysiert, wie die Methoden die besten Ergebnisse erzielen können. Mit dem Splitter verbundene Probleme oder Schwachstellen werden aufgezeigt und diskutiert. Es werden Ergebnisse präsentiert und Möglichkeiten zur Erweiterung dieser Arbeit angegeben. und *Dienstag, 30. April 2019* *Vortragender:* Jan Stephan *Ort:* Hörsaal 4G IKS *Zeit:* 11:15 Uhr *Bachelor-Vortrag*: Optimierung von Übersprechkompensationsfiltern für die binaurale Wiedergabe über Lautsprecher Bei der Wiedergabe von Binauralsignalen über Lautsprecher müssen das Übersprechen und die Frequenzgänge der Lautsprecher mittels einer sog. Übersprechkompensation entzerrt werden, um eine korrekte Wiedergabe des Binauralsignals an den Ohren des Zuhörers zu ermöglichen. Dabei ist es möglich, dass sehr große Verstärkungen in den Übersprechkompensationsfiltern auftreten. Dies birgt zahlreiche Nachteile. In dieser Arbeit wurde daher eine frequenzabhängige Regularisierung untersucht, um diese Verstärkungen zu begrenzen. Dazu wurde ein Optimierungskriterium basierend auf einem symmetrischen Modell der Freifeldübertragung auf beliebige (asymmetrische) Übertragungsfunktionen erweitert. Die Untersuchungen wurden mit einer Anordnung von zwei Lautsprechern durchgeführt. Die erarbeitete frequenzabhängige Regularisierung erfüllt das geforderte Optimierungskriterium. Erste Auswertungen legen eine Robustheit gegenüber leichten Kopfdrehungen nahe. Eine weitergehende psychoakustische Auswertung steht noch aus. Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich. Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums finden Sie unter: http://www.iks.rwth-aachen.de/aktuelles/kolloquium/ -- Irina Ronkartz Institute of Communication Systems(IKS) RWTH Aachen University Muffeter Weg 3a, 52074 Aachen, Germany +49 241 80 26958(phone) ronkartz(a)iks.rwth-aachen.de http://www.iks.rwth-aachen.de/

1 0

Kommunikationstechnisches Kolloquium am IKS
by Ronkartz 17 Apr '19

17 Apr '19

Sehr geehrte Abonnenten des Kolloquium-Newsletters, gerne informieren wir Sie über den nächsten Termin unseres Kommunikationstechnischen Kolloquiums. *Dienstag, 23. April 2019* *Vortragender*: Si Hu *Ort:* Hörsaal 4G IKS *Zeit*: 14:00 Uhr *Master-Vortrag*: Investigations on Joint Application of Blind Source Separation and Primary-Ambient Extraction to Stereo Signals Due to the rapid development of surround sound systems, audio files in multi-channel format are increasingly required. In consideration of the fact that most legacy audio recordings are in stereo format, it is favorable to convert these audio recordings in stereo multi-channel format which refers to upmixing technology. In the upmixing process, so-called primary and ambient components play an important role. They are extracted from the input stereo signal by means of Primary-Ambient Extraction (PAE). There are many PAE approaches available, but they have a common shortcoming. When they handle audio signals with multiple concurrent primary sources, the extraction quality will dastically degrade and the listening experience will be significantly impaired. In order to address this issue, we consider to incorporate Blind Source Separation (BSS) into the PAE process. In BSS, it is investigated how to recover every single sound source form a mixed audio signal. The basic idea is that an audio signal with multiple concurrent primary sources can be separated into several sub-signals by means of BSS. Each sub-signal is expected to contain only on primary source. Then PAE is executed for every single sub-signal. Theoretically, PAE processing should be facilitated, because PAE works well when dealing with the signals with only a single primary soure. In this thesis, the feasibility of this idea is validated. Non-negative Tensor Factorization (NTF), as a prevalent BSS technique, is employed in the experiments. We propose several NTF based strategies to execute PAE on audio input signals with three primary sources. A series of numerical experimental results and subjective listening tests show that the PAE performance can be enhanced in this way in the case of multiple primary sources. Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich. Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums finden Sie unter: http://www.iks.rwth-aachen.de/aktuelles/kolloquium/ -- Irina Ronkartz Institute of Communication Systems(IKS) RWTH Aachen University Muffeter Weg 3a, 52074 Aachen, Germany +49 241 80 26958(phone) ronkartz(a)iks.rwth-aachen.de http://www.iks.rwth-aachen.de/

1 0