Sehr geehrte Abonnenten des Kolloquium-Newsletters,

gerne informieren wir Sie über die nächsten Termine unseres Kommunikationstechnischen Kolloquiums.

Mittwoch, 17. Juni 2020
Vortragender: Jingcheng Tian
Zeit: 11:00 Uhr
Webex Meeting: https://meetingsemea22.webex.com/meetingsemea22-de/j.php?MTID=md260f6a6859c3f2bced05037eef4ade7
                              Meeting-Kennummer (Zugriffscode): 162 224 7271
                              Meeting-Passwort: 505027

Master-Vortrag: End-to-End Speech Inpainting Using Convolutinal Network Structures

Speech signals are often subject to interference or damage in the time or frequency domain during transmission. There are many ways to address these disturbances. One of them is Packet Loss Concealment (PLC), which is a technology designed to minimize the practical effect of lost packets in digital communications. Bandwidth Extension (BWE), on the other hand, is the process of extending the frequency range of a signal.

Speech inpainting, a generalized version of BWE and PLC, refers to the loss of the signal at any time and any frequency, rather than a fixed time and frequency. The term inpainting comes from image inpainting, which comprises a subarea of digital image processing, where already many deep learning-based techniques for reconstruction of broken pictures exist. However, in the field of speech, this technology has not been widely spread. Only a few dictionary-based speech signal inpainting approaches exist. In this work we intodruce a model for solving speech inpainting task. Learning-based methods have been proven to have a better performance compared to traditional algorithms in front-end processing, such as speech noise reduction and BWE. However, most algorithms extract features and use magnitude spectrograms as input to the model. One disadvantage of this is the lack of phase information.

WaveNet, the very famous model which is used for speech synthesis, uses a dilated CNN to directly generate raw audio. This thesis uses a modified WaveNet to make it directly read raw speech and generate speech, that is, the input and output of the model are lossless and no information is lost. Instead, CNN does the feature extraction automatically in the first layers. At the same time, the huge space complexity required by WaveNet is reduced. In addition, the characteristics of the causality are modified into symmetry. The model can not only see the past information, but also the future information, which increases the receptive field and improves the accuracy of the model. We also introduce different loss functions for comparison. In the experiments, we tried different types of data, different noise, different loss of time and frequency. Computational evaluation shows that this method can reconstruct speech signals, not only in magnitude, but also in phase.

und

Mittwoch, 17. Juni 2020
Vortragender: Daniel Wilhelm
Zeit: 14:00 Uhr
Zoom-Meeting: https://rwth.zoom.us/j/91765335911?pwd=TFFHdTBlWStyR1lVU25IbGdCWmNJdz09
                            Meeting-ID: 917 6533 5911
                            Passwort: 297152

Bachelor-Vortrag: Rekonstruktion des Phasenspektrums von Sprachsignalen mit Machine-Learning-Algorithmen

Die Verarbeitung von Audio- bzw. Sprachsignalen findet häufig im Zeit-Frequenzspektrum statt. Dieses setzt sich zusammen aus dem Magnituden- und dem Phasenspektrum. Da das Magnitudenspektrum relevanter für die Verständlichkeit von Sprachsignalen ist, werden Berechnungen, wie z. B. eine Störgeräuschreduktion, oft nur mit diesem durchgeführt und das Phasenspektrum wird unverändert übernommen. Um eine möglichst optimale Sprachqualität zu erhalten, muss jedoch auch das Phasenspektrum berücksichtigt werden. Eine Möglichkeit ist es, das Phasenspektrum auf Basis des verbesserten Magnitudenspektrums zu rekonstruieren. Ein weit verbreiteter Ansatz hierfür ist der Griffin-Lim-Algorithmus. Dieser ist ein iterativer Algorithmus, der als Eingabe nur das Magnitudenspektrum erhält und sich dann in jedem Schritt mit dem passenden Zeitsignal annähert. Eine hinreichende Sprachqualität erfordert jedoch typischerweise viele Iterationen, die auf das gesamte Signal wirken, was dazu führt, dass ein hoher Rechenaufwand entsteht und der Einsatz in einer Echtzeit-Implementierung erschwert wird.

In dieser Arbeit wird daher ein anderer Ansatz zur Rekonstruktion des Phasenspektrums aus dem Magnitudenspektrum eines Sprachsignals entwickelt, bei dem das Phasenspektrum mit Hilfe von einem Machine-Learning-Algorithmus geschätzt wird. Ebenfalls wird die Anwendungsmöglichkeit auf beschädigte Sprachsignale, bei denen Lücken im Zeit-Frequenzspektrum vorhanden sind, untersucht. In dem hier vorgestellten Algorithmus werden die Ableitungen des Phasenspektrums (nach der Zeit und nach der Frequenz) von einem neuronalen Netz geschätzt und danach zu einem möglichst passenden Phasenspektrum zusammengeführt. Es werden passende Vorverarbeitungsschritte für die an das neuronale Netz zu übergebenden Daten gesucht. Eine Reduktion der zu verarbeitenden Datenmenge wird vorgeschlagen, um den Rechenaufwand zu reduzieren. Anschließend werden verschiedene Versuche durchgeführt, um die Schätzung des Phasenspektrums zu verbessern. Dabei werden u.a. die Komplexität und weitere Eigenschaften des neuronalen Netzes variiert, sowie mehrere Möglichkeiten zur Zusammensetzung des Phasenspektrums aus den Phasenableitungen eingesetzt. Ein Vergleich mit dem Griffin-Lim-Algorithmus wird ebenfalls durchgeführt. Zum Abschluss werden beschädigte Sprachsignale betrachtet und die Anwendungsmöglichkeit des erarbeiteten Algorithmus für diesen Fall bewertet.

Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich.

Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/

-- 
Irina Ronkartz
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
ronkartz@iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/