Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über die nächsten
Termine unseres Kommunikationstechnischen Kolloquiums.
Mittwoch, 17. Juni 2020
Vortragender: Jingcheng Tian
Zeit: 11:00 Uhr
Webex Meeting: https://meetingsemea22.webex.com/meetingsemea22-de/j.php?MTID=md260f6a6859c3f2bced05037eef4ade7
Meeting-Kennummer (Zugriffscode):
162 224 7271
Meeting-Passwort: 505027
Master-Vortrag: End-to-End Speech Inpainting Using Convolutinal Network Structures
Speech signals are often subject to
interference or damage in the time or frequency domain during
transmission. There are many ways to address these disturbances.
One of them is Packet Loss Concealment (PLC), which is a
technology designed to minimize the practical effect of lost
packets in digital communications. Bandwidth Extension (BWE), on
the other hand, is the process of extending the frequency range
of a signal.
Speech inpainting, a generalized version of BWE and PLC, refers to the loss of the signal at any time and any frequency, rather than a fixed time and frequency. The term inpainting comes from image inpainting, which comprises a subarea of digital image processing, where already many deep learning-based techniques for reconstruction of broken pictures exist. However, in the field of speech, this technology has not been widely spread. Only a few dictionary-based speech signal inpainting approaches exist. In this work we intodruce a model for solving speech inpainting task. Learning-based methods have been proven to have a better performance compared to traditional algorithms in front-end processing, such as speech noise reduction and BWE. However, most algorithms extract features and use magnitude spectrograms as input to the model. One disadvantage of this is the lack of phase information.
WaveNet, the very famous model which is used for speech synthesis, uses a dilated CNN to directly generate raw audio. This thesis uses a modified WaveNet to make it directly read raw speech and generate speech, that is, the input and output of the model are lossless and no information is lost. Instead, CNN does the feature extraction automatically in the first layers. At the same time, the huge space complexity required by WaveNet is reduced. In addition, the characteristics of the causality are modified into symmetry. The model can not only see the past information, but also the future information, which increases the receptive field and improves the accuracy of the model. We also introduce different loss functions for comparison. In the experiments, we tried different types of data, different noise, different loss of time and frequency. Computational evaluation shows that this method can reconstruct speech signals, not only in magnitude, but also in phase.
und
Mittwoch, 17. Juni 2020
Vortragender: Daniel Wilhelm
Zeit: 14:00 Uhr
Zoom-Meeting: https://rwth.zoom.us/j/91765335911?pwd=TFFHdTBlWStyR1lVU25IbGdCWmNJdz09
Meeting-ID: 917 6533 5911
Passwort: 297152
Bachelor-Vortrag: Rekonstruktion des Phasenspektrums von Sprachsignalen mit Machine-Learning-Algorithmen
Die Verarbeitung von Audio- bzw. Sprachsignalen findet häufig im Zeit-Frequenzspektrum statt. Dieses setzt sich zusammen aus dem Magnituden- und dem Phasenspektrum. Da das Magnitudenspektrum relevanter für die Verständlichkeit von Sprachsignalen ist, werden Berechnungen, wie z. B. eine Störgeräuschreduktion, oft nur mit diesem durchgeführt und das Phasenspektrum wird unverändert übernommen. Um eine möglichst optimale Sprachqualität zu erhalten, muss jedoch auch das Phasenspektrum berücksichtigt werden. Eine Möglichkeit ist es, das Phasenspektrum auf Basis des verbesserten Magnitudenspektrums zu rekonstruieren. Ein weit verbreiteter Ansatz hierfür ist der Griffin-Lim-Algorithmus. Dieser ist ein iterativer Algorithmus, der als Eingabe nur das Magnitudenspektrum erhält und sich dann in jedem Schritt mit dem passenden Zeitsignal annähert. Eine hinreichende Sprachqualität erfordert jedoch typischerweise viele Iterationen, die auf das gesamte Signal wirken, was dazu führt, dass ein hoher Rechenaufwand entsteht und der Einsatz in einer Echtzeit-Implementierung erschwert wird.
In dieser Arbeit wird daher ein anderer Ansatz
zur Rekonstruktion des Phasenspektrums aus dem
Magnitudenspektrum eines Sprachsignals entwickelt, bei dem das
Phasenspektrum mit Hilfe von einem Machine-Learning-Algorithmus
geschätzt wird. Ebenfalls wird die Anwendungsmöglichkeit auf
beschädigte Sprachsignale, bei denen Lücken im
Zeit-Frequenzspektrum vorhanden sind, untersucht. In dem hier
vorgestellten Algorithmus werden die Ableitungen des
Phasenspektrums (nach der Zeit und nach der Frequenz) von einem
neuronalen Netz geschätzt und danach zu einem möglichst
passenden Phasenspektrum zusammengeführt. Es werden passende
Vorverarbeitungsschritte für die an das neuronale Netz zu
übergebenden Daten gesucht. Eine Reduktion der zu verarbeitenden
Datenmenge wird vorgeschlagen, um den Rechenaufwand zu
reduzieren. Anschließend werden verschiedene Versuche
durchgeführt, um die Schätzung des Phasenspektrums zu
verbessern. Dabei werden u.a. die Komplexität und weitere
Eigenschaften des neuronalen Netzes variiert, sowie mehrere
Möglichkeiten zur Zusammensetzung des Phasenspektrums aus den
Phasenableitungen eingesetzt. Ein Vergleich mit dem
Griffin-Lim-Algorithmus wird ebenfalls durchgeführt. Zum
Abschluss werden beschädigte Sprachsignale betrachtet und die
Anwendungsmöglichkeit des erarbeiteten Algorithmus für diesen
Fall bewertet.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht erforderlich.
Allgemeine Informationen zum Kolloquium, sowie
eine aktuelle Liste der Termine des Kommunikationstechnischen
Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
-- Irina Ronkartz Institute of Communication Systems (IKS) RWTH Aachen University Muffeter Weg 3a, 52074 Aachen, Germany +49 241 80 26958 (phone) ronkartz@iks.rwth-aachen.de http://www.iks.rwth-aachen.de/