Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über die nächsten Termine unseres
Kommunikationstechnischen Kolloquiums.
*Mittwoch, 17. Juni 2020*
*Vortragender:* Jingcheng Tian
*Zeit:* 11:00 Uhr
*Webex Meeting*:
https://meetingsemea22.webex.com/meetingsemea22-de/j.php?MTID=md260f6a6859c…
Meeting-Kennummer (Zugriffscode): 162 224
7271
Meeting-Passwort: 505027
*Master-Vortrag*: End-to-End Speech Inpainting Using Convolutinal
Network Structures
Speech signals are often subject to interference or damage in the time
or frequency domain during transmission. There are many ways to address
these disturbances. One of them is Packet Loss Concealment (PLC), which
is a technology designed to minimize the practical effect of lost
packets in digital communications. Bandwidth Extension (BWE), on the
other hand, is the process of extending the frequency range of a signal.
Speech inpainting, a generalized version of BWE and PLC, refers to the
loss of the signal at any time and any frequency, rather than a fixed
time and frequency. The term inpainting comes from image inpainting,
which comprises a subarea of digital image processing, where already
many deep learning-based techniques for reconstruction of broken
pictures exist. However, in the field of speech, this technology has not
been widely spread. Only a few dictionary-based speech signal inpainting
approaches exist. In this work we intodruce a model for solving speech
inpainting task. Learning-based methods have been proven to have a
better performance compared to traditional algorithms in front-end
processing, such as speech noise reduction and BWE. However, most
algorithms extract features and use magnitude spectrograms as input to
the model. One disadvantage of this is the lack of phase information.
WaveNet, the very famous model which is used for speech synthesis, uses
a dilated CNN to directly generate raw audio. This thesis uses a
modified WaveNet to make it directly read raw speech and generate
speech, that is, the input and output of the model are lossless and no
information is lost. Instead, CNN does the feature extraction
automatically in the first layers. At the same time, the huge space
complexity required by WaveNet is reduced. In addition, the
characteristics of the causality are modified into symmetry. The model
can not only see the past information, but also the future information,
which increases the receptive field and improves the accuracy of the
model. We also introduce different loss functions for comparison. In the
experiments, we tried different types of data, different noise,
different loss of time and frequency. Computational evaluation shows
that this method can reconstruct speech signals, not only in magnitude,
but also in phase.
und
*Mittwoch, 17. Juni 2020*
*Vortragender*: Daniel Wilhelm
*Zeit:* 14:00 Uhr
*Zoom-Meeting*:
https://rwth.zoom.us/j/91765335911?pwd=TFFHdTBlWStyR1lVU25IbGdCWmNJdz09
Meeting-ID: 917 6533 5911
Passwort: 297152
*Bachelor-Vortrag*: Rekonstruktion des Phasenspektrums von
Sprachsignalen mit Machine-Learning-Algorithmen
Die Verarbeitung von Audio- bzw. Sprachsignalen findet häufig im
Zeit-Frequenzspektrum statt. Dieses setzt sich zusammen aus dem
Magnituden- und dem Phasenspektrum. Da das Magnitudenspektrum relevanter
für die Verständlichkeit von Sprachsignalen ist, werden Berechnungen,
wie z. B. eine Störgeräuschreduktion, oft nur mit diesem durchgeführt
und das Phasenspektrum wird unverändert übernommen. Um eine möglichst
optimale Sprachqualität zu erhalten, muss jedoch auch das Phasenspektrum
berücksichtigt werden. Eine Möglichkeit ist es, das Phasenspektrum auf
Basis des verbesserten Magnitudenspektrums zu rekonstruieren. Ein weit
verbreiteter Ansatz hierfür ist der Griffin-Lim-Algorithmus. Dieser ist
ein iterativer Algorithmus, der als Eingabe nur das Magnitudenspektrum
erhält und sich dann in jedem Schritt mit dem passenden Zeitsignal
annähert. Eine hinreichende Sprachqualität erfordert jedoch
typischerweise viele Iterationen, die auf das gesamte Signal wirken, was
dazu führt, dass ein hoher Rechenaufwand entsteht und der Einsatz in
einer Echtzeit-Implementierung erschwert wird.
In dieser Arbeit wird daher ein anderer Ansatz zur Rekonstruktion des
Phasenspektrums aus dem Magnitudenspektrum eines Sprachsignals
entwickelt, bei dem das Phasenspektrum mit Hilfe von einem
Machine-Learning-Algorithmus geschätzt wird. Ebenfalls wird die
Anwendungsmöglichkeit auf beschädigte Sprachsignale, bei denen Lücken im
Zeit-Frequenzspektrum vorhanden sind, untersucht. In dem hier
vorgestellten Algorithmus werden die Ableitungen des Phasenspektrums
(nach der Zeit und nach der Frequenz) von einem neuronalen Netz
geschätzt und danach zu einem möglichst passenden Phasenspektrum
zusammengeführt. Es werden passende Vorverarbeitungsschritte für die an
das neuronale Netz zu übergebenden Daten gesucht. Eine Reduktion der zu
verarbeitenden Datenmenge wird vorgeschlagen, um den Rechenaufwand zu
reduzieren. Anschließend werden verschiedene Versuche durchgeführt, um
die Schätzung des Phasenspektrums zu verbessern. Dabei werden u.a. die
Komplexität und weitere Eigenschaften des neuronalen Netzes variiert,
sowie mehrere Möglichkeiten zur Zusammensetzung des Phasenspektrums aus
den Phasenableitungen eingesetzt. Ein Vergleich mit dem
Griffin-Lim-Algorithmus wird ebenfalls durchgeführt. Zum Abschluss
werden beschädigte Sprachsignale betrachtet und die
Anwendungsmöglichkeit des erarbeiteten Algorithmus für diesen Fall
bewertet.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium/
--
Irina Ronkartz
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/