Dear subscribers of the colloquium newsletter,
we are happy to inform you about the next date of our Communication
Technology Colloquium.
*Wednesday, March, 30, 2022*
*Speaker*: Nora Pöhlau
*Time*: 10:00 a.m.
*Location*:
https://rwth.zoom.us/j/97904157921?pwd=SWpsbDl0MWhrWjY1ZkZaeFRoYmErZz09
Meeting-ID: 979 0415 7921
Passwort: 481650
*Master Lecture*: Performance Evaluation of Sound Field Translation
Methods for Recorded Virtual Reality
The Higher-Order Ambisonics (HOA) format allows directional recording
and playback of sound, making it an attractive tool for spatial audio or
immersive sound applications. Because Higher-Order Ambisonics are
mathematically based on Spherical Harmonics (SHs), they offer full
rotational freedom for the listener (3DoF). However, the sound field can
only be correctly reconstructed in a small area around the original
recording position due to physical constraints. Three algorithms
developed at the Institute for Communications Systems (IKS) make it
possible to allow an additional translational movement of the user, even
beyond the sweet spot. These algorithms deviate from the physically
correct reconstruction in favour of an acoustically plausible playback.
In this thesis, the three algorithms of Space Warping (SW), Adaptive
Space Warping (ASW) and Adaptive Beamforming (ABF) are perceptually
compared by conducting multiple listening tests. ABF and ASW split the
sound signal into a primary and an ambient part and apply the
translation operation only to the primary part. In two web-based
listening tests, it was found that this separation is an acoustically
valid approach. It was not distinguishable for the listeners if the
primary part contained only direct sound or additional early reflexions.
In a second step, a listening test in the laboratory was conducted.
Here, the algorithms were compared for different translation distances.
For small distances, ABF showed the best performance of all algorithms.
ABF introduced fluctuating residual noise for higher distances but still
obtained the highest source position ratings. Besides that, a newly
proposed variant of SW has proven to perform surprisingly well and
scored second best in all ratings behind ABF.
All interested parties are cordially invited, registration is not required.
General information on the colloquium, as well as a current list of
dates of the Communication Technology Colloquium can be found at:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium
--
Irina Esser
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/
Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über den nächsten Termin unseres
Kommunikationstechnischen Kolloquiums.
*Dienstag, 22. März 2022*
*Vortrage**nder*: Anatolii Skovitin
*Zeit*: 14:00 Uhr
*Ort*:
https://rwth.zoom.us/j/97904157921?pwd=SWpsbDl0MWhrWjY1ZkZaeFRoYmErZz09
Meeting-ID: 979 0415 7921
Passwort: 481650
*Bachelor-Vortrag:* Sprachsynthese von gestörten Betragsspektren mit
Methoden des maschinellen Lernens
Sprachsignale sind ein wichtiges Mittel der Kommunikation zwischen
Menschen. In der digitalen Welt werden Sprachsignale über Telefone oder
das Internet übertragen. Dazu müssen sie zunächst in den
Zeit-Frequenzbereich transformiert werden. Ein resultierendes
Zeit-Frequenzspektrum setzt sich zusammen aus dem Magnituden- und dem
Phasenspektrum. Sprachsignale sind häufig Störungen ausgesetzt, bei
denen das Nutzsignal verzerrt wird. Es gibt Methoden die diese
Verzerrungen abschwächen oder entfernen können. Häufig wird jedoch nur
das Magnitudenspektrum betrachtet und das Phasenspektrum bleibt aufgrund
seiner vergleichsweise geringen Bedeutung unverändert. Allerdings werden
sich im Normalfall die verarbeiteten Magnitudenspektren den perfekten
Magnitudenspektren annähern. Andere Methoden liefern überhaupt kein
Phasenspektrum, sondern nur eine Schätzung des Magnitudenspektrums.
In dieser Arbeit wird die Methode untersucht, die das Phasenspektrum von
Sprachsignalen aus den geschätzten oder gestörten Magnitudenspektren
rekonstruiert. Zu diesem Zweck werden Ansätze aus dem Bereich des
maschinellen Lernens verwendet. Um die Methoden der Phasenrekonstruktion
möglichst unabhängig von den spezifischen Störungsarten eines bestimmten
Systems zu untersuchen, wird eine künstliche Störung verwendet. Die
vorbereiteten Daten werden für das Training der neuronalen Netze
verwendet. Die besten Modelle des neuronalen Netzes werden dann
ausgewählt. Sie werden auf unterschiedlich gestörten Daten angewendet,
um herauszufinden, wie gut die neuronalen Netze für verschiedene Arten
von Störungen geeignet sind. Schließlich werden die verschiedenen
Phasenrekonstruktionsmethoden angewendet und die resultierenden
Sprachsignale bewertet. Außerdem wird ein Vergleich mit dem
Griffin-Lim-Algorithmus durchgeführt.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
https://www.iks.rwth-aachen.de/aktuelles/kolloquium/
--
Irina Esser
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
esser(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/
Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne laden wir Sie zu einem Promotionsvortrag ein.
Vortragender: Herr Matthias Schrammen, M. Sc.
Thema: *Front-End Signal Processing for Far-Field Speech Communication*
Zeit: Freitag, 18. März 2022, 10:00 Uhr
Zoom-Meeting:
https://rwth.zoom.us/j/97904157921?pwd=SWpsbDl0MWhrWjY1ZkZaeFRoYmErZz09
<https://rwth.zoom.us/j/97904157921?pwd=SWpsbDl0MWhrWjY1ZkZaeFRoYmErZz09>Meeting-ID:
979 0415 7921
Passwort: 481650
Devices for speech communication operated in hands-free mode offer a
very natural way of human communication. The capturing device, e.g., a
smartphone, smart speaker or tablet, is often located up to several
meters away from the human speaker. Furthermore, detrimental effects
like noise and reverberation are present in everyday acoustic
environments. Therefore, the signal-to-noise ratio at the microphones
mounted on the device is typically too low to offer sufficient speech
quality for the listener at the other end of the communication link. In
addition, the loudspeaker of the device is located much closer to the
microphones than the human speaker. Therefore, a strong echo signal from
the loudspeaker couples into the microphones degrading the conversation
quality for the remote listener even further.
State-of-the-art approaches that tackle the above-mentioned problems
usually rely on multiple microphones to improve the signal-to-noise
ratio with methods like beamforming. Beamforming combines the digitally
filtered signals of several microphones to obtain an enhanced speech
signal at the output. In addition, acoustic echo cancellation is
employed to attenuate the echo signal more specifically. This is
achieved by adaptive estimation of a digital model of the acoustic echo
path and subsequent subtraction of the synthesized echo signal from the
microphone signal.
However, the solutions are usually optimized for one specific device and
are only applicable when the positions of the microphones are fixed and
known to the algorithm. Furthermore, the combination of multi-microphone
enhancement and echo cancellation is not trivial and low complexity
solutions are lacking performance in terms of tracking dynamic acoustic
scenarios. Finally, low costs, small form factors, and high desired
sound pressure levels result in loudspeakers that operate at their
physical limits. This adds significant nonlinear components to the sound
emitted by the loudspeaker. Therefore, conventional linear acoustic echo
cancellation cannot compensate for the nonlinear parts of the echo and
the conversational quality is not satisfactory.
The task of the dissertation is to alleviate these shortcomings. The
developed signal processing algorithms should be more flexible with
respect to desired features in real devices. Among these are microphone
positions that are unknown or change during operation and the use of
beamforming and acoustic echo cancellation at the same time.
Furthermore, the developed solutions should be able to handle nonlinear
echo paths and should introduce a low computational complexity to be
attractive for battery-powered devices, too.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
--
Irina Esser
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
esser(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/
Sehr geehrte Abonnenten des Kolloquium-Newsletters,
gerne informieren wir Sie über den nächsten Termin unseres
Kommunikationstechnischen Kolloquiums.
*Mittwoch, 9. März 2022*
*Vortragender*: Marcel Kohn
*Zeit*: 14:00 Uhr
*Ort*:
https://rwth.zoom.us/j/97904157921?pwd=SWpsbDl0MWhrWjY1ZkZaeFRoYmErZz09
Meeting-ID: 979 0415 7921
Passwort: 481650
*Master-Vortrag*: Robuste Schätzung der Sprecherstimme bei Hearables und
Hörgeräten mit Mehr-Sensor-Systemen
Durch den Verschluss des Gehörgangs durch Hörgeräte oder Hearables wird
die Eigenwahrnehmung der eigenen Stimme gestört. Wenn keine
Gegenmaßnahmen ergriffen werden, wird die eigene Stimme als dröhnend
empfunden, was als Okklusionseffekt bezeichnet wird. Er kann durch die
so genannte aktive Okklusionsunterdrückung (AOC) verhindert werden.
Dieser Algorithmus nutzt jedoch in der Regel einen akustischen
Hear-Through aus, so dass er in lauten Umgebungen eher nachteilig ist.
Bei einem alternativen Ansatz arbeitet das Gerät im aktiven
Geräuschunterdrückungsmodus (ANC), so dass alle Umgebungsgeräusche
blockiert werden. Dann kann eine verbesserte Wahrnehmung der eigenen
Stimme erreicht werden, wenn eine Schätzung des Luftschalls der eigenen
Stimme durch das Gerät wiedergegeben wird, um das Gefühl eines
unverschlossenen Ohres zu erzeugen. Da ANC-Geräte jedoch in der Regel in
lauten Umgebungen getragen werden, ist die Schätzung dieses Signals eine
Herausforderung. Eine Möglichkeit, die natürliche Wahrnehmung
wiederherzustellen, besteht darin, den gedämpften Luftschall der Stimme
zu rekonstruieren und so eine natürliche Wahrnehmung zu erzeugen.
In dieser Arbeit wrid ein neuronales Netzwerk in ein ANC-System
integriert, um die Sprachkomponenten der Stimme des Sprechers von den
Umgebungsgeräuschen zu trennen. Nach Anwendung eines Equalizers zur
Berücksichtigung weiterer akustischer Einflüsse wird das entrauschte
Sprachsignal über einen Kopfhörerlautsprecher im Gehörgang
wiedergegeben. Im Vergleich zu bestehenden Sprachverbesserungssystemen
wird das Signal eines zusätzlichen Mikrofons an der Innenseite des
Kopfhörers als Nebeninformation berücksichtigt. Innerhalb einer
Messreihe werden die für das Training benötigten Daten mit Testpersonen
aufgenommen. Darüber hinaus werden gerätebezogene Übertragungsfunktionen
gemessen, die zusammen mit Ambisonics-Aufnahmen höherer Ordnung (HOA)
zur Vergrößerung der Trainingsdatenmenge verwendet werden können, was zu
1736 Stunden Audiodaten für 21 Testpersonen führt.
Eine Untersuchung verschiedener rekurrenter neuronaler Faltungsnetzwerke
zeigt insbesondere, dass die Verwendung des inneren Mikrofons sowohl zu
der gewünschten Störgeräuschreduktion als auch zu einer Verschlechterung
der Sprachqualität führt. Weitere Änderungen an der Netzarchitektur des
untersuchten Netzes führen zu erhöhten Werten bei
wahrnehmungsmotivierten Metriken. Darüber hinaus wird eine auf
Multimasking basierende Netzwerkerweiterung getestet, die in der Lage
ist, die Dämpfung von Störsignalen dynamisch durch einen einzigen
Parameter zu reduzieren, was zu vergleichbar hohen Ergebnissen führt.
Alle Interessierten sind herzlich eingeladen, eine Anmeldung ist nicht
erforderlich.
Allgemeine Informationen zum Kolloquium, sowie eine aktuelle Liste der
Termine des Kommunikationstechnischen Kolloquiums finden Sie unter:
http://www.iks.rwth-aachen.de/aktuelles/kolloquium
--
Irina Esser
Institute of Communication Systems (IKS)
RWTH Aachen University
Muffeter Weg 3a, 52074 Aachen, Germany
+49 241 80 26958 (phone)
ronkartz(a)iks.rwth-aachen.de
http://www.iks.rwth-aachen.de/