forum-stimme, animiert Zur Startseite von forum-stimme.de
Übersicht über eine Vielfalt von
Themen im Bereich der menschlichen Stimme

Zu den Themenlisten
Wissen / Journal / Praxis
Heinz Stolze, zuletzt geändert am 15.8.2003

Das Thema dieser Seite ist die praktische Arbeit mit Spektren und Spektrogrammen im Bereich des Stimmtrainings, Sprechens und Singens. Sie besteht aus den Rubriken "Grundlagen" , "FAQ" (Frequently Asked Questions) und "Anwendungen". Die Seite wird kontinuierlich weiter ausgebaut.

Bitte schicken Sie Ihre Beiträge (Fragen, Hinweise, Tips, Erklärungen...) per Email.


Spektrum - Grundlagen:


* Was ein Spektrum ist

--- Eine kurze Einführung befindet sich im Arbeitsmaterial zum Workshop Klangkontakt

--- Grundlegende Ausführungen zur Spektraldarstellung (Fourierdarstellung), speziell für Stimmsignale, finden sich unter Frequenzdarstellung


* Grundlegende Parameter eines Spektrums

--- Samplingrate, Zeitfenster: siehe unten


* Was ein Spektrogramm ist

--- Akustisch gesehen

Man kann das Sonagramm sehr gut verstehen und anwenden, ohne sich überhaupt tiefer mit Akustik zu beschäftigen. Wenn Sie dies interessiert, klicken Sie sich von hier aus direkt durch nach --- Musikalisch gesehen.

Wer weiß, was ein Spektrum ist, kann sich leicht vorstellen, wie aus einer Folge von hintereinander berechneten Spektren ein Spektrogramm aufgebaut wird. Man gibt sich ein zeitliches Intervall vor , etwa 0,02 Sekunden, berechnet dann für eine nahtlos aneinandergelegte Folge solcher Zeitintervalle die Spektren und trägt das Ergebnis in einem Diagramm Frequenz (nach oben) über Zeit (nach rechts) auf. Dabei geht man wie folgt vor: Über jedem Intervall wird die Größe des Schallpegels in einem Farbcode dargestellt. Im allgemeinen wählt man Rot für einen hohen Pegel, Violett für einen tiefen (dazwischen Orange, Gelb, Grün, Blau), keine Färbung, wenn der Wert unter einem vorgegebenen Pegel liegt. Im Sonagramm wird die Zeitachse i.a. so skaliert, daß die Zeitintervalle nicht erkennbar sind und ein nahtloses Bild erscheint.

Die wichtigsten Einstellungen (Parameter) sind dabei: Länge des Zeitfensters (oben Intervall genannt), Anzahl der Signalabtastungen pro Sekunde (Samplingrate), Vorgabe der Zuordnung zwischen Farben und Schallpegelwerten (Empfindlichkeit).

Die Samplingrate (Sampling Frequency) bestimmt den auswertbaren Frequenzbereich. Dieser liegt zwischen 0 Hz und der halben Samplingrate. Beispiel: Bei einer Samplingrate von 44,1 kHz (üblich bei CD-Aufnahmen) ist der maximal auswertbare Frequenzbereich 0 bis 22,05 kHz.

Das Zeitfenster (Window) bestimmt die mögliche Frequenzauflösung. Die Auflösung gibt an, bis zu welchem Feinheitsgrad Strukturen noch erkennbar sind. Je größer das Zeitfenster, um so besser die Frequenzauflösung. Ein großes Zeitfenster läßt sich als eine entsprechend geringe Auflösung in der Zeit betrachten. So gilt: je besser die Auflösung in der Zeit, um so schlechter die Auflösung in der Frequenz und umgekehrt.

Anmerkung: Der zugrundeliegende mathematische Algorithmus beschreibt übrigens auch die bekannte Heisenbergsche Unschärferelation der Quantenmechanik: das Produkt der Unschärfe des Ortes und der Unschärfe des Impulses (Masse mal Geschwindigkeit) eines Teilchens ist konstant. Wenn der eine Wert groß ist, ist der andere also entsprechend klein.

Für die Praxis kann folgende Faustformel verwendet werden:

Auflösung in der Frequenz (Hz) = 1,5 / Länge des Zeitfensters (sec)

Der Zahlenfaktor 1,5 in dieser Relation hängt von der mathematischen Form des Zeitfensters ab. Die Formel gilt für das zumeist benutzte Hamming-Fenster. Hierauf soll an dieser Stelle zunächst nicht näher eingegangen werden.

Die Unschärferelation für Zeit und Frequenz läßt sich auch so formulieren: Man kann nicht gleichzeitig die Zeit und die Frequenz genau angeben. Will ich die Frequenz genau angeben, bräuchte ich ein langes Zeitfenster. Innerhalb dieses Fensters kann sich die Frequenz aber ändern, so daß ich nicht genau weiß, zu welcher Zeit die ermittelte Frequenz vorlag. Die als natürlich empfundene Vorstellung, daß Zeit und Frequenz (und damit auch Zeitpunkt des Erklingens und Tonhöhe) zwei unabhängig voneinander beliebig fein einstellbare Größen sind, ist eben unzutreffend. Für das Hören ist es von besonderer Bedeutung, daß die Gehörfunktion so beschrieben werden kann, daß eine bestimmte Zeitfensterlänge festgelegt wird. Sie beträgt etwa 0,05 Sekunden.

Üblicherweise verwendet man in der Stimmanalyse eine Frequenzauflösung, die die Darstellung der einzelnen Teiltöne ermöglicht (auch Schmalbandspektrum genannt). Beispielsweise: Zeitfenster 0,05 Sekunden, Frequenzauflösung (nach der Formel oben) 30 Hz.

Empfindlichkeitseinstellung: Für die Zuordnung zwischen Farbcodierung und Schallpegel sind in den gängigen Programmen üblicherweise mehrere Stufen wählbar, etwa "stark", "mittel", "schach". Bei "stark" führen bereits kleine Pegel zu merklicher Einfärbung (bei schwachen Signalen sinnvoll), bei "schach" sind deutlich höhere Pegel nötig um dieselben Färbungen hervorzurufen. Wenn man ein Signal genau auswerten möchte, ist es gegebenenfalls sinnvoll, Sonagramme mit zwei oder mehr Empfindlichkeitseinstellungen anzufertigen.

Weitere Hinweise finden sich im Text über Sonagramme, Seite 3.

--- Musikalisch gesehen

Wir Entwickeln eine Idee, wie man den Klang eines Tones graphisch darstellen kann und gelangen so zum Sonagramm: Erklärung von der Klangstruktur her

Zum Seitenanfang


FAQ


* Wie lassen sich Formantbereiche genau erfassen?

In Sonagrammen und Spektren lassen sich Formantbereiche oft nicht sehr genau erkennen. Was kann man tun, um genauer festzustellen, wo sie liegen.

Es ist zunächst zu klären, ob eine fest vorgegebene Aufnahme vorliegt, die man mit anderen mathematischen Algorithmen untersuchen möchte, oder ob man bei einer Person die Formanten lokalisieren möchte und dafür zusätzliche Aufnahmen machen kann.

Im ersten Fall kommt eine LPC-Auswertung in Frage. LPC heißt Linear Prediction Coding. Dieses Verfahren liefert eine "Hüllkurve" über ein Spektrum. Man kann oft genau erkennen, wo die Spitzen (Zentrum des Formant) liegen und wie breit die Formantbänder sind (Halbwertsbreite). Diese Daten können bei vielen Programme auch direkt numerisch dargestellt werden, etwa zur Weiterverarbeitung in Tabellenkalkulation oder anderen Verfahren. Auch das LPC-Verfahren ist aber kein "Wunderalgorithmus", je nach Einstellung des Paramters "Anzahl der benutzten Punkte" (Koeffizienten) variiert das Ergebnis. Bei hohen Tönen erhält man leicht die Lage der Teiltöne als vermeintliche Formantzentren. Insofern ist gerade beim apparativen Nachweis des Formanttunings in hoher Lage (bzw. Training durch Feedback) Vorsicht geboten!

Im zweiten Fall wird man andere Töne aufnehmen. Kann man sich auf die Grundidee einlassen, daß die Formantlagen unabhängig von der Phonation sind, also nur auf die Vokaltrakteinstellung zurückgehen, so bieten sich einige Möglichkeiten. Dabei ist stets vorausgesetzt, daß der Aufgenommene dieselbe Vokaltrakteinstellung beibehält, wie beim untersuchten Ton.

a) Den Ton in tieferer Lage singen. Die Teiltöne liegen dann im Frequenzbereich dichter, dementsprechend genauer sind Formantierungen zu orten.

b) ein Tonhöhenglissando um die Lage des untersuchten Tones. Dabei "rutschen" die Teiltöne durch den Formanten und man kann ihn nun besser verorten, da nun auch "Formantinformation" zwischen den Teiltönen angeboten wird.

c) bei gleichbleibender Vokaltrakteinstellung ein Ventiltönchen erzeugen. Das heißt: Luft anhalten und dann die Stimmlippen kurz aufspringen lassen. Dies muss man i.a. etwas üben, da man zunächst den Verschluß zu fest machen wird und die Öffnungsbewegung zu viel Muskelmaterial bewegt. Das Ventiltönchen ist um so besser, je minimaler der Aufwand beim Öffnen ist. Im Sonagramm ergibt sich ein vertikaler Streifen, dessen Farbverlauf die Formantlagen gut erkennen läßt.

d) bei gleichbleibender Vokaltrakteinstellung Strohbaß (Vocal Fry) singen. Das Stimmsignal ist nun nicht mehr streng periodisch. Daher ist das Spektrum nicht mehr auf Linien reduziert (siehe Arbeitsmaterial zum Workshop Klangkontakt, S. 4 ) . Somit sind Formantierungen genauer zu orten.

Als Unsicherheit dieser Methoden bleibt, daß wirklich gleichbleibende Vokaltrakteinstellungen bei verschiedenen Phonationsarten nicht leicht zu realisieren sind. Zwischen vermeintlicher und faktischer Gleichheit liegen oft deutliche Diskrepanzen vor.


* Erscheinen Formanten in Sonagrammen immer in der Farbe Rot?

Bei der Arbeit mit Sonagrammen sind Formanten meist anhand rot gefärbter Teiltonlinien zu erkennen. Ist das immer so?

Es liegt für die Präsentation von Formantstrukturen in Sonagrammen nahe, die Parameter so einzustellen, daß Teitonlinien in Formantbereichen rot gefärbt erscheinen. Dies muß aber nicht so sein und läßt sich auch nicht für alle Formanten realisieren. Wenn zum selben Zeitpunkt ein weiterer Formant vorhanden ist, in dem aber nicht so hohe Pegel vorliegen, wird er daran zu erkennen sein, daß dort etwa Gelbfärbung auftritt, während die Umgebung (höhere/tiefere Teiltonspuren) bläulich erscheint. Auch könnte der rot erscheinende Formant nur in Orange oder Gelb oder Grün auftreten, wenn man bei der Aufnahme den Volume-Knopf Verstärker schwächer eingestellt hätte. Das Vorliegen eines Formanten wird dadurch erkannt, daß in seiner Frequenz-Umgebung (also darunter und darüber) schwächere Pegel vorliegen.


* Was heißt FFT?

Im Zusammenhang mit Spektren findet man oft die Abkürzung FFT, was steht dahinter?

FFT heißt Fast Fourier Transform und ist ein mathematischer Algorithmus, mit dem ein Spektrum aus digital vorliegenden Daten des Signales (z.B. Schalldruck über der Zeit) mit besonders geringem Aufwand und dementsprechend schnell berechnet wird.

Die Ausgangsdaten für eine FFT sind die Messwerte (z.B. Schalldruck, bzw. Spannung des Mikrofonsignales), die als Zahlenfolge vorliegen. Sie werden bei Schallsignalen oft im Zeitabstand von jeweils einer 44100-tel Sekunde ermittelt (CD-Norm). Der "besondere Rechentrick" der FFT funktioniert nur, wenn als Ausgangsdaten ein Zahlensatz von 2 hoch n (mit n=1,2,3,...) Werten benutzt wird. Also: 2 oder 4 oder 8 oder 16 oder 32 etc.. Bei Auswertungen von Schallsignalen mit Computern werden typischerweise 256 oder 1024 oder 2048 Werte benutzt (typische Benennung: (Anzahl der) Punkte). Diese Werte sind in der Regel in entsprechenden Parameterfeldern oder Registerkarten einstellbar.

Aus der Wahl der Anzahl der Punkte und der Samplingrate ergibt sich die Länge des Zeitfensters, das für die Frequenzauflösung maßgeblich ist. Je mehr Werte, umso besser ist die Frequenzauflösung, siehe oben.

Zeitfensterlänge = Anzahl der Punkte / Samplingrate

Beispiel: 1024 Punkte bei 44,1 kHz Samplingrate ergeben eine Fensterlänge von 0,023 Sekunden = 23 Millisekunden. Die Frequenzauflösung ist somit 65 Hz gemäß Formel oben.

Das Ergebnis der FFT sind bei N Punkten Ausgangsdaten die Werte von Amplitude und Phase für N/2 Frequenzpunkte - insgesamt also wieder N Werte. Der dargestellte Frequenzbereich geht von ca. 0 Hz bis zur halben Frequenz der Samplingrate. (Genaugenommen liegt der erste Frequenzpunkt bei Samplingrate/N).

Zum Seitenanfang


Anwendungen:


* Intonationsverläufe

Im Sonagramm ist gerade an den Linien höherer Teiltöne sehr deutlich zu sehen, wie die Feinintonation variiert.

--- Einsetzen

Das Heraufziehen eines Tones ist sehr markant erkennbar. Man kann (sich) einen auf unerwünschte Art hochgezogenen Ton im Sonagramm visuell präsentieren (bei real-time Verfahren anhalten) und ihn dann mehrmals hintereinander vorspielen. Sobald das Gehör auf diese Spur gesetzt ist, wird man bewußter - i.a. besser einsetzen.

--- Schwankungen

Wer an der Perfektionierung der Atemdosierung arbeiten möchte erhält ein exzellentes Feedback über minimale Tonhöhenschwankungen.

--- Vibrato

Das Grundfrequenzvibrato (auf und ab der Periodendauer der Stimmlippenschwingungen) ist gut verfolgbar.

Bei sehr guten Sängern im klassichen Fach läuft das Vibrato bei Tonwechseln oft fast ungestört durch.

Der "Tonhöhenhub" des Vibratos kann wie folgt abgeschätzt werden: man sucht eine Teiltonlinie, die das Vibrato gut darstellt. Dann vergleicht man den Höhenabstand auf dem Bildschirm zwischen Minimum und Maximum der Vibratophase mit dem Abstand zur nächsthöheren Teiltonlinie. Der Abstand zwischen zwei Teiltonlinien entspricht stets einem bestimmten Intervall. So kann man die "Tonhöhenschankung" des Vibratos abschätzen.

Die folgenden Orientierungsintervalle reichen für eine Abschätzung aus:

- zwischen Teilton 4 und 5 eine große Terz

- zwischen Teilton 8 und 9: eine große Sekunde

- zwischen Teilton 16 und 17: eine kleine Sekunde

Anmerkung zum Abzählen der Teiltonlinien: Man zählt die Teiltonlinien von unten her durch. Oft werden für einige Teiltöne keine Linien im Sonagramm erscheinen. Man erkennt aber, daß sie fehlen, da ja im Sonagramm der Abstand von Teiltonlinie zu Teiltonlinie immer gleich groß ist - jedenfalls für stimmhafte Stimmlaute.

Anmerkung zur "Tonhöhenschwankung": Bei einem guten Vibrato (Periode um 5 HZ, Hub nicht viel mehr als ein Halbton, hört man keine Tonhöhenänderung, sondern empfindet das Vibrato als Klangqualität. Trotzdem kann man den Vibratohub mathematisch formal als Tonhöhenschwankung berechnen.

--- Tonwechsel

Man sieht sehr deutlich, welcher Tonhöhenweg von einem zum anderen Ton gegangen wird.

Typisch bei Männern: bei großen Intervallen nach unten (etwa ab Quarte) ein Überschießen in den zu tiefen Bereich mit nachfolgendem Anstieg auf den Zielwert.

Typisch bei Laien und auch bei Profis: beim Singen einer Tonleiter auf und ab wird das Aufsteigen jeweils schon etwas antizipiert, so daß sich statt "waagerechter Stufen" leicht ansteigende Stufen ergeben. Beim Absteigen ist kaum ein vergleichbarer Effekt zu erkennen.

Beim Singen von Literaturstellen kann das oft nicht wahrgenommene "Verschleifen" von Tönen sehr deutlich erkannt werden. Auch hier gilt: visuell präsentieren (bei real-time Verfahren anhalten) und dann mehrmals hintereinander vorspielen. Sobald das Gehör auf diese Spur gesetzt ist, wird man Tonübergänge bewußter - i.a. besser gestalten.

Zum Seitenanfang