forum-stimme, animiert Zur Startseite von forum-stimme.de
Übersicht über eine Vielfalt von
Themen im Bereich der menschlichen Stimme

Zu den Themenlisten
Wissen / Journal / Praxis
Heinz Stolze, Institut für Stimme und Kommunikation, Bremen

überarbeitet am 24.7.2003; eine am 30.3.2005 neu überarbeitete Version dieser Seite finden Sie im Bereich "errata vocologica" . > zur neuen Version dieser Seite

Zur Thematik: Zielsetzung * Das Problem mit der Frequenz und den Spektren

Das Konzept einer allgemeinverständlichen Einführung in Darstellungen, speziell im Bezug auf die Stimme: Die Erfassung der Realität in Darstellungen * Die Darstellungen in Auge und Ohr * Darstellungen von Ort und von Zeitverlauf * Hördemo zur Synthese (ein Konzept) * Hinterfragung der Frequenzdarstellung, ihre Anwendungsmöglichkeiten

FAQ/Diskussion


Zur Thematik

Zielsetzung
Unser Ausgangspunkt ist die Feststellung, daß der Frequenzbegriff in Büchern über die Stimme zumeist unbefriedigend definiert und benutzt wird. Somit fehlt den darauf aufbauenden Beschreibungen der Stimmfunktion und des Hörens eine klare begriffliche Grundlage.
Wir schlagen hier einen Ansatz vor, wie der Begriff der Frequenz grundlegend vermittelt werden kann.
Diskussionsbeiträge von Fachleuten und Lesern der entsprechenden Literatur sind willkommen.

Das Problem mit der Frequenz und den Spektren
In der Wissenschaft der menschlichen Stimme spielt der Begriff der Frequenz eine wesentliche Rolle. Eine sorgfältige Einführung in diesen Begriff ist in den bekannten Büchern über die Stimme nicht zu finden. Das gängige Denkmuster ist in etwa das folgende: Bei periodischen Schwingungen versteht man unter der Frequenz den Kehrwert der Periodendauer. Bei einer Stimmgabel für den Kammerton beispielsweise ist diese eine 440-tel Sekunde, die zugehörige Frequenz ist also 440 Hertz. In einem Laut der menschlichen Stimme sind stets viele verschiedene Frequenzen enthalten. Wie stark die verschiedenen Frequenzen beteiligt sind, wird durch ein Spektrum dargestellt. Dies ist eine Kurve, in der der Schallpegel über der Frequenz aufgezeichnet wird.

Dieser Zugang zum Spektrum und zum Frequenzbegriff läßt viele Fragen offen, auch wenn er ausführlicher dargestellt wird. Auch gelegentlich zu findende allgemeinverständliche Einführungen in die "Fourieranalyse" zeigen nicht deutlich auf, welche Bedeutung der Frequenzbegriff für die Stimme hat. Die Vorstellung eine "Analyse" - etwa in dem Sinne, daß das Ohr eine solche durchführe- ist zu eng gesehen und blockiert ein sachgemäßes Verständnis.

Um das Spektrum und damit die akustische Grundlage der Klänge in seinem Wesen zu verstehen, ist es nötig, sich mit dem Begriff der Darstellung zu befassen. Dieser Weg ist in Büchern zur Stimmwissenschaft zwar unüblich, andererseits aber elegant, keineswegs schwerer verständlich als andere dort behandelte Themen und auch im Sinne einer modernen Allgemeinbildung recht interessant.


Das Konzept einer allgemeinverständlichen Einführung in Darstellungen, speziell im Bezug auf die Stimme

Die Erfassung der Realität in Darstellungen
Um Schall aufzunehmen und wiederzugeben, wird er in Informationen umgewandelt, die dann etwa in Form von Rillen in einer Schellackplatte oder von Magnetisierung auf einem Band oder von elektrischen Ladungen in einem Mikrochip gespeichert werden können. Diese Informationen nennen wir eine Darstellung des Schalls. Sie können in einer physikalischen Form niedergelegt werden, die mit Akustik oder Schall nichts zu tun hat. Auch für die menschliche Wahrnehmung von Schall ist eine solche Darstellung unentbehrlich. Hierbei wird das Schallsignal in Form elektrischer und chemischer Strukturen im Nervensystem dargestellt. Weil wir mit "Stimme" vor allem das meinen, was wir hören, nicht aber den physikalischen Schalldruckverlauf, ist die Beschäftigung mit der Schall-Darstellung im Ohr wesentlich , um die Strukturen der Stimme zu verstehen. Dabei geht es hier um das Prinzip des Darstellens,weniger um die physikalische Realisierung.
---> zur Navigationsleiste

Die Darstellungen in Auge und Ohr
Zunächst vergleichen wir die prinzipiellen Gegebenheiten der Darstellungen in Auge und Ohr. Durch die Linse des Auges wird auf der Netzhaut ein zweidimensionales Bild erzeugt. Lichtempfindliche Zellen, Zäpfchen und Stäbchen, wandeln die Lichtstärke einzelner Punkte dieses Bildes in neuronale Impulse. Die lichtempfindlichen Zellen bilden ein Raster, und die Darstellung des Gesehenen besteht darin, daß zu jedem Punkt dieses Rasters ein Lichtstärkewert gehört. Je höher dieser ist, umso schneller feuern die zugehörigen Neuronen. Diese Sehinformation eines kurzen Momentes läßt sich somit als eine Reihe sovieler Zahlen, wie es lichtempfindliche Zellen gibt, darstellen, wobei jede Zahl die Feuerungsrate der zugehörigen Zelle angibt. Man wird bemerken, daß eine solche Darstellung natürlich nicht die volle Realität wiedergibt. Das Licht, das zwischen die Zäpfchen und Stäbchen fällt, wird nicht erfaßt. Und die Feuerungsrate ist auch kein hundertprozentig genaues Abbild der Lichtstärke. Eine vollkommene Darstellung ist prinzipiell nicht realisierbar. Zum einen lassen sich nicht genügend viele und genügend kleine lichtempfindliche Zellen realisieren, die das Lichtsignal genau genug übertragen. Zum anderen würde die Informationsmenge der Darstellung viel zu groß werden, um sie im Gehirn weiterzuverarbeiten. Weil in der Praxis realisierte Darstellungen also immer unvollständig sind, ist es wichtig, daß sie "geschickt" angelegt sind. Für den Menschen heißt das, daß sie die Informationen, die zum optimalen Erkennen und Handeln, auch zum Singen oder Sprechen nötig sind, möglichst gut übertragen. Für periodische Signale, wie sie im Schall der Stimme oft zu finden sind, ist die Darstellung in Frequenzen vorteilhaft.

In der Abbildung (Abb. 1 ) sind die Vorgänge im Auge skizziert. Die Netzhaut ist das Sensororgan, in ihm erfolgt die Umsetzung des optischen Bildes in eine neuronale Darstellung. Das Lichtmuster auf der Netzhaut ist uns vertraut, wir können uns ohne weiteres vorstellen, wie die optische Realität aussieht, die es erzeugt hat. Bei den vergleichbaren Prozessen im Ohr ist dies jedoch nicht so.

Der Schall gelangt durch den Gehörgang auf das Trommelfell, das er in Schwingungen versetzt (Abb.1). Diese werden durch die Gehörknöchelchen in in die Schnecke übertragen. In ihr sitzt das Sensororgan des Hörens, das Cortiorgan. Anatomie und Physiologie sind in medizinischen Fachbüchern näher beschriebenen. Hier geht es uns nur um die Art der Darstellung des Schalles auf diesem Sensororgan. In der Abbildung ist die typische Verteilung der Schwingungsamplituden für den Vokal "A" schematisch dargestellt. Diese Verteilung sagt allenfalls den Experten etwas, mit den normalen menschlichen Erfahrungen läßt sich nicht direkt einsehen, welcher Laut dargestellt ist. Letztendlich ist natürlich davon auszugehen, daß der zeitliche Verlauf des Schalldruckes irgendwie typisch für ein A ist. Man könnte lernen, aus ihm ein A zu erkennen und hätte auch eine gewisse Vorstellung, was dem in der physischen Realität zugrunde liegt. Diese kann man aber nicht so direkt als ein A empfinden, wie man die zu einem Kreis mit dreieckiger Aussparung gehörige Lichtverteilung als ein Dreieck empfindet. Das Bild auf der Netzhaut können wir verstehen, weil wir gut in räumlichen Dimensionen, hier in zweidimensionalen, denken können. Aber das Muster auf dem Cortiorgan ist unseren natürlicherweise erworbenen Denkkategorien für variierende Größen, nämlich dem Denken im Zeitlichen, fremd. Hier wird statt der Darstellung in der Zeit eine Alternative benutzt: eine Darstellung in Frequenzen. Bevor wir dies näher ausführen, wollen wir den Begriff der Darstellungen noch grundsätzlich erläutern. Wir beginnen dazu mit einem einfachen Beispiel aus der Geometrie, weil es direkt "einsichtig" ist und übertragen das Konzept dann auf die Darstellung von Schall.
---> zur Navigationsleiste


Darstellungen von Ort und von Zeitverlauf
Um einen Punkt auf einer Fläche darzustellen, wählt man normalerweise ein rechtwinkliges Koordinatensystem. Zum Beispiel x nach rechts , y nach oben. Die Werte der Koordinaten ergeben sich, indem man vom Punkt aus das Lot auf die Koordinate fällt und den auf ihr getroffenen Wert abliest. Man nennt das auch eine Projektion des Punktes auf die Koordinatenachse. Als Ergebnis kann sich dann z.B. ergeben: x= 1,5 cm , y=2,5 cm. Dies ist eine Darstellung des Punktes im System unserer Koordinaten. Man kann auch sagen, die Darstellungen in Koordinaten ist eine Projektion des Punktes auf unser Darstellungsgerüst, das Koordinatensystem. Wir bemerken noch folgendes: Hätten wir die Koordinaten anders gelegt, hätten wir andere Zahlenwerte für die Darstellung gefunden. Die Zahlenwerte einer Darstellung sind also keine Eigenschaften des Punktes an sich.

Wir wollen noch eine Betrachtung anstellen, die wohl etwas elementar wirken mag, für das Verständnis des Frequenzbegriffes aber wichtig ist. Das zuvor beschriebene, in Schulbüchern übliche, Darstellungssystem besteht im Grunde genommen aus zwei Basiseinheiten: zwei Pfeilen von der Länge einer Einheit (z.B. 1 cm), die senkrecht aufeinander stehen. Wir nennen sie x1 und x2 , siehe Abb. 2. Solche Basiselemente sind die Grundlage einer Darstellung. Der dargestellte Punkt läßt sich aus diesen Basiselementen wie folgt finden: Man multipliziert das erste Element mit dem Zahlenwert der ersten Koordinate und legt daran das zweite Basiselement, multipliziert mit dem Wert der zweiten Koordinate an. Mathematisch gesehen ist das eine Addition -hier Vektoraddition- der mit dem zugehörigen Koordinatenwert multiplizierten Basiselemente. So kommt man genau zu dem Punkt, der in diesem System dargestellt wurde.

Schall läßt sich an einer festen Stelle im Raum als ein zeitlicher Verlauf des Luftdruckes registrieren. Um einen solchen Verlauf über eine bestimmte Zeit hinweg in einer endlichen Menge an Information darzustellen, bedient man sich im allgemeinen eines Zeitrasters, wie es in Abb. 3 gezeigt ist (Zeitdarstellung). Auch dieses ist im wesentlichen eine Darstellung, wie sie oben beschrieben wurde. Die Basiselemente sind hier Zeitverläufe oder Funktionen, die zu einem bestimmten Zeitmoment den Wert 1 haben, ansonsten sind sie Null. Die Darstellung besteht in einer Reihe von Zahlen, entsprechend den Koordinaten im vorherigen Beispiel, je eine für jedes Basiselement. Der Wert der Zahl ist der Schalldruck zum Zeitpunkt der "Spitze" . Am Rande sei bemerkt, daß auch diese Ermittlung des "Koordinatenwertes" im Sinne der mathematischen Funktionentheorie als Projektion der vorgegebenen Funktion auf die Basisfunktion beschrieben werden kann. Die Rekonstruktion des Schallverlaufes aus der Darstellung geschieht hier nach dem gleichen Prinzip wie im geometrischen Beispiel: die Basiselemente mit den Koordinatenwerten multiplizieren und die Ergebnisse aufaddieren. Der rekonstruierte Verlauf entspricht insofern nicht der Realität, als die Werte zwischen den Rasterpunkten fehlen, die Darstellung ist nicht vollständig. Mathematisch gesehen ist eine vollständige Darstellung in der Zeit möglich, man müsste eine Kontinuum von Zeitpunkten benutzen, und würde dazu "unendlich viele" Punkte benötigen. Die Darstellung wäre im Gegensatz zu unserem zweidimensionalen Beispiel aus der Geometrie unendlich-dimensional. In eine real ausführbaren Darstellung muß man das Raster so eng machen, daß die unvollkommene zeitliche Auflösung nicht stört, andererseits aber so weit, daß die anfallende Datenmenge auch verarbeitet werden kann. Für die elektronische Speicherung und Rekonstruktion von Audiodaten hat sich ein Raster von 44100 Punkten pro Sekunde als Standard, etwa für CD´s etabliert. Bei der Wiedergabe werden die Lücken zwischen den Punkten glatt aufgefüllt.

Vor allem für mehr oder weniger periodische Signalverläufe, wie sie bei stimmhaften Lauten vorliegen, hat eine andere Darstellung viele Vorteile, nämlich die Frequenzdarstellung. Sie ist auch als Fourierdarstellung bekannt, so benannt nach dem französischen Mathematiker, der ihre theoretischen Grundlagen erforscht hat. Auf den vorangehenden Beispielen aufbauend ist es leicht zu verstehen, wie sie funktioniert. Die Basis ist folgende Bewandnis: ein vorgegebener Abschnitt eines zeitlichen Verlaufes, etwa des Schalldruckes, läßt sich als eine Summe von sinusförmigen Verläufen verstehen. Das heißt konkret: indem man mehrere sinusförmige Funktionen mit verschiedener Frequenz jeweils mit der richtigen Amplitude (siehe Abb.4 und die dort gegebenen Erklärungen) zusammenaddiert, läßt sich der Verlauf der Kurve darstellen.

Anmerkung zum Text unten in der Abbildung "die ausfallenden Frequenzen kommen eh nicht vor": siehe dazu unter Frequenzreihe.

Bezugnehmend auf die oben beschriebenen Darstellungen sind die benutzten sinusförmigen Funktionen die Basiselemente, die zu ihnen gehörigen Amplituden die Koordinaten. Eine "Koordinate" ist also hier eine Amplitude.

Der Einfachheit halber haben wir für unser Beispiel eine Kurve gewählt, die sich nur durch sinusförmige Anteile darstellen läßt. Wie in der Abbildung angemerkt, ist im allgemeinen für jede Frequenz eine Projektion auf sinus- und cosinusförmigen Verlauf nötig. Es gibt also zwei "Koordinaten" für jede Frequenz. Statt der Prokjetionen auf Sinus und Cosinus werden oft auch die Werte Betrag und Phasenlage benutzt.

Die Frequenzdarstellung eines Signalabschnittes wird oft als Spektrum oder spektrale Darstellung bezeichnet. Dies bezieht sich auf eine Analogie zum Licht. Weißes Licht enthält viele Frequenzen, wird die Lichtstrahlung in einzelne Frequenzen zerlegt, sieht man die Spektralfarben, die vom Regenbogen her bekannt sind.Von Rot über Orange, Gelb, Grün, Blau zu Violett hin ist die Frequenz ansteigend. ---> zur Navigationsleiste


Hördemo zur Synthese (ein Konzept)
Anhand von Tönen mit den entsprechenden Schalldruckverläufen wird hörbar gemacht, wie sich beim Aufaddieren der Synthese das Ergebnis immer mehr dem Klang des vorgegebenen Sägezahnverlaufes annähert.

Hinterfragung der Frequenzdarstellung, ihre Anwendungsmöglichkeiten
Anhand der Frequenzdarstellung ist es möglich, einen Schall in konkret fassbare klangbildende Elemente zu zerlegen, genau wie man eine bildliche Erscheinung in Teile zerlegen kann, die ihrerseits Teilbilder sind. Eine Zerlegung in Zeitpunkte -die Elemente der Zeitdarstellung- würde Teile liefern, die für sich allein nur als mehr oder weniger lautes Knacken zu hören sind. Das zeigt, daß die uns gewohnte Zeitdarstellung zur Erforschung von Klangphänomenen weniger geeignet ist.

Die Frequenzdarstellung ermöglicht zusammen mit der modernen Informationstechnologie Anwendungen, deren Realisierbarkeit vor wenigen Jahrzehnten nicht vorstellbar war. Im technischen Bereich etwa: Text in Sprache verwandeln und umgekehrt Gesprochenes in Text, oder Sprecher zu identifizieren. Die Auswirkung auf die Stimmkunst und die Musik sind derzeit gar nicht absehbar. Man könnte sie mit denen vergleichen, die aus der Erfindung der Notation von Melodien folgten: komplexeres Komponieren und mehrstimmiges Musizieren wurden ermöglicht und eine zuvor undenkbare Verbreitung von Musik konnte sich über die Noten entwickeln. Allerdings sind auch die Gefahren einer "synthetischen Armut" , der Aufhebung der Authetizität von Schallaufzeichnungen und die vielen unerwünschten Facetten hemmungsloser Kommerzialisierung zu sehen.

Gerade im Hinblick auf die mögliche künstlerische Bedeutung ist eine kurze Betrachtung der Hintergründe von Darstellungen angemessen. Wenn eine sich ändernde Größe wie der Schalldruck in Frequenzen dargestellt wird, so ist dies im Prinzip einer Zeitdarstellung, wie wir sie gewöhnt sind, gleichberechtigt. Beide können zumindest theoretisch vollständige Darstellungen der Realität sein. Dazu müsste das Darstellungsraster, also die Zeitpunkte oder die Frequenzen kontinuierlich gedacht werden - kein Problem für den Mathematiker. Mit folgendem Aspekt muß man sich erst vertraut machen: wird die Frequenzdarstellung gewählt, so gibt es im Bereich dieser Darstellung keine Zeit mehr. Die Vorstellungen von vorher und nachher sind nicht anwendbar. Somit wird auch die gewohnte kausale Interpretation der Realität in Form von Ereignisketten hinfällig. Die Zeit ist also zur Darstellung eines vorgegebenen Ausschnittes der Realität nicht unbedingt nötig. Sie ist so gesehen also keine Eigenschaft einer abgeschlossen vorliegenden Realität selbst sondern eine Art ihrer Beschreibung. Letztendlich ist auch der Klang, den wir hören keine physikalische Realität. Die Klangstrukturen hängen in einer Art und Weise von der Darstellung des Schalles im Ohr ab, die später noch genau beschrieben wird. Trotz der Verschiedenheit des Wesens von gehörtem Klang und phsikalisch vorliegendem Schall oder auch gerade deswegen ist die Beschäftigung mit den physikalischen Strukturen, die den Klang hervorrufen, und mit ihrer Beziehung zu Kommunikation und Ästhetik eines der interessantesten Themen des beginnenden 21. Jahrhunderts.

Die obige Aussage, daß bei der Frequenzdarstellung die Zeit bedeutungslos wird, muß für das Hören genauer hinterfragt werden, da wir ja zeitlich hören können. Die Erklärung ist: es liegt eine gemischte Art der Darstellung vor. Sozusagen im Feinen, bei Ereignissen, die sich ganz schnell abspielen, wird die Frequenzdarstellung benutzt. Solche schnellen Abläufe sind klangbildend. Im "Gröberen" wird die Zeitdarstellung benutzt. Wie das genauer zu verstehen ist, und welche Vorteile das hat, ist ein Thema für sich, das hier nicht weiter behandelt wird.

Zu den Betrachtungen über Darstellungen gehört auf jeden Fall die Frage: wie sieht es denn nun aus, wenn die Darstellungen nicht vollständig sind. Auch hier ist zwecks leichter Einsicht ein Blick in die bildliche Darstellung ganz hilfreich. Auch zur Darstellung von Bildern kann man die Frequenzdarstellung -nun in sinusförmigen räumlichen Schwärzungs- oder Farbverläufen- wählen. Das so entstehende "Dia" nennt man Hologramm. Wenn man ein Hologramm zerbricht und mit einer Hälfte das Bild reproduziert, erscheint wieder das gesamte Bild. Allerdings hat es sich verändert. Wenn die abgebrochene Seite beispielsweise vor allem hohe Frequenzen enthalten hat, wird die Auflösung schlechter. Allgemein gesagt: in der Frequenzdarstellung erhält man auch mit nur einer oder wenigen Frequenzen das gesamte Bild , aber die Zeichnungsqualität leidet. Beim konventionellen Dia mit der üblichen Darstellung im Raum, kann mit einem abgebrochenen Teil eben nur ein Teil des Bildes rekonstruiert werden, aber die Zeichnungsqualität bleibt im wesentlichen bestehen. Im Bereich des Schalles: eine Frequenzdarstellung, die nur einen Ausschnitt von Frequenzen enthält, liefert eine Reproduktion über die gesamte Dauer, aber mit mehr oder weniger "verfärbtem Klang", eine Zeitdarstellung, die auf einen Ausschnitt beschränkt ist, nur diesen, aber im wesentlichen mit voller Abbildungsqualität.
Für die Praxis ist die Frage interessant, welche Einschränkungen sich durch die Beschränkung auf ein Darstellungsraster ergeben. Bei der Zeitdarstellung ist evident: es werden die Zustände zwischen den Rasterpunkten nicht erfaßt. Was heißt das für die Klangqualität? Es werden nur Frequenzen unterhalb eines bestimmten Grenzwertes gut wiedergegeben.

Wird im Frequenzbereich ein Raster mit gleichgroßen Abständen von Frequenz zu Frequenz benutzt, so können damit alle periodischen Signale mit der Grundfrequenz der tiefsten Frequenz des Rasters vollständig dargestellt werden. Berücksichtigt man noch, daß für das Hören nur Frequenzen eine Rolle spielen, die im hörbaren Bereich von ca 20 Hz bis ca 16000 Hz liegen, so ist nur eine bestimmte Anzahl von Frequenzen nötig, um das Signal komplett darzustellen. Beispiel: ein periodischer Ton hat die Grundfrequenz 400 Hz. Der hörbare Anteil liegt auf den Frequenzen 400/800/1200/1600/2000 etc bis 20000 Hz. Das sind 50 Frequenzen. Indem man für jede Frequenz Amplitude und Phasenlage ermittelt -insgesamt 100 Zahlenwerte- kann man den hörbaren Anteil exakt darstellen. In der Zeitdarstellung ist es unmöglich, einen periodischen Druckverlauf (Ton) mit einer endlichen zahl von Stürtzpunkten exakt darzustellen. Dies zeigt, daß die Frequenzdarstellung für periodische Signale -entsprechend den stimmhaften Lauten- sehr vorteilhaft ist.

Ein Aspekt sei noch erwähnt, der zum Nachdenken anregt: Wie sieht es aus, wenn man sich zu sehr konzentriert, eben auf nur ein Element, statt auf das Ganze, sozusagen Spezialist und nicht Generalist ist. Wenn man nur einen Zeitpunkt herausgreift (ein Signal erzeugt, daß nur in einem Moment an, sonst immer aus ist), so stellt sich diese "Konzentration im Zeitlichen" im Frequenzlichen so dar, daß alle Frequenzen -ein Kontinuum von Frequenzen- zu diesem einen Zeitpunkt gehören (das Spektrum des Signales ist für alle Frequenzen ungleich Null). Greift man sich umgekehrt nur eine Frequenz heraus, so entspricht dies im Zeitlichen einer Sinusfunktion, die geht per Definitionen von minus Unendlich bis plus Unendlich, die gesamte "zeitliche Unendlichkeit" ist beteiligt. Statt spezialisiert zu denken, soll man ganzheitlich denken - wird oft gesagt. Aber wenn die Spezialisierung unter einem andereren Blickwinkel -sprich in anderer Darstellung- ein Allgemeinbezug ist, und ein Allgemeinbezug wiederum in einer anderen Darstellung als Spezialisierung erscheint, dann ist eine solche Aussage als allgemeinverbindliche Forderung wertlos. Was wirklich hilft, ist die Fähigkeit, die Darstellung wechseln zu können und die Ergebnisse aufeinander beziehen zu können. Diese Fähigkeit, Erscheinungen und Prozesse in verschiedenen Darstellungen zu verstehen, ist erforderlich, um eine klare Vorstellung von der Stimmproduktion zu erreichen . Auch wenn man sich ernsthaft mit der Frage beschäftigen möchte, was den Stimmklang ausmacht, den wir hören, ist diese Fähigkeit unumgänglich.
---> zur Navigationsleiste

FAQ/DISKUSSION