Current Page:	Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: mmserver » Learning Units » Unit ID: 080zipf
Last Modified:	Tuesday, 2015-05-05 - 08:09:06

Tools:	Validate — Preview XML Preview HTML Preview PDF
Alternative:	Printable HTML

Title:	Zipfsches Gesetz
Abstract:	Für die Konzipierung eines Multimedia-on Demand Sevice ist wichtig zu wissen, mit welcher Wahrscheinlichkeit welches Multimedia Objekt aufgerufen wird. Aus Erfahrung weiß man, dass die Verteilung der Aufrufwahrscheinlichkeiten dem Zipfschen Gesetz gehorcht. Das Zipfsche Gesetz kommt ursprünglich aus der Linguistik, nach und nach erkannte man aber seine weit umfassende Gültigkeit.

Status:	content final ----TO DO: 1 Abb. draft - Bildbeschriftung(z.Z. mit Ignore ausgezeichnet)- Glossar und Akronymeinträge auszeichnen	Version:	2005-10-10
History:	2005-10-10 (Thomas Migl): Abstract hinzugefügt 2005-07-25 (Thomas Migl): Quellen in greybox importiert, LOD 3 hinzugefügt 2005-07-19 (Thomas Migl): Text+Formeln (GIF und XML importiert, LOD1 erstellt 2005-07-18 (Thomas Migl): LU angelegt, mit Textimport begonnen

Author 1:	Thomas Migl	E-Mail:	migl@ims.tuwien.ac.at
Author 2:	(empty)	E-Mail:	(empty)
Author 3:	(empty)	E-Mail:	(empty)
Author 4:	(empty)	E-Mail:	(empty)
Author 5:	(empty)	E-Mail:	(empty)
Organization:	Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/

Überblick

1

Entstehungsgeschichte des Zipfschen Gesetzes

Benannt nach Sprachwissenschaftler George Kinsley Zipf
Zipf untersuchte die statistische Verteilung von Wörtern in verschiedenen Sprachen

Ermittlung der Häufigkeit für jedes Wort
Ranking der Wörter nach deren Häufigkeit
Zipf erhielt so für jede Sprache eine " Verteilung der Worthäufigkeit"

Verblüffendes Ergebnis
- " Verteilung der Worthäufigkeit" bei allen Sprachen praktisch ident
- gleiches Ergebnis auch für " Verteilung der Buchstabenhäufigkeit"
Zipfsches Gesetz ist mathematische Formulierung dieser empirisch beobachtbaren Gesetzmäßigkeit

2

Entstehungsgeschichte des Zipfschen Gesetzes

Das Zipfsche Gesetz ist benannt nach dem amerikanischen Sprachwissenschaftler George Kinsley Zipf (1902-1950). Er untersuchte die statistische Verteilung von Wörtern in verschiedenen Sprachen. Seine Untersuchungen gingen von der Kenntnis aus, dass es in jeder Sprache Wörter gibt, die besonders oft, andere wieder weniger oft genutzt werden. Für seine Untersuchungen erstellte er nun ein Ranking der Wörter einer Sprache: Das am häufigsten verwendete Wort reihte er an die erste Stelle, das zweithäufigste an zwei Stelle und so weiter. Jedem Wort ordnete er zusätzlich dessen empirisch ermittelten Häufigkeitswert zu. So erhielt er eine „Verteilung der Worthäufigkeit“ einer Sprache. Er verglich nun die Verteilung der Worthäufigkeit unterschiedlicher Sprachen, und kam zu dem verblüffenden Ergebnis, dass diese für alle Sprachen praktisch ident ist. Weitere Untersuchungen zeigten auch, dass die Verteilung der Buchstabenhäufigkeit in den unterschiedlichen Sprachen der gleichen Gesetzmäßigkeit gehorcht. Die mathematische Formulierung dieser empirisch beobachtbaren Gesetzmäßigkeit wird als Zipfsches Gesetz (Zipf Law) bezeichnet.

Beispiel: Ermittlung von Rang und Worthäufigkeit

Zur Demonstration, wie man die Verteilung der Worthäufigkeit eines beliebigen Textes ermittelt, untersuchen wir den oberen Text unter „Entstehungsgeschichte des Zipfschen Gesetzes“.

Der Absatz besteht aus exakt 150 Wörtern. Die am häufigsten darin vorkommenden Wörter sind der, die, er. Sie kommen jeweils 6-mal vor. Ihnen wird der Rang 1-3 zugewiesen. Die Worthäufigkeit errechnet sich aus:

$<math><semantics><mrow><mi>P</mi><mo>=</mo><mfrac><mn>6</mn><mrow><mn>150</mn></mrow></mfrac><mo>=</mo><mn>0,04</mn></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

Auf dem vierten Rang folgt das Wort Verteilung. Es kommt insgesamt 4-mal vor.

$<math><semantics><mrow><mi>P</mi><mo>=</mo><mfrac><mn>6</mn><mrow><mn>150</mn></mrow></mfrac><mo>=</mo><mn>0,04</mn></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

5. Rang: Das Wort in (3-mal):

$<math><semantics><mrow><msub><mi>P</mi><mrow><mi>I</mi><mi>N</mi></mrow></msub><mo>=</mo><mfrac><mn>3</mn><mrow><mn>150</mn></mrow></mfrac><mo>=</mo><mn>0,02</mn></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

6. – 8. Rang: Die Wörter ist, von, und (jeweils 2-mal):

$<math><semantics><mrow><mi>P</mi><mo>=</mo><mfrac><mn>2</mn><mrow><mn>150</mn></mrow></mfrac><mo>=</mo><mn>0,013</mn></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

Etc.

Anmerkung zum Beispiel Worthäufigkeit

Zu beachten ist bei diesem Beispiel, dass es nur veranschaulichen soll, wie Rang und Worthäufigkeit ermittelt werden. Der Text ist viel zu kurz, um aus ihm allgemein gültige statistische Gesetzmäßigkeiten ableiten zu können.

Mathematsche Formulierung des Zipfschen Gesetzes

1

Formel für das Zipfsche Gesetz

$<math><semantics><mrow><msub><mi>P</mi><mi>i</mi></msub><mo>=</mo><mfrac><mi>c</mi><mrow><msup><mi>i</mi><mi>a</mi></msup></mrow></mfrac></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

errechnet sich aus:

$<math><semantics><mrow><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msub><mi>P</mi><mi>i</mi></msub></mrow></mstyle><mo>=</mo><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mfrac><mi>c</mi><mi>i</mi></mfrac></mrow></mstyle><mo>=</mo><mn>1</mn><mo>⇒</mo><mi>c</mi><mo>=</mo><mfrac><mn>1</mn><mrow><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mfrac><mn>1</mn><mi>i</mi></mfrac></mrow></mstyle></mrow></mfrac></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

2

Formel für das Zipfsche Gesetz

$<math><semantics><mrow><msub><mi>P</mi><mi>i</mi></msub><mo>=</mo><mfrac><mi>c</mi><mrow><msup><mi>i</mi><mi>a</mi></msup></mrow></mfrac></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

...Rang eines Wortes

...Häufigkeit des Wortes vom Rang

...ist ungefähr eins. Im einfachen Fall kann angenommen werden, dass exakt eins ist.

…ergibt sich wie folgt ( ist die Anzahl aller vorhandenen Wörter, wird als 1 angenommen):

$<math><semantics><mrow><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msub><mi>P</mi><mi>i</mi></msub></mrow></mstyle><mo>=</mo><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mfrac><mi>c</mi><mi>i</mi></mfrac></mrow></mstyle><mo>=</mo><mn>1</mn><mo>⇒</mo><mi>c</mi><mo>=</mo><mfrac><mn>1</mn><mrow><mstyledisplaystyle='true'><munderover><mo>∑</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mfrac><mn>1</mn><mi>i</mi></mfrac></mrow></mstyle></mrow></mfrac></mrow><annotationencoding='MathType-MTEF'></annotation></semantics></math>$

Zipfsches Gesetz in der Linguistik

1

Praktische Vorgangsweise

Untersuchung eines hinreichend langen deutschsprachigen Textes
- Für jedes Wort wird Häufigkeit ermittelt
- Wörter nach deren Häufigkeit gereiht
  - Das häufigste Wort wird auf Rang 1 gestellt
  - das zweit häufigste auf Rang 2 etc.

Verteilung der Worthäufigkeit in der deutschen Sprache

1. UND (0,084) – 2. DIE (0,054) – 3. DER (0,054) – 4. IN (0,022)– 5. WIR (0,017) – 6. ZU (0,016)– 7. FÜR (0,015)– 8. SIE (0,013)– 9. VON (0,013) – 10. DEN (0,012) – 11. DES (0,011)– 12. IST (0,011)– 13. EINE (0,010) - 14. NICHT (0,010)

Vergleich Verteilung der Worthäufigkeit/Zipfsches Gesetz

Diagrammerläuterung
- Blau Linie - Werte errechnet mit Zipfschen Gesetz
- Rot Linie - Empirisch ermittelte Werte
Diagrammdiskussion
- Rang kleiner 10 - ungenaue Näherung
- Rang größer 10 - sehr genaue Näherung
- Für sehr hohe Ränge - ungenaue Näherung (in Abbildung nicht ersichtlich)

2

Praktische Vorgangsweise

Man betrachte einen für eine statistische Untersuchung hinreichend langen deutschsprachigen Text, und untersucht, mit welcher Häufigkeit die verschiedenen Wörter darin vorkommen. Anschließend ordnet man die Wörter nach deren Häufigkeit. Das häufigste Wort wird auf Rang 1 gestellt, das zweit häufigste auf Rang 2 und sofort.

Verteilung der Worthäufigkeit in der deutschen Sprache

Im Folgenden Das Ranking der 14 häufigsten deutscher Wörter (in Klammer deren Worthäufigkeit):

1. UND (0,084) – 2. DIE (0,054) – 3. DER (0,054) – 4. IN (0,022)– 5. WIR (0,017) – 6. ZU (0,016)– 7. FÜR (0,015)– 8. SIE (0,013)– 9. VON (0,013) – 10. DEN (0,012) – 11. DES (0,011)– 12. IST (0,011)– 13. EINE (0,010) - 14. NICHT (0,010)

Vergleich Verteilung der Worthäufigkeit/Zipfsches Gesetz

Die Abbildung zeigt die Verteilung der Worthäufigkeiten eines deutschen Textes in Abhängigkeit vom Wort-Rang (rote Linie). Die Blaue Linie ist die Kurve, die sich durch das Zipfsche Gesetz ergibt. Aus dem Diagramm kann man erkennen, dass das Zipfsche Gesetz die Worthäufigkeit der ersten 10 Ränge ungenau, die der folgenden Ränge allerdings sehr präzise beschreibt. Es sei hier angemerkt, dass auch sehr hohe Ränge durch das Zipfsche Gesetz nur mehr unzureichend beschrieben werden.

Worthäufigkeit: rote Linie – Ranking deutsche Wörter; blaue Linie – Zipfsches Gesetz [zipf2005]

Zipfsches Gesetz jenseits der Linguistik

1

Allgemeine Bedeutung des Zipfschen Gesetzes

Grundprinzip von Zipf -
- Weniger Wörter werden sehr oft verwendet
- Viele Wörter werden selten verwendet
Zipfsche Gesetz auch außerhalb der Linguistik gültig
- Das Zipfschen Gesetz ist dabei eng verwandt mit
  - Pareto-Prinzip
  - 80:20 Regel

Pareto-Prinzip

Ein kleiner Teil von Elementen trägt einen großen Teil des Gesamtwertes
Ein großer Teil der Elemente trägt nur einen geringen Teil des Gesamtwertes

Die 80:20 Regel

20% der Elemente tragen zu 80% des Gesamtwertes bei
80% der Elemente tragen zu 20% des Gesamtwertes bei

Beispiele zur 80:20 Regel

Symbolsequenzen einer DNA
Aufwände bei Projekten
Wohlstandsverteilung auf die Weltbevölkerung
Größe von menschlichen Siedlungen
Dateigrößen im Internet
Aufrufhäufigkeit von Webseiten
Verteilung von Requests auf multimediale Dateien

2

Allgemeine Bedeutung des Zipfschen Gesetzes

Das Auffallende an der Zipfschen Häufigkeitsverteilung ist, dass in allen Sprachen nur sehr wenige Wörter sehr oft verwendet werden, viele Wörter hingegen nur selten. Es hat sich gezeigt, dass das Zipfsche Gesetz auch in vielen Bereichen außerhalb der Linguistik seine Gültigkeit hat. Das Zipfschen Gesetz ist dabei eng mit dem Pareto-Prinzip (80:20 Regel) verwandt.

Pareto-Prinzip

Das Pareto-Prinzip beschreibt die in vielen Bereichen beobachtbare Gesetzmäßigkeit, dass nur ein kleiner Teil von Elementen einen großen Teil des Gesamtwertes trägt, hingegen ein großer Teil der Elemente nur einen geringen.

Die 80:20 Regel

Das Pareto-Prinzip lässt sich gut durch die 80:20 Regel beschreiben:

20% der Elemente tragen zu 80% des Gesamtwertes bei, die restlichen 80% der Elemente nur 20%

Beispiele zur 80:20 Regel

Die 80:20 Regel ist in den unterschiedlichsten Bereichen wieder zu finden:

Symbolsequenzen einer DNA
Aufwände bei Projekten: 20% des Gesamtaufwandes erfüllt 80% des Projektziels, die restlichen 80% des Aufwandes nur 20 %
Wohlstandsverteilung auf die Weltbevölkerung
Größe von menschlichen Siedlungen - der Großteil der Menschen leben in wenig großen Städten, verhältnismäßig wenige Menschen leben in den vielen kleinen Dörfern
Dateigrößen im Internet
Aufrufhäufigkeit von Webseiten
Verteilung von Requests auf multimediale Dateien

3

Pareto-Prinzip

Weiterführender Link: Zipf, Power-laws, and Pareto - a ranking tutorial adam2002

Beispiele zur 80:20 Regel

Weiterführender Link: Zipf’s law and the Internet adam2002-1

Akronyme

DNA - Deoxyribonucleic Acid (Dexoxyribonukleinsäure)

Glossar

80:20 Regel – siehe „Pareto-Prinzip“

Linguistik – Sprachwissenschaft

Pareto-Prinzip –benannt nach dem Italiener Vilfredo Pareto. Das Pareto-Prinzip beschreibt die in vielen Bereichen beobachtbare Gesetzmäßigkeit, dass nur ein kleiner Teil von Elementen einen großen Teil des Gesamtwertes trägt, hingegen ein großer Teil der Elemente nur einen geringen.