Current Page: | Greybox » Authoring » Course ID: medieninformatik » Modules » Module ID: mmserver » Learning Units » Unit ID: 080zipf |
---|---|
Last Modified: | Tuesday, 2015-05-05 - 08:09:06 |
Tools: | Validate — Preview XML Preview HTML Preview PDF |
Alternative: | Printable HTML |
Title: | Zipfsches Gesetz | ||
---|---|---|---|
Abstract: | Für die Konzipierung eines Multimedia-on Demand Sevice ist wichtig zu wissen, mit welcher Wahrscheinlichkeit welches Multimedia Objekt aufgerufen wird. Aus Erfahrung weiß man, dass die Verteilung der Aufrufwahrscheinlichkeiten dem Zipfschen Gesetz gehorcht. Das Zipfsche Gesetz kommt ursprünglich aus der Linguistik, nach und nach erkannte man aber seine weit umfassende Gültigkeit. | ||
Status: |
content final ----TO DO: 1 Abb. draft - Bildbeschriftung(z.Z. mit Ignore ausgezeichnet)- Glossar und Akronymeinträge auszeichnen |
Version: | 2005-10-10 |
History: | 2005-10-10
(Thomas Migl): Abstract hinzugefügt 2005-07-25 (Thomas Migl): Quellen in greybox importiert, LOD 3 hinzugefügt 2005-07-19 (Thomas Migl): Text+Formeln (GIF und XML importiert, LOD1 erstellt 2005-07-18 (Thomas Migl): LU angelegt, mit Textimport begonnen |
Author 1: | Thomas Migl | E-Mail: | migl@ims.tuwien.ac.at |
---|---|---|---|
Author 2: | (empty) | E-Mail: | (empty) |
Author 3: | (empty) | E-Mail: | (empty) |
Author 4: | (empty) | E-Mail: | (empty) |
Author 5: | (empty) | E-Mail: | (empty) |
Organization: | Technische Universität Wien; Institut für Softwaretechnik und Interaktive Systeme; Arbeitsgruppe für Interaktive Multimediale Systeme; http://www.ims.tuwien.ac.at/ |
Überblick1Entstehungsgeschichte des Zipfschen Gesetzes
2Entstehungsgeschichte des Zipfschen GesetzesDas Zipfsche Gesetz ist benannt nach dem amerikanischen Sprachwissenschaftler George Kinsley Zipf (1902-1950). Er untersuchte die statistische Verteilung von Wörtern in verschiedenen Sprachen. Seine Untersuchungen gingen von der Kenntnis aus, dass es in jeder Sprache Wörter gibt, die besonders oft, andere wieder weniger oft genutzt werden. Für seine Untersuchungen erstellte er nun ein Ranking der Wörter einer Sprache: Das am häufigsten verwendete Wort reihte er an die erste Stelle, das zweithäufigste an zwei Stelle und so weiter. Jedem Wort ordnete er zusätzlich dessen empirisch ermittelten Häufigkeitswert zu. So erhielt er eine „Verteilung der Worthäufigkeit“ einer Sprache. Er verglich nun die Verteilung der Worthäufigkeit unterschiedlicher Sprachen, und kam zu dem verblüffenden Ergebnis, dass diese für alle Sprachen praktisch ident ist. Weitere Untersuchungen zeigten auch, dass die Verteilung der Buchstabenhäufigkeit in den unterschiedlichen Sprachen der gleichen Gesetzmäßigkeit gehorcht. Die mathematische Formulierung dieser empirisch beobachtbaren Gesetzmäßigkeit wird als Zipfsches Gesetz (Zipf Law) bezeichnet. Beispiel: Ermittlung von Rang und WorthäufigkeitZur Demonstration, wie man die Verteilung der Worthäufigkeit eines beliebigen Textes ermittelt, untersuchen wir den oberen Text unter „Entstehungsgeschichte des Zipfschen Gesetzes“. Der Absatz besteht aus exakt 150 Wörtern. Die am häufigsten darin vorkommenden Wörter sind der, die, er. Sie kommen jeweils 6-mal vor. Ihnen wird der Rang 1-3 zugewiesen. Die Worthäufigkeit errechnet sich aus: Auf dem vierten Rang folgt das Wort Verteilung. Es kommt insgesamt 4-mal vor. 5. Rang: Das Wort in (3-mal): 6. – 8. Rang: Die Wörter ist, von, und (jeweils 2-mal): Etc. Anmerkung zum Beispiel WorthäufigkeitZu beachten ist bei diesem Beispiel, dass es nur veranschaulichen soll, wie Rang und Worthäufigkeit ermittelt werden. Der Text ist viel zu kurz, um aus ihm allgemein gültige statistische Gesetzmäßigkeiten ableiten zu können. Mathematsche Formulierung des Zipfschen Gesetzes1Formel für das Zipfsche Gesetzerrechnet sich aus: 2Formel für das Zipfsche Gesetz...Rang eines Wortes ...Häufigkeit des Wortes vom Rang ...ist ungefähr eins. Im einfachen Fall kann angenommen werden, dass exakt eins ist. …ergibt sich wie folgt ( ist die Anzahl aller vorhandenen Wörter, wird als 1 angenommen): Zipfsches Gesetz in der Linguistik1Praktische Vorgangsweise
Verteilung der Worthäufigkeit in der deutschen Sprache1. UND (0,084) – 2. DIE (0,054) – 3. DER (0,054) – 4. IN (0,022)– 5. WIR (0,017) – 6. ZU (0,016)– 7. FÜR (0,015)– 8. SIE (0,013)– 9. VON (0,013) – 10. DEN (0,012) – 11. DES (0,011)– 12. IST (0,011)– 13. EINE (0,010) - 14. NICHT (0,010) Vergleich Verteilung der Worthäufigkeit/Zipfsches Gesetz
2Praktische VorgangsweiseMan betrachte einen für eine statistische Untersuchung hinreichend langen deutschsprachigen Text, und untersucht, mit welcher Häufigkeit die verschiedenen Wörter darin vorkommen. Anschließend ordnet man die Wörter nach deren Häufigkeit. Das häufigste Wort wird auf Rang 1 gestellt, das zweit häufigste auf Rang 2 und sofort. Verteilung der Worthäufigkeit in der deutschen SpracheIm Folgenden Das Ranking der 14 häufigsten deutscher Wörter (in Klammer deren Worthäufigkeit): 1. UND (0,084) – 2. DIE (0,054) – 3. DER (0,054) – 4. IN (0,022)– 5. WIR (0,017) – 6. ZU (0,016)– 7. FÜR (0,015)– 8. SIE (0,013)– 9. VON (0,013) – 10. DEN (0,012) – 11. DES (0,011)– 12. IST (0,011)– 13. EINE (0,010) - 14. NICHT (0,010) Vergleich Verteilung der Worthäufigkeit/Zipfsches GesetzDie Abbildung zeigt die Verteilung der Worthäufigkeiten eines deutschen Textes in Abhängigkeit vom Wort-Rang (rote Linie). Die Blaue Linie ist die Kurve, die sich durch das Zipfsche Gesetz ergibt. Aus dem Diagramm kann man erkennen, dass das Zipfsche Gesetz die Worthäufigkeit der ersten 10 Ränge ungenau, die der folgenden Ränge allerdings sehr präzise beschreibt. Es sei hier angemerkt, dass auch sehr hohe Ränge durch das Zipfsche Gesetz nur mehr unzureichend beschrieben werden. Worthäufigkeit: rote Linie – Ranking deutsche Wörter; blaue Linie – Zipfsches Gesetz [zipf2005] Zipfsches Gesetz jenseits der Linguistik1Allgemeine Bedeutung des Zipfschen Gesetzes
Pareto-Prinzip
Die 80:20 Regel
Beispiele zur 80:20 Regel
2Allgemeine Bedeutung des Zipfschen GesetzesDas Auffallende an der Zipfschen Häufigkeitsverteilung ist, dass in allen Sprachen nur sehr wenige Wörter sehr oft verwendet werden, viele Wörter hingegen nur selten. Es hat sich gezeigt, dass das Zipfsche Gesetz auch in vielen Bereichen außerhalb der Linguistik seine Gültigkeit hat. Das Zipfschen Gesetz ist dabei eng mit dem Pareto-Prinzip (80:20 Regel) verwandt. Pareto-PrinzipDas Pareto-Prinzip beschreibt die in vielen Bereichen beobachtbare Gesetzmäßigkeit, dass nur ein kleiner Teil von Elementen einen großen Teil des Gesamtwertes trägt, hingegen ein großer Teil der Elemente nur einen geringen. Die 80:20 RegelDas Pareto-Prinzip lässt sich gut durch die 80:20 Regel beschreiben: 20% der Elemente tragen zu 80% des Gesamtwertes bei, die restlichen 80% der Elemente nur 20% Beispiele zur 80:20 RegelDie 80:20 Regel ist in den unterschiedlichsten Bereichen wieder zu finden:
3Pareto-PrinzipWeiterführender Link: Zipf, Power-laws, and Pareto - a ranking tutorial adam2002 Beispiele zur 80:20 RegelWeiterführender Link: Zipf’s law and the Internet adam2002-1 |
Akronyme DNA - Deoxyribonucleic Acid (Dexoxyribonukleinsäure)
Glossar 80:20 Regel – siehe „Pareto-Prinzip“ Linguistik – Sprachwissenschaft Pareto-Prinzip –benannt nach dem Italiener Vilfredo Pareto. Das Pareto-Prinzip beschreibt die in vielen Bereichen beobachtbare Gesetzmäßigkeit, dass nur ein kleiner Teil von Elementen einen großen Teil des Gesamtwertes trägt, hingegen ein großer Teil der Elemente nur einen geringen. |