[Werkzeug] Ngram Viewer

Von Kristin Kopf

Beim Lan­guage Log wurde ja schon aus­führlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Kor­pus, das einen Auszug aus Google­Books darstellt, nach Wörtern oder Wortket­ten suchen und sich ihren Häu­figkeitsver­lauf anzeigen lassen. Dabei wird die Gebrauchs­fre­quenz errech­net, indem das Gesuchte (das n‑gram, wobei n für die Zahl der Wörter im Such­be­fehl ste­ht) durch die Gesamt­wortzahl des entsprechen­den Jahres geteilt wird.

Die Sache ist für uns aus vie­len tausend Grün­den prob­lema­tisch: wilde Textsorten­zusam­menset­zung des Kor­pus – aber für Englisch gibt es immer­hin Unterko­r­po­ra wie Fic­tion, Amer­i­can Eng­lish und British Eng­lish –, die Kor­pus­größe vari­iert stark, d.h. Funde zu einem rel­a­tiv frühen Zeit­punkt (z.B. 1800) schla­gen stärk­er zu Buche als später (z.B. 2000), auch wenn nor­mal­isiert wurde, …

Messer, Gabel, …

Ein paar mögliche Prob­leme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchge­spielt. Man kön­nte hier den Ein­druck erhal­ten, die Gabel trete am sel­tensten auf und das Mess­er sei enorm viel häu­figer (alle Dia­gramme führen direkt zur entsprechen­den Suchan­frage mit größeren Darstellungen):

Jet­zt ist es aber so, dass das Mess­er und der Löf­fel auch den Plur­al die Mess­er und die Löf­fel bilden, während wir bei Gabel im Plur­al die Gabeln haben. Auch die Suche nach “das Messer,die Gabel,der Löf­fel” hil­ft nicht aus dem Dilem­ma, denn nun haben wir bei Mess­er und Gabel den Nom­i­na­tiv und Akkusativ Sin­gu­lar, während bei Löf­fel zwar im Sin­gu­lar nur der Nom­i­na­tiv vor­liegt, im Plur­al aber noch dazu der Gen­i­tiv. Und “des Messers,der Gabel,des Löf­fels” zeigt zwar für Mess­er und Löf­fel ver­gle­ich­bare Größen (nur den Gen­i­tiv), aber für Gabel nicht (denn hier ist es Gen­i­tiv und Dativ)

Schließlich die Lösung: Dativ Plur­al: “den Messern,den Gabeln,den Löf­feln


Die Fre­quen­zen sind enorm gesunken: Während Mess­er in der ersten Anfrage zu Spitzen­zeit­en noch 0,001% aus­machte, kommt es im Dativ Plur­al nur noch auf 0,000009%. Der Unter­schied hat sich aber erhal­ten, mit Aus­nahme der rel­a­tiv hohen Gabel-Fre­quenz zu Beginn des Zeitraums.

Was mir bei der Spiel­erei allerd­ings nicht klarge­wor­den ist: Wie kann ich her­aus­find­en, ob der Unter­schied aus­sagekräftig ist? Das benutzte Kor­pus ist ja nicht iden­tisch mit Google­Books, d.h. eine Suche dort führt nicht zu densel­ben Ergeb­nis­sen. Prak­tis­cher­weise kann man sich die Dat­en run­ter­laden und so sehen, wie hoch die Zahlen für das jew­eilige Jahr sind, aber die Daten­menge ist so groß, dass ich irgend­wann aufgegeben habe, weil kein Pro­gramm so viele Dat­en anzeigen wollte. (NotePad++ hat’s mit Tricks gemacht, aber pro Datei hat mich das unge­fähr 10 Minuten gekostet – run­ter­laden, entzip­pen und öff­nen. Nach zwei von neun Dateien habe ich aufgegeben.)

Ach, und: Dass Mess­er auch in der Bedeu­tung ‘Gerät/Person, das/die etwas misst’ vorkom­men kann, ist mir bewusst. Ich glaube, dass es ver­nach­läs­sig­bar ist, denn meist sind das doch Zusam­menset­zun­gen (Gradmess­er, Wärmemess­er, …), aber getestet hab ich’s nicht.

Computer und sonstiges Lehngut

Nur indi­rekt kann man Sprachver­gle­iche machen, was ich beson­ders für neue Konzepte ganz span­nend finde. So zeigt ein Ver­gle­ich von Com­put­er zwis­chen Englisch (der Geber­sprache) und Deutsch, dass es im englis­chen Sprachraum unge­fähr zehn Jahre früher los­ging als bei uns:

Englisch

Deutsch

Und diesen Effekt sieht man auch bei Sprachen, die sich ihr eigenes Wort aus­gedacht haben, wie z.B. dem Franzö­sis­chen mit ordi­na­teur:


Ich wollte außer­dem ein paar Anglizis­men im Ver­gle­ich zeigen, aber man braucht welche, die unge­fähr die gle­iche Fre­quenz haben, son­st sieht man auf der Grafik nichts. Mit Com­put­er, Inter­net und Man­ag­er klappt’s ganz gut:


Und die Ein­führung der Piz­za in den deutschen Buch­markt sowie ihre recht kon­tinuier­lichen Pluralschwankungen:


Man kann bes­timmt noch tausend andere Spiel­ereien damit machen – ich bin ges­pan­nt, was in der näch­sten Zeit alles auftaucht!

Ver­tiefende Links:

[Edit: Mir ist aufge­fall­en, dass ich nur Beispiele habe, bei denen die Kur­ven gle­ich­bleiben oder ansteigen – als bis vor kurzem tot­geglaubtes Wort, dessen Spitzen­zeit­en zwis­chen 1860 und 1920 lagen, empfehle ich: Depesche. Und die großen Zeit­en von Telegramm sind wahrschein­lich wirk­lich vorbei.]

5 Gedanken zu „[Werkzeug] Ngram Viewer

  1. ke

    Zu der Sache mit NotePad++: Ich empfehle die Kom­man­dozeile und das Pro­gram­mieren! Ein kleines Python-Skript kön­ntest du zum Beispiel gut ein­set­zen, um die Frage zu klären.

    Antworten
    1. Kristin Beitragsautor

      Ja, (wenig­stens ein bißchen) Pro­gram­mierenkön­nen ste­ht ziem­lich weit oben auf mein­er Wei­h­nachtswun­schliste. Ich fürchte aber, dass ich es von da zu den Neu­jahrsvorsätzen ver­schieben muss. Egal wie: Ist für die nähere Zukun­ft eingeplant!

      Antworten
    1. Hagen

      Gott, Bibel, Liebe, Treue und der­gle­ichen haben übri­gens alle kurz nach ’45 einen extremen Peak. Sehr amüsantes Ding.
      Aber ich sollte ver­mut­lich lin­guis­tis­chen Fragestel­lun­gen nachge­hen, wenn ich hier dazu posten will.. 😉

      Antworten
    2. Kristin Beitragsautor

      *hehe*
      Neben einem Vor­na­men ist Hagen aber auch ein Nach­name und eine Stadt, und in ebendiesen Eigen­schaften tritt das Wort beson­ders oft auf, wenn man sich die ersten Google­Books-Seit­en anschaut. Vielle­icht gab es da 1910 und 1942 einen beson­ders pro­duk­tiv­en Hagen Hagen aus Hagen?

      (Das gilt übri­gens auch für meine Mess­er-Gabel-Löf­fel-Über­sicht: alle drei kom­men auch als Nach­na­men vor, wobei auf Löf­fel die gerin­ste Namen­trägerzahl ent­fällt. Wer weiß, was das mit den Dat­en gemacht hat!)

      Kristin kor­re­liert übri­gens pos­i­tiv mit der Zunahme von Inter­net (man kann sie lei­der nur nicht bei­de in ein Dia­gramm pack­en, son­st sieht man, wie belan­g­los Kristin ist) 😉

      Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.