Jetzt vermehrt und verbessert: Der Ngram-Viewer

Das zugrundeliegende Korpus des Ngram-Viewers von Google ist vor kurzem verbessert worden. Damit eröffnen sich faszinierende neue Suchmöglichkeiten, von denen ich drei ganz kurz vorstellen möchte – in der Hoffnung, dass sich meine Studierenden nicht herverirren, die sollen das nämlich alles in einer Weihnachtsferienhausaufgabe selbst rausfinden:

Der Aufstieg des Computers: Sprachübergreifende Vergleiche

Nennform für ‘Computer’ im Englischen, Deutschen und Französischen. Suchabfrage: computer:eng_2012,Computer:ger_2012,ordinateur:fre_2012

Während man in der 2009er-Version nur innerhalb einer Sprache suchen konnte, lassen sich jetzt auch sprachübergreifende Vergleiche anstellen. Hier musste ich also noch drei Grafiken hintereinander erstellen, jetzt kann die Frequenz des Wortes für ‘Computer’ im Englischen, Deutschen und Französischen (und einigen weiteren Sprachen) auf einmal angezeigt werden.

Dazu gibt man nach dem gesuchten Wort das Kürzel des Subkorpus ein, in dem man suchen will: :eng_2012 für Englisch, :ger_2012 für Deutsch etc. (Eine Liste findet sich hier unter »Corpora«.)

Lästige Suffixe in den Griff bekommen: Mit Operatoren

Lexem für ‘Computer’ im Englischen, Deutschen und Französischen. Suchabfrage: (computer+computers:eng_2012), (Computer+Computers+Computern:ger_2012),(ordinateur+ordinateurs:fre_2012)

Aber es wird noch besser: Während man früher pro Kurve nur eine Wortform anzeigen lassen konnte, gibt es jetzt Kombinationsmöglichkeiten. Die obige Kurve lässt sich also mit noch mehr Daten füttern: Neben der Singularform können auch die Pluralformen (computers, ordinateurs) und die verschiedenen Kasus (Computers, Computern) berücksichtigt werden. (Eine Liste findet sich hier unter »Ngram Compositions«.)

Das ermöglicht uns erst richtige Vergleichbarkeit der Formen: Zuvor haben wir ja alle Singularformen im Englischen (computer) und Französischen (ordinateur) den deutschen Formen für Nominativ, Akkusativ und Dativ Singular sowie Nominativ, Genitiv und Akkusativ Plural (der, den, dem; die, der, die Computer) gegenübergestellt, das war ziemlich unsauber.

Das Es, nicht Es: POS-Tagging

Die englische Abkürzung POS steht für parts of speech, das sind Wortarten. Wenn ein Korpus POS-Tagging hat, dann wurde jedem Wort die Information hinzugefügt, ob es ein Substantiv, Adjektiv, Verb etc. ist – und man kann danach auch suchen. Das ist besonders fürs Englische sehr, sehr sinnvoll, wo man keine Unterscheidung durch Groß- und Kleinschreibung hat und generell viel Konversion betreibt (verbing weirds language). So heißt flood ‘Flut’ und to flood ‘fluten’, erst mit POS lassen sie sich unterscheiden. (Eine Liste der Wortarten findet sich hier unter »Part-of-speech Tags«.)

Auch im Deutschen kann die Annotation nach Wortarten ~~Leben retten~~ vieles vereinfachen. Diese Suche nach der substantivischen Verwendung von Ich und Es wäre zum Beispiel sonst nicht möglich gewesen, weil die Pronomen dazwischengefunkt hätten.

Man kann aber nicht nur nach konkreten Wörtern einer bestimmten Wortart suchen, sondern auch nach allen Angehörigen der entsprechenden Wortart zusammen. Ich habe ja mal versucht, die Zuverlässigkeit der Daten für frühere Jahrhunderte zu bestimmen – das geht nun viel, viel leichter, man kann z.B. einfach die Häufigkeit von Substantiven generell abfragen. Daraus ergibt sich dann, erwartbar, dass die Daten fürs Englische besser sind (ab 1690 scheinen sie recht zuverlässig, fürs Deutsche erst ab 1740):

Relative Häufigkeit von Substantiven in deutschen und englischen Büchern. Suchabfrage: _NOUN_:ger_2012,_NOUN_:eng_2012

Bei dieser Annotation muss man allerdings ein bißchen vorsichtig sein: Sie wurde automatisch gemacht, anders geht das bei so großen Datenmengen auch gar nicht. Fürs moderne Englisch (also nicht für die frühen Jahrhunderte) liegt die Zuverlässigkeit bei ca. 95% Prozent, fürs Deutsche bei ungefähr 90% oder etwas höher.

5 Gedanken zu „Jetzt vermehrt und verbessert: Der Ngram-Viewer“

Pingback: Gute Vorsätze 2013, Teil 6: Google Ngram Viewer | Erbloggtes
Dieter 7. Januar 2013 um 00:57

Ich werde mal versuchen, den abnehmenden Gebrauch der Phrase “Das tut man nicht” damit zu ergründen. Stattdessen wurde “Das muß jeder für sich selbst entscheiden” gesagt. Oder herausfinden, seit wann “Ich bringe die Kinder zur Schule” häufiger gesagt/geschrieben wurde. Vor 30 Jahren gingen Kindern nämlich einfach noch selbst zur Schule. Aber ob Bücher das beste Medium für meine Recherche sind?

Antworten ↓
Mihael 9. Januar 2013 um 02:10

Sollte bei dem letzten Schaubild nicht eher “Suchabfrage: _NOUN_:ger_2012,_NOUN_:eng_2012” in der Bildunterschrift stehen?

Antworten ↓
1. Kristin Kopf Beitragsautor9. Januar 2013 um 11:06
  
  Ja, allerdings — und verlinkt ist es auch auf die falsche Suche. Kommt davon, wenn man zu viel rumprobiert … wird sofort geändert, herzlichen Dank für den Hinweis!
  
  Antworten ↓
Pingback: Islamismus / Islamisten. Eine kurze Begriffsgeschichte | Sprachpunkt

Schreibe einen Kommentar Antworten abbrechen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.