Jetzt vermehrt und verbessert: Der Ngram-Viewer

Das zugrun­deliegende Kor­pus des Ngram-View­ers von Google ist vor kurzem verbessert wor­den. Damit eröff­nen sich faszinierende neue Such­möglichkeit­en, von denen ich drei ganz kurz vorstellen möchte – in der Hoff­nung, dass sich meine Studieren­den nicht herverir­ren, die sollen das näm­lich alles in ein­er Wei­h­nachts­fe­rien­hausauf­gabe selb­st raus­find­en:

Der Aufstieg des Computers: Sprachübergreifende Vergleiche

Nen­n­form für ‘Com­put­er’ im Englis­chen, Deutschen und Franzö­sis­chen. Such­abfrage: computer:eng_2012,Computer:ger_2012,ordinateur:fre_2012

Während man in der 2009er-Ver­sion nur inner­halb ein­er Sprache suchen kon­nte, lassen sich jet­zt auch sprachüber­greifende Ver­gle­iche anstellen. Hier musste ich also noch drei Grafiken hin­tere­inan­der erstellen, jet­zt kann die Fre­quenz des Wortes für ‘Com­put­er’ im Englis­chen, Deutschen und Franzö­sis­chen (und eini­gen weit­eren Sprachen) auf ein­mal angezeigt wer­den.

Dazu gibt man nach dem gesucht­en Wort das Kürzel des Sub­ko­r­pus ein, in dem man suchen will: :eng_2012 für Englisch, :ger_2012 für Deutsch etc. (Eine Liste find­et sich hier unter »Cor­po­ra«.)

Lästige Suffixe in den Griff bekommen: Mit Operatoren

Lex­em für ‘Com­put­er’ im Englis­chen, Deutschen und Franzö­sis­chen. Such­abfrage: (computer+computers:eng_2012), (Computer+Computers+Computern:ger_2012),(ordinateur+ordinateurs:fre_2012)

Aber es wird noch bess­er: Während man früher pro Kurve nur eine Wort­form anzeigen lassen kon­nte, gibt es jet­zt Kom­bi­na­tion­s­möglichkeit­en. Die obige Kurve lässt sich also mit noch mehr Dat­en füt­tern: Neben der Sin­gu­lar­form kön­nen auch die Plu­ral­for­men (com­put­ers, ordi­na­teurs) und die ver­schiede­nen Kasus (Com­put­ers, Com­put­ern) berück­sichtigt wer­den. (Eine Liste find­et sich hier unter »Ngram Com­po­si­tions«.)

Das ermöglicht uns erst richtige Ver­gle­ich­barkeit der For­men: Zuvor haben wir ja alle Sin­gu­lar­for­men im Englis­chen (com­put­er) und Franzö­sis­chen (ordi­na­teur) den deutschen For­men für Nom­i­na­tiv, Akkusativ und Dativ Sin­gu­lar sowie Nom­i­na­tiv, Gen­i­tiv und Akkusativ Plur­al (der, den, dem; die, der, die Com­put­er) gegenübergestellt, das war ziem­lich unsauber.

Das Es, nicht Es: POS-Tagging

Die englis­che Abkürzung POS ste­ht für parts of speech, das sind Wor­tarten. Wenn ein Kor­pus POS-Tag­ging hat, dann wurde jedem Wort die Infor­ma­tion hinzuge­fügt, ob es ein Sub­stan­tiv, Adjek­tiv, Verb etc. ist – und man kann danach auch suchen. Das ist beson­ders fürs Englis­che sehr, sehr sin­nvoll, wo man keine Unter­schei­dung durch Groß- und Klein­schrei­bung hat und generell viel Kon­ver­sion betreibt (verb­ing weirds lan­guage). So heißt flood ‘Flut’ und to flood ‘fluten’, erst mit POS lassen sie sich unter­schei­den. (Eine Liste der Wor­tarten find­et sich hier unter »Part-of-speech Tags«.)

Auch im Deutschen kann die Anno­ta­tion nach Wor­tarten Leben ret­ten vieles vere­in­fachen. Diese Suche nach der sub­stan­tivis­chen Ver­wen­dung von Ich und Es wäre zum Beispiel son­st nicht möglich gewe­sen, weil die Pronomen dazwis­chenge­funkt hät­ten.

Man kann aber nicht nur nach konkreten Wörtern ein­er bes­timmten Wor­tart suchen, son­dern auch nach allen Ange­höri­gen der entsprechen­den Wor­tart zusam­men. Ich habe ja mal ver­sucht, die Zuver­läs­sigkeit der Dat­en für frühere Jahrhun­derte zu bes­tim­men – das geht nun viel, viel leichter, man kann z.B. ein­fach die Häu­figkeit von Sub­stan­tiv­en generell abfra­gen. Daraus ergibt sich dann, erwart­bar, dass die Dat­en fürs Englis­che bess­er sind (ab 1690 scheinen sie recht zuver­läs­sig, fürs Deutsche erst ab 1740):

Rel­a­tive Häu­figkeit von Sub­stan­tiv­en in deutschen und englis­chen Büch­ern. Such­abfrage: _NOUN_:ger_2012,_NOUN_:eng_2012

Bei dieser Anno­ta­tion muss man allerd­ings ein bißchen vor­sichtig sein: Sie wurde automa­tisch gemacht, anders geht das bei so großen Daten­men­gen auch gar nicht. Fürs mod­erne Englisch (also nicht für die frühen Jahrhun­derte) liegt die Zuver­läs­sigkeit bei ca. 95% Prozent, fürs Deutsche bei unge­fähr 90% oder etwas höher.

5 Gedanken zu „Jetzt vermehrt und verbessert: Der Ngram-Viewer

  1. Pingback: Gute Vorsätze 2013, Teil 6: Google Ngram Viewer | Erbloggtes

  2. Dieter

    Ich werde mal ver­suchen, den abnehmenden Gebrauch der Phrase “Das tut man nicht” damit zu ergrün­den. Stattdessen wurde “Das muß jed­er für sich selb­st entschei­den” gesagt. Oder her­aus­find­en, seit wann “Ich bringe die Kinder zur Schule” häu­figer gesagt/geschrieben wurde. Vor 30 Jahren gin­gen Kindern näm­lich ein­fach noch selb­st zur Schule. Aber ob Büch­er das beste Medi­um für meine Recherche sind?

  3. Mihael

    Sollte bei dem let­zten Schaubild nicht eher “Such­abfrage: _NOUN_:ger_2012,_NOUN_:eng_2012” in der Bil­dun­ter­schrift ste­hen?

  4. Kristin Kopf Beitragsautor

    Ja, allerd­ings — und ver­linkt ist es auch auf die falsche Suche. Kommt davon, wenn man zu viel rumpro­biert … wird sofort geän­dert, her­zlichen Dank für den Hin­weis!

  5. Pingback: Islamismus / Islamisten. Eine kurze Begriffsgeschichte | Sprachpunkt

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden .