Mehr Spaß mit Ngrams

Heute gibt es ein buntes Sam­mel­suri­um von Abfra­gen mit dem Ngram View­er. Ich finde sie alle aus dem einen oder anderen Grund ganz erhel­lend. Vielle­icht ja son­st noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schön­ste” Abfrage ist sich­er die fol­gende, die ich kür­zlich (in ein­er min­i­mal abwe­ichen­den Ver­sion) auch in den Sprachlog-Kom­mentaren gepostet habe:

Wie man sieht, wenn man draufk­lickt, habe ich Aller­weltswörter abge­fragt: der, die, und, in, … Das sind Wörter, die so häu­fig sind, dass man in einem aus­ge­wo­ge­nen Kor­pus eigentlich keine großen Schwankun­gen erwarten würde. Man braucht sie ein­fach immer, für jeden Text. Klar, das geht nicht unbe­gren­zt weit zurück, irgend­wann sind die Artikel ja auch ent­standen, und Per­son­al­pronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuch­lich wie heute. Aber für die späte früh­neuhochdeutsche und neuhochdeutsche Zeit, die der Ngram View­er abdeckt, sollte es doch einiger­maßen passen.

Meine Über­legung ist also, dass die Kur­ven für diese Wörter eigentlich ziem­lich sta­bil sein müssten. Keine starken Schwankun­gen, son­dern eben mehr oder weniger hor­i­zon­tale Lin­ien. Das bestätigt sich auch einiger­maßen für die let­zten zwei­hun­dert Jahre. Schaut man sich allerd­ings die Jahrhun­derte davor an, so geht es ziem­lich tur­bu­lent zu. Hier muss etwas mit dem Tex­tko­r­pus im Argen liegen – wenn es ewig keine Texte gibt, die der oder die enthal­ten, dann kann das nur daran liegen, dass a) es in dieser Zeit ein­fach gar keine Texte gibt oder b) die Texte dieser Zeit so schlecht tex­terkan­nt wur­den, dass nicht ein­mal diese kurzen Wörtchen les­bar wur­den.

Ob es da Texte gibt, lässt sich lei­der nicht testen, weil die Büch­er aus dem Pro­jekt nicht iden­tisch mit denen sind, die man generell bei Google­Books find­en kann. Da gibt es näm­lich einen ganzen Haufen alte Sachen, z.B. hier von 1523, die müssen aber nicht zwangsläu­fig auch Teil des Cul­tur­omics-Kor­pus sein.

Dass die Texte schlecht tex­terkan­nt sind, ist fatal für das Kor­pus: Entwed­er find­et man die entsprechen­den Wörter gar nicht oder nur teil­weise. Wenn man das eben ver­link­te Buch automa­tisch nach der durch­sucht, taucht kein einziger Tre­f­fer auf:

Wenn man allerd­ings seine Augen benutzt, dauert es gar nicht lange …

Acta oder geschicht || wie es vff dem gesprech der || 26.27.vnnd. 28. tagen Wyn­mon­adts / in der Chris­ten­lichen Statt Zürich / vor eim Ersame_ …

Da wird auch schnell klar, warum das nicht geklappt hat, das <d> ist ziem­lich ver­schnörkelt. Durch­sucht das Buch mal zum Spaß nach <ser> … Eben­so geht es der Tex­terken­nung mit vie­len anderen Buch­staben in gebroch­en­er Schrift, allen voran mit dem lan­gen <ſ>. Und die ziem­lich lang ziem­lich kon­se­quente Ver­wen­dung von <v> am Wor­tan­fang und <u> im Wortin­neren sorgt zum Beispiel dafür, dass sich keine <und>s find­en lassen, aber doch immer­hin ein paar <vnd>s.

Die Spitzen, die meine Suche nach hochfre­quenten Wörtern in den frühen Jahren anzeigt, weisen also darauf hin, dass auf so frühe Ergeb­nisse kein Ver­lass ist. Den ersten Auss­chlag gibt es 1564 – wahrschein­lich weil hier das erste Buch vor­liegt (oder auch mehrere, wer weiß). Wenn man nun nach ganz anderen Wörtern sucht, die nicht sooo häu­fig sind, kön­nte man denken, dass die Such­wörter 1564 aus irgen­deinem Grund beson­ders häu­fig ver­wen­det wur­den. Man kön­nte die schön­sten The­o­rien entwick­eln … Schaut mal hier für das Wort Buch:

Die frühe Spitze liegt aber nicht an der gesteigerten Bedeu­tung oder Ver­füg­barkeit von Büch­ern oder irgend­sowas, son­dern ist eben ein Arte­fakt.

Wenn das Kor­pus schon bei hochfre­quenten Wörtern so ver­let­zlich ist, dann muss man bei sel­te­nen Wörtern natür­lich noch bess­er auf­passen. Oder erscheint es euch plau­si­bel, dass man heute viel weniger über die Sonne schreibt als vor zwei­hun­dert Jahren?

Verwandtschaft: Der Onkel macht den Oheim kalt

Ich hat­te hier im Sch­plock mal eine kleine Serie zu Ver­wandtschafts­beze­ich­nun­gen im Deutschen, darunter einen Text, in dem es um Oheim, Vet­ter, Base und Muhme ging. Die Bedeu­tungsver­schiebun­gen dieser Begriffe lässt sich natür­lich nicht darstellen, aber man kann immer­hin sehen, wie sie gegen ihre mod­erneren Entsprechun­gen ver­loren haben:

Oheim vs. Onkel

Der Vet­ter hält sich wesentlich bess­er gegen den Cousin. Vielle­icht kriegt er auch noch Ver­stärkung vom Fam­i­li­en­na­men Vet­ter? Der Kampf zwis­chen Muhme und Tante scheint schon früher gelaufen zu sein, Cou­sine und Base lassen sich lei­der nicht ver­gle­ichen, weil Base zu viele andere Bedeu­tun­gen hat.

Fußgänger laufen auf dem …

Bürg­er­steig? Gehweg? Trot­toir?

Übersetzt von …

Büch­er sind ja eine Textsorte, die so ihre eige­nen Merk­male hat. Dazu gehört zum Beispiel, dass ver­merkt wird, wenn es sich um eine Über­set­zung han­delt. Und da haben wir …

Englisch vor Franzö­sisch vor Amerikanisch …

Meine Such­abfrage war dem Englis­chen von, wie in “Über­set­zt aus dem Englis­chen von XY/Aus dem Englis­chen von XY/…”. (Ich habe auf aus verzichtet, weil die Suche zwis­chen Groß- und Klein­schrei­bung unter­schei­det, die Kur­ven sind klein­er, ver­laufen aber qua­si iden­tisch, wenn man es dazu­nimmt.)

Inter­es­sant, dass Amerikanisch als Sprach­beze­ich­nung erst 1945 richtig auf­taucht. Es legt dann eine ziem­lich steile Kar­riere hin …

Autos und große Autos

Hier sieht man, wann PKW und LKW ihre Lang­for­men Per­so­n­enkraft­wa­gen und Lastkraft­wa­gen über­holt haben:

Der Wech­sel von Lastkraft­wa­gen zu LKW scheint 1976 zu erfol­gen, der von Per­so­n­enkraft­wa­gen zu PKW schon früher, näm­lich 1967. Allerd­ings war Per­so­n­enkraft­wa­gen nie sooo gebräuch­lich. PKW hat es wahrschein­lich weniger erset­zt als sich vielmehr in die Auto-Domäne hineinge­drängt. Spekuliere ich mal, total wild.

Soziale Netzwerke

Wie Stu­di­VZ von Face­book über­holt wurde:

Wer um alles in der Welt schreibt eigentlich Büch­er über die bei­den? Hmhmhm.

Und damit empfehle ich mich für heute. Ein wun­der­bares Woch­enende euch allen!

schönes Woch­enende

 

 

2 Gedanken zu „Mehr Spaß mit Ngrams

  1. Thomas

    Tex­terken­nung: Da müsstest du mal schauen, was OCR-Pro­gramme — am besten auf Stan­dard gestellt, was imm­mer noch ASCII ist oder wenig mehr — aus heuti­gen Aus­druck­en oder Schreib­maschi­nen­manuskripten machen (PDF-Kopi­en ‘exo­tis­ch­er’ Dis­ser­ta­tio­nen, ich will mich also nicht beschw­eren, die hätte ich son­st nie hal­bau­toma­tisch durch­suchen kön­nen).
    Das ist dann bess­er als nur das Bild, aber extrem anfäl­lig bei allem, was jen­seits von ASCII liegt. <é> ist dann eben im ‘erkan­nten’ Text <b>. Aber nicht immer, wenn die Seite nicht ganz ger­ade lag beim Scan­nen… Ganz zu schweigen von Diakri­ti­ka jen­seits von Wes­teu­ropa (<ā>, <ę>).
    Die Geschichte mit <s> statt <d> passt da genau rein. Ich hätte sog­ar eher <B> oder <8> für bei­de erwartet bei dem Schrift­bild.

  2. Kristin Beitragsautor

    Sooo, jet­zt mit reinedi­tierten Graphemk­lam­mern 🙂

    Zum The­ma: Die müssen schon speziellere Tex­terken­nung­spro­gramme haben. Es gibt z.B. eines von ABBYY FineRead­er, das auf Frak­tur aus­gelegt ist, allerd­ings klappt das wohl richtig gut nur für das 19. Jahrhun­dert und nur, wenn die Vor­la­gen sauber sind.
    Ich habe das mal aus­pro­biert, weil ich ja momen­tan auch größere Men­gen Text aus früh­neuhochdeutschen Druck­en in maschi­nen­les­bare Form bringe — lieferte aber für frühe Drucke ganz furcht­bare Resul­tate, man war so lange mit Kor­rigieren beschäftigt, wie man auch zum Abtip­pen brauchte … (Außer­dem braucht das Pro­gramm ja auch immer Train­ingsläufe, und wenn ich es fünf Seit­en lang trainiere, aber ins­ge­samt nur zehn brauche, weil der näch­ste Druck dann wieder mit anderen Let­tern geset­zt wurde, lohnt sich das let­ztlich nicht mehr.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden .