Schlagwort-Archive: Google

Jetzt vermehrt und verbessert: Der Ngram-Viewer

Von Kristin Kopf

Das zugrundeliegende Korpus des Ngram-Viewers von Google ist vor kurzem verbessert worden. Damit eröffnen sich faszinierende neue Suchmöglichkeiten, von denen ich drei ganz kurz vorstellen möchte – in der Hoffnung, dass sich meine Studierenden nicht herverirren, die sollen das nämlich alles in einer Weihnachtsferienhausaufgabe selbst rausfinden:

Der Aufstieg des Computers: Sprachübergreifende Vergleiche

Nennform für ‘Computer’ im Englischen, Deutschen und Französischen. Suchabfrage: computer:eng_2012,Computer:ger_2012,ordinateur:fre_2012

Während man in der 2009er-Version nur innerhalb einer Sprache suchen konnte, lassen sich jetzt auch sprachübergreifende Vergleiche anstellen. Hier musste ich also noch drei Grafiken hintereinander erstellen, jetzt kann die Frequenz des Wortes für ‘Computer’ im Englischen, Deutschen und Französischen (und einigen weiteren Sprachen) auf einmal angezeigt werden. Weiterlesen →

Was macht eigentlich … leaken?

Von Kristin Kopf

Die Nominierungsphase für den Anglizismus des Jahres 2011 läuft (noch bis zum 31.12.!) – eine schöne Gelegenheit, mal besinnlich zu werden und nachzuschauen, wie es dem Gewinner von letztem Jahr ergangen ist: leaken. Es gab damals zwei recht ausführliche Analysen von suz und mir, denen aber für 2010 die Daten fehlten: Das Wort trat ja erst im Herbst so richtig ans Licht der breiten Öffentlichkeit, und das DeReKo (eine enorm große Sammlung von Zeitungstexten, zugänglich via Cosmas II) umfasste damals nur die erste Jahreshälfte. Mittlerweile sind die Daten da und ich hab mal reingeschaut, allerdings mit ernüchterndem Ergebnis: Das Verb leaken tritt 2010 grade mal zweimal auf, inklusive einer scherzhaften Verwendung:

Ulmen schlüpft in die Rolle seiner Kunstfigur Uwe Wöllner und erklärt aktuelle Begriffe wie „Leaking“ („Wenn ich niese, zum Beispiel, leake ich meine Erkältung“). (Mannheimer Morgen, 13.12.2010, S. 28)
Wiki leakt weiter. Die «Rundschau» reist nach Island zu Mitstreitern von Julian Assange. (St. Galler Tagblatt, 15.12.2010, S. 12)

Im Jahr 2011 (erste Jahreshälfte) dann bisher drei Treffer, einer scherzhaft:

Leaken, das heisst etwas vor der Veröffentlichung verbreiten, sei «grundsätzlich ein anarchistischer Akt». (St. Galler Tagblatt, 28.01.2011, S. 9)
Merke: „Ein kleiner Wiki leakt in jedem von uns!“ (Nürnberger Nachrichten, 03.03.2011, S. 8)
Wohin der Weg eines transparenteren Staates führen könnte, zeigte eine Äußerung des Bundesdatenschutzbeauftragten Peter Schaar: „Wenn Möglichkeiten zur Freigabe von Daten erleichtert werden, mindert das den Druck, Daten zu leaken.“ (Rhein-Zeitung, 18.04.2011, S. 32)

Für die Vorjahre sieht das immerhin noch schlechter aus, wie ich in meinem letztjährigen Artikel schon erwähnt habe (2005 gibt es drei Verwendungen für Computerspiele/Musik, die aus der Wikipedia stammen, das war’s), aber Tendenzen kann man daraus nun wirklich keine ableiten.

In meiner Datennot habe ich auf GoogleNews zurückgegriffen. Das ist aus mehreren Gründen keine besonders gute Idee, darunter z.B.:

Man hat keine Ahnung, wieviele Textwörter insgesamt durchsucht werden. Da das von Jahr zu Jahr variieren kann, könnte die relative Vorkommenshäufigkeit eine ganz andere sein, als die absolute nahelegt. Wenn man davon ausgeht, dass die Textzahl jedes Jahr steigt, dann ist auch der Anstieg von leaken nicht mehr so ungewöhnlich.
Die Datierung ist unzuverlässig. Der Treffer, den ich für 2002 hatte, bezieht sich z.B. anachronistischerweise auf Wikileaks und stammt dann auch in Wirklichkeit von 2010. Wer weiß, wie viel da sonst noch im Argen liegt.

Nichtsdestotrotz habe ich die Suche unternommen, und zwar mit der Suchanfrage

“leaken” OR “leake” OR “leakst” OR “leakt” OR “leakte” OR “leaktest” OR “leaktet” OR “leakten” OR “geleakt” OR “geleakte” OR “geleakten” OR “geleakter” OR “geleaktes” OR “geleaktem”

Die sollte so ziemlich alle erwartbaren verbalen und adjektivischen Vorkommen abdecken. Für die letzten zehn Jahre findet man dann die folgenden Ergebnisse in absoluten Zahlen (von mir bereinigt):

Einen Anstieg kann man daraus, wie bereits bemerkt, nicht ableiten, aber man kann sich das Verhältnis der verschiedenen Anwendungsbereiche zueinander anschauen. Die Einteilung ist recht grob, weil ich bei Filmen, Musik und Technik nicht sauber aussortiert habe, wann es sich um ein geleaktes Produkt handelte und wann um Informationen dazu (sind auch teilweise im roten Balken gelandet, aber nicht so furchtbar systematisch) – wenn jemand Zeit hat … Momentan sieht es so aus, als sei prozentual nur die Film-Musik-Technik-Bedeutung etwas gestiegen (2010 56%, 2011 65%) und die Übertragung auf die Informationsbedeutung ließe noch auf sich warten (falls sie jemals so richtig kommt; 2010 25%, 2011 24%). Vielleicht tut sich aber, wie gesagt, etwas im Überschneidungsbereich “Informationen zu Filmen, Musik, Technik”.

Ich fürchte, wir müssen in einem Jahr wieder nachschauen, wie es dem Leaken so geht.

Mehr Spaß mit Ngrams

Von Kristin Kopf

Heute gibt es ein buntes Sammelsurium von Abfragen mit dem Ngram Viewer. Ich finde sie alle aus dem einen oder anderen Grund ganz erhellend. Vielleicht ja sonst noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schönste” Abfrage ist sicher die folgende, die ich kürzlich (in einer minimal abweichenden Version) auch in den Sprachlog-Kommentaren gepostet habe:

Wie man sieht, wenn man draufklickt, habe ich Allerweltswörter abgefragt: der, die, und, in, … Das sind Wörter, die so häufig sind, dass man in einem ausgewogenen Korpus eigentlich keine großen Schwankungen erwarten würde. Man braucht sie einfach immer, für jeden Text. Klar, das geht nicht unbegrenzt weit zurück, irgendwann sind die Artikel ja auch entstanden, und Personalpronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuchlich wie heute. Aber für die späte frühneuhochdeutsche und neuhochdeutsche Zeit, die der Ngram Viewer abdeckt, sollte es doch einigermaßen passen. Weiterlesen →

[Anglizismus des Jahres] ausrollen?

Von Kristin Kopf

ausrollen in Bezug auf Technik (z.B. ein Update) ist ein Kandidat für den Anglizismus des Jahres 2010, der von vielen Seiten als schon lang etabliert kritisiert wurde. Das ist hier besonders schwierig herauszubekommen, weil das Wort in einer anderen, weniger metaphorischen Bedeutung (Teppich, Teig), schon lange existiert. Wir haben es also mit einer Lehnbedeutung zu tun: Ein Aspekt des englischen to roll out, nämlich dieser technische/produktionsbezogene, wurde übernommen, aber einem deutschen Wort zugeschlagen. Das passiert oft bei Wörtern, die sich formal oder inhaltlich gleichen, hier ist beides der Fall.

Was kann man alles ausrollen?

Zunächst einmal stellt sich die Frage, was das Wort überhaupt heißt. Ich lag mit meiner Intuition z.B. ziemlich daneben bzw. hatte nur einen Teilaspekt erfasst. Glücklicherweise gibt es einen Wikipediaeintrag für Rollout (seit Juni 2004), aus dem sich die folgenden Bedeutungen destillieren lassen (fast wörtlich übernommen!):

teilw. synonym: Markteinführung, Einführung

Flugzeugbau: erstmaliges Herausrollen des Flugzeugs aus seiner Baustätte (oft mit Festakt verbunden)
Software 1: Veröffentlichen und Verteilen von Softwareprodukten auf entsprechende Clients (auch Software-Distribution) – wird durch zentrales Hosting zunehmend obsolet
Software 2: organisatorische Projekt-Themen (z.B. Informationsdistribution über Organisationseinheiten, Marketing, Software- und Prozess-Training, Monitoring und Reporting über den Rollout-Verlauf)
Hardware: Austausch sämtlicher Computerhardware bei einem Generationswechsel der Computer eines Unternehmens

1, 2 und 4 sind mir klar, aber … 3? Hä? Hinzugefügt wurde die entsprechende Passage im November 2006, leider ohne Erklärung in den Diskussionsseiten. Weiterlesen →

[Anglizismus des Jahres] entfrienden/entfreunden?

Von Kristin Kopf

Heute beschäftige ich mich mit einem der Kandidaten, bei denen nicht das komplette Material entlehnt wurde, nämlich dem Doppelkandidaten entfrienden/entfreunden. Hier haben wir es mit einer Ableitung zu tun. Ihre Bedeutung würde ich ungefähr fassen als: ‘eine bei einem sozialen Netzwerk/Computerspiel/… bestehende Verknüpfung (“Freundschaft”) wieder auflösen’.

Vor man entfrienden kann, muss man frienden!

Will man diese Bildung untersuchen, dann muss man sich zunächst einmal anschauen, wie ihre Basis, also frienden/freunden, zustande kam, wie man sie in den folgenden Beispielen findet:

Noch mehr Leute hier, die ihre Eltern bei Facebook nicht gefriendet haben? (Quelle)

Ich hab so viele Leute gefriendet, wenn ich nicht mehrmals täglich die Frienslist lesen würde, käme ich gar nicht mehr hinterher! (Quelle)

Ella Lingens Gymnasium kann man nicht “frienden” nur “liken”, oder? (Quelle)

Hab ein paar von euch gefreundet ‚hoffe das ist ok! (Quelle)

Auffällig ist, dass hier meist das Partizip vorkommt, d.h. über die Handlung öfter in der Vergangenheit gesprochen wird. Mir selbst kommt der Infinitiv schon fast ungrammatisch vor. Weiterlesen →

When you friend someone …

Von Kristin Kopf

Bevor ich mich im Rahmen der Wahl zum Anglizismus des Jahres 2010 mit entfreunden/-frienden im Deutschen beschäftige, will ich kurz den Hintergrund im Englischen beleuchten – zumindest das davon, was ich einigermaßen klären konnte.

Anfreunden auf Englisch

“in the Facebook sense”

Das deutsche Verb frienden kommt vom gleichbedeutenden englischen to friend. Als heutige Bedeutung würde ich ansetzen ‘bei einem sozialen Netzwerk/Computerspiel/… eine Verknüpfung (“Freundschaft”) erstellen’. Ein bißchen anders sieht es die englische Wikipedia (eigener Eintrag seit dem 1. November 2010):

As a neologism, the term is a transitive verb meaning “to send a friend request on Facebook.”

Hier wird als Bedeutung also ‘jemandem auf Facebook eine Freundschaftsanfrage schicken’ angegeben. Das finde ich etwas zu eng, wird doch auch anderswo, z.B. bei LiveJournal oder MySpace, eine ganze Menge gefriendet. Außerdem stellt sich natürlich die Frage, ob frienden etwas ist, das man völlig eigenständig tun kann (also die Anfrage stellen), oder ob es nicht eher reziprok getan werden muss (der zukünftige “Freund” muss ja zustimmen). Wäre vielleicht ganz spannend, Beispiele daraufhin zu untersuchen, ob im alltäglichen Gebrauch schon der Versuch der Freundschaftsknüpfung als to friend gewertet wird.

Facebook selbst, das oft als Ursache für die Entstehung angegeben wird, verwendet das Wort übrigens nicht, sondern bedient sich einer Umschreibung:

: Facebook auf Englisch: “Add as Friend”

Weiterlesen →

Von thun zu tun: Orthographie bei Ngrams

Von Kristin Kopf

In den letzten Tagen sind mir noch tausend Spielereien eingefallen, die man mit Ngrams machen kann. Unter anderem lässt sich damit recht gut sichtbar machen, wie schnell orthographische Standardisierung und Änderung sich in Büchern durchsetzen konnten.

Wichtige Zeitpunkte sind dabei zum einen die II. Orthographische Konferenz (1901, dazu im Schplock hier und hier), bei der erstmals eine verbindliche Rechtschreibung festgelegt wurde, und zum zweiten die Rechtschreibreform von 1996. Weiterlesen →

[Weihnachten] Weihnachts- vs. Christbaum

Von Kristin Kopf

Vielleicht hat ja jemand hier Lust auf Weihnachten?

Ich habe mal einen Ngram-Kampf zwischen Weihnachts- und Christbaum angezettelt, den der Weihnachtsbaum gewonnen hat:

Der Christbaum ist ganz gut ins Rennen gestartet, konnte sein Wachstum dann aber tragischerweise nicht halten.

Weiterlesen →

[Werkzeug] Ngram Viewer

Von Kristin Kopf

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n‑gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Weiterlesen →