Schlagwort-Archive: Google

Jetzt vermehrt und verbessert: Der Ngram-Viewer

Das zugrun­deliegende Kor­pus des Ngram-View­ers von Google ist vor kurzem verbessert wor­den. Damit eröff­nen sich faszinierende neue Such­möglichkeit­en, von denen ich drei ganz kurz vorstellen möchte – in der Hoff­nung, dass sich meine Studieren­den nicht herverir­ren, die sollen das näm­lich alles in ein­er Wei­h­nachts­fe­rien­hausauf­gabe selb­st raus­find­en:

Der Aufstieg des Computers: Sprachübergreifende Vergleiche

Nen­n­form für ‘Com­put­er’ im Englis­chen, Deutschen und Franzö­sis­chen. Such­abfrage: computer:eng_2012,Computer:ger_2012,ordinateur:fre_2012

Während man in der 2009er-Ver­sion nur inner­halb ein­er Sprache suchen kon­nte, lassen sich jet­zt auch sprachüber­greifende Ver­gle­iche anstellen. Hier musste ich also noch drei Grafiken hin­tere­inan­der erstellen, jet­zt kann die Fre­quenz des Wortes für ‘Com­put­er’ im Englis­chen, Deutschen und Franzö­sis­chen (und eini­gen weit­eren Sprachen) auf ein­mal angezeigt wer­den. Weit­er­lesen

Was macht eigentlich … leaken?

Die Nominierungsphase für den Anglizis­mus des Jahres 2011 läuft (noch bis zum 31.12.!) – eine schöne Gele­gen­heit, mal besinnlich zu wer­den und nachzuschauen, wie es dem Gewin­ner von let­ztem Jahr ergan­gen ist: leak­en. Es gab damals zwei recht aus­führliche Analy­sen von suz und mir, denen aber für 2010 die Dat­en fehlten: Das Wort trat ja erst im Herb­st so richtig ans Licht der bre­it­en Öffentlichkeit, und das DeReKo (eine enorm große Samm­lung von Zeitung­s­tex­ten, zugänglich via Cos­mas II) umfasste damals nur die erste Jahreshälfte. Mit­tler­weile sind die Dat­en da und ich hab mal reingeschaut, allerd­ings mit ernüchtern­dem Ergeb­nis: Das Verb leak­en tritt 2010 grade mal zweimal auf, inklu­sive ein­er scherzhaften Ver­wen­dung:

  • Ulmen schlüpft in die Rolle sein­er Kun­st­fig­ur Uwe Wöll­ner und erk­lärt aktuelle Begriffe wie „Leak­ing“ („Wenn ich niese, zum Beispiel, leake ich meine Erkäl­tung“). (Mannheimer Mor­gen, 13.12.2010, S. 28)
  • Wiki leakt weit­er. Die «Rund­schau» reist nach Island zu Mit­stre­it­ern von Julian Assange. (St. Galler Tag­blatt, 15.12.2010, S. 12)

Im Jahr 2011 (erste Jahreshälfte) dann bish­er drei Tre­f­fer, ein­er scherzhaft:

  • Leak­en, das heisst etwas vor der Veröf­fentlichung ver­bre­it­en, sei «grund­sät­zlich ein anar­chis­tis­ch­er Akt». (St. Galler Tag­blatt, 28.01.2011, S. 9)
  • Merke: „Ein klein­er Wiki leakt in jedem von uns!“ (Nürn­berg­er Nachricht­en, 03.03.2011, S. 8)
  • Wohin der Weg eines trans­par­enteren Staates führen kön­nte, zeigte eine Äußerung des Bun­des­daten­schutzbeauf­tragten Peter Schaar: „Wenn Möglichkeit­en zur Freiga­be von Dat­en erle­ichtert wer­den, min­dert das den Druck, Dat­en zu leak­en.“ (Rhein-Zeitung, 18.04.2011, S. 32)

Für die Vor­jahre sieht das immer­hin noch schlechter aus, wie ich in meinem let­ztjähri­gen Artikel schon erwäh­nt habe (2005 gibt es drei Ver­wen­dun­gen für Computerspiele/Musik, die aus der Wikipedia stam­men, das war’s), aber Ten­den­zen kann man daraus nun wirk­lich keine ableit­en.

In mein­er Daten­not habe ich auf Google­News zurück­ge­grif­f­en. Das ist aus mehreren Grün­den keine beson­ders gute Idee, darunter z.B.:

  •  Man hat keine Ahnung, wieviele Tex­twörter ins­ge­samt durch­sucht wer­den. Da das von Jahr zu Jahr vari­ieren kann, kön­nte die rel­a­tive Vorkom­men­shäu­figkeit eine ganz andere sein, als die absolute nahelegt. Wenn man davon aus­ge­ht, dass die Textzahl jedes Jahr steigt, dann ist auch der Anstieg von leak­en nicht mehr so ungewöhn­lich.
  • Die Datierung ist unzu­ver­läs­sig. Der Tre­f­fer, den ich für 2002 hat­te, bezieht sich z.B. anachro­nis­tis­cher­weise auf Wik­ileaks und stammt dann auch in Wirk­lichkeit von 2010. Wer weiß, wie viel da son­st noch im Argen liegt.

Nichts­destotrotz habe ich die Suche unter­nom­men, und zwar mit der Suchan­frage

leak­en” OR “leake” OR “leakst” OR “leakt” OR “leak­te” OR “leak­test” OR “leak­tet” OR “leak­ten” OR “geleakt” OR “geleak­te” OR “geleak­ten” OR “geleak­ter” OR “geleak­tes” OR “geleak­tem”

Die sollte so ziem­lich alle erwart­baren ver­balen und adjek­tivis­chen Vorkom­men abdeck­en. Für die let­zten zehn Jahre find­et man dann die fol­gen­den Ergeb­nisse in absoluten Zahlen (von mir bere­inigt):


Einen Anstieg kann man daraus, wie bere­its bemerkt, nicht ableit­en, aber man kann sich das Ver­hält­nis der ver­schiede­nen Anwen­dungs­bere­iche zueinan­der anschauen. Die Ein­teilung ist recht grob, weil ich bei Fil­men, Musik und Tech­nik nicht sauber aus­sortiert habe, wann es sich um ein geleak­tes Pro­dukt han­delte und wann um Infor­ma­tio­nen dazu (sind auch teil­weise im roten Balken gelandet, aber nicht so furcht­bar sys­tem­a­tisch) – wenn jemand Zeit hat … Momen­tan sieht es so aus, als sei prozen­tu­al nur die Film-Musik-Tech­nik-Bedeu­tung etwas gestiegen (2010 56%, 2011 65%) und die Über­tra­gung auf die Infor­ma­tions­be­deu­tung ließe noch auf sich warten (falls sie jemals so richtig kommt; 2010 25%, 2011 24%). Vielle­icht tut sich aber, wie gesagt, etwas im Über­schnei­dungs­bere­ich “Infor­ma­tio­nen zu Fil­men, Musik, Tech­nik”.

Ich fürchte, wir müssen in einem Jahr wieder nach­schauen, wie es dem Leak­en so geht.

Mehr Spaß mit Ngrams

Heute gibt es ein buntes Sam­mel­suri­um von Abfra­gen mit dem Ngram View­er. Ich finde sie alle aus dem einen oder anderen Grund ganz erhel­lend. Vielle­icht ja son­st noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schön­ste” Abfrage ist sich­er die fol­gende, die ich kür­zlich (in ein­er min­i­mal abwe­ichen­den Ver­sion) auch in den Sprachlog-Kom­mentaren gepostet habe:

Wie man sieht, wenn man draufk­lickt, habe ich Aller­weltswörter abge­fragt: der, die, und, in, … Das sind Wörter, die so häu­fig sind, dass man in einem aus­ge­wo­ge­nen Kor­pus eigentlich keine großen Schwankun­gen erwarten würde. Man braucht sie ein­fach immer, für jeden Text. Klar, das geht nicht unbe­gren­zt weit zurück, irgend­wann sind die Artikel ja auch ent­standen, und Per­son­al­pronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuch­lich wie heute. Aber für die späte früh­neuhochdeutsche und neuhochdeutsche Zeit, die der Ngram View­er abdeckt, sollte es doch einiger­maßen passen. Weit­er­lesen

[Anglizismus des Jahres] ausrollen?

aus­rollen in Bezug auf Tech­nik (z.B. ein Update) ist ein Kan­di­dat für den Anglizis­mus des Jahres 2010, der von vie­len Seit­en als schon lang etabliert kri­tisiert wurde. Das ist hier beson­ders schwierig her­auszubekom­men, weil das Wort in ein­er anderen, weniger metapho­rischen Bedeu­tung (Tep­pich, Teig), schon lange existiert. Wir haben es also mit ein­er Lehnbe­deu­tung zu tun: Ein Aspekt des englis­chen to roll out, näm­lich dieser technische/produktionsbezogene, wurde über­nom­men, aber einem deutschen Wort zugeschla­gen. Das passiert oft bei Wörtern, die sich for­mal oder inhaltlich gle­ichen, hier ist bei­des der Fall.

Was kann man alles ausrollen?

Zunächst ein­mal stellt sich die Frage, was das Wort über­haupt heißt. Ich lag mit mein­er Intu­ition z.B. ziem­lich daneben bzw. hat­te nur einen Teilaspekt erfasst. Glück­licher­weise gibt es einen Wikipedi­aein­trag für Roll­out (seit Juni 2004), aus dem sich die fol­gen­den Bedeu­tun­gen des­til­lieren lassen (fast wörtlich über­nom­men!):

teilw. syn­onym: Mark­te­in­führung, Ein­führung

  1. Flugzeug­bau: erst­ma­liges Her­aus­rollen des Flugzeugs aus sein­er Baustätte (oft mit Fes­takt ver­bun­den)
  2. Soft­ware 1: Veröf­fentlichen und Verteilen von Soft­ware­pro­duk­ten auf entsprechende Clients (auch Soft­ware-Dis­tri­b­u­tion) – wird durch zen­trales Host­ing zunehmend obso­let
  3. Soft­ware 2: organ­isatorische Pro­jekt-The­men (z.B. Infor­ma­tions­dis­tri­b­u­tion über Organ­i­sa­tion­sein­heit­en, Mar­ket­ing, Soft­ware- und Prozess-Train­ing, Mon­i­tor­ing und Report­ing über den Roll­out-Ver­lauf)
  4. Hard­ware: Aus­tausch sämtlich­er Com­put­er­hard­ware bei einem Gen­er­a­tionswech­sel der Com­put­er eines Unternehmens

1, 2 und 4 sind mir klar, aber … 3? Hä? Hinzuge­fügt wurde die entsprechende Pas­sage im Novem­ber 2006, lei­der ohne Erk­lärung in den Diskus­sion­s­seit­en. Weit­er­lesen

[Anglizismus des Jahres] entfrienden/entfreunden?

Heute beschäftige ich mich mit einem der Kan­di­dat­en, bei denen nicht das kom­plette Mate­r­i­al entlehnt wurde, näm­lich dem Dop­pelka­n­di­dat­en ent­frien­den/ent­fre­un­den. Hier haben wir es mit ein­er Ableitung zu tun. Ihre Bedeu­tung würde ich unge­fähr fassen als: ‘eine bei einem sozialen Netzwerk/Computerspiel/… beste­hende Verknüp­fung (“Fre­und­schaft”) wieder auflösen’.

Vor man entfrienden kann, muss man frienden!

Will man diese Bil­dung unter­suchen, dann muss man sich zunächst ein­mal anschauen, wie ihre Basis, also frien­den/fre­un­den, zus­tande kam, wie man sie in den fol­gen­den Beispie­len find­et:

Noch mehr Leute hier, die ihre Eltern bei Face­book nicht gefrien­det haben? (Quelle)

Ich hab so viele Leute gefrien­det, wenn ich nicht mehrmals täglich die Frienslist lesen würde, käme ich gar nicht mehr hin­ter­her! (Quelle)

Ella Lin­gens Gym­na­si­um kann man nicht “frien­den” nur “liken”, oder? (Quelle)

Hab ein paar von euch gefre­un­det ‚hoffe das ist ok! (Quelle)

Auf­fäl­lig ist, dass hier meist das Par­tizip vorkommt, d.h. über die Hand­lung öfter in der Ver­gan­gen­heit gesprochen wird. Mir selb­st kommt der Infini­tiv schon fast ungram­ma­tisch vor. Weit­er­lesen

When you friend someone …

Bevor ich mich im Rah­men der Wahl zum Anglizis­mus des Jahres 2010 mit ent­fre­un­den/-frien­den im Deutschen beschäftige, will ich kurz den Hin­ter­grund im Englis­chen beleucht­en – zumin­d­est das davon, was ich einiger­maßen klären kon­nte.

Anfreunden auf Englisch

in the Facebook sense”

Das deutsche Verb frien­den kommt vom gle­ichbe­deu­ten­den englis­chen to friend. Als heutige Bedeu­tung würde ich anset­zen  ‘bei einem sozialen Netzwerk/Computerspiel/… eine Verknüp­fung (“Fre­und­schaft”) erstellen’. Ein bißchen anders sieht es die englis­che Wikipedia (eigen­er Ein­trag seit dem 1. Novem­ber 2010):

As a neol­o­gism, the term is a tran­si­tive verb mean­ing “to send a friend request on Face­book.”

Hier wird als Bedeu­tung also ‘jeman­dem auf Face­book eine Fre­und­schaft­san­frage schick­en’ angegeben. Das finde ich etwas zu eng, wird doch auch ander­swo, z.B. bei Live­Jour­nal oder MySpace, eine ganze Menge gefrien­det. Außer­dem stellt sich natür­lich die Frage, ob frien­den etwas ist, das man völ­lig eigen­ständig tun kann (also die Anfrage stellen), oder ob es nicht eher reziprok getan wer­den muss (der zukün­ftige “Fre­und” muss ja zus­tim­men). Wäre vielle­icht ganz span­nend, Beispiele daraufhin zu unter­suchen, ob im alltäglichen Gebrauch schon der Ver­such der Fre­und­schaft­sknüp­fung als to friend gew­ertet wird.

Face­book selb­st, das oft als Ursache für die Entste­hung angegeben wird, ver­wen­det das Wort übri­gens nicht, son­dern bedi­ent sich ein­er Umschrei­bung:

Face­book auf Englisch: “Add as Friend”

Weiterlesen

Von thun zu tun: Orthographie bei Ngrams

In den let­zten Tagen sind mir noch tausend Spiel­ereien einge­fall­en, die man mit Ngrams machen kann. Unter anderem lässt sich damit recht gut sicht­bar machen, wie schnell orthographis­che Stan­dar­d­isierung und Änderung sich in Büch­ern durch­set­zen kon­nten.

Wichtige Zeit­punk­te sind dabei zum einen die II. Orthographis­che Kon­ferenz (1901, dazu im Sch­plock hier und hier), bei der erst­mals eine verbindliche Rechtschrei­bung fest­gelegt wurde, und zum zweit­en die Rechtschreibre­form von 1996. Weit­er­lesen

[Weihnachten] Weihnachts- vs. Christbaum

Vielle­icht hat ja jemand hier Lust auf Wei­h­nacht­en?

Ich habe mal einen Ngram-Kampf zwis­chen Wei­h­nachts- und Christ­baum angezettelt, den der Wei­h­nachts­baum gewon­nen hat:

Der Christ­baum ist ganz gut ins Ren­nen ges­tartet, kon­nte sein Wach­s­tum dann aber tragis­cher­weise nicht hal­ten.

Weit­er­lesen

[Werkzeug] Ngram Viewer

Beim Lan­guage Log wurde ja schon aus­führlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Kor­pus, das einen Auszug aus Google­Books darstellt, nach Wörtern oder Wortket­ten suchen und sich ihren Häu­figkeitsver­lauf anzeigen lassen. Dabei wird die Gebrauchs­fre­quenz errech­net, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Such­be­fehl ste­ht) durch die Gesamt­wortzahl des entsprechen­den Jahres geteilt wird.

Die Sache ist für uns aus vie­len tausend Grün­den prob­lema­tisch: wilde Textsorten­zusam­menset­zung des Kor­pus – aber für Englisch gibt es immer­hin Unterko­r­po­ra wie Fic­tion, Amer­i­can Eng­lish und British Eng­lish –, die Kor­pus­größe vari­iert stark, d.h. Funde zu einem rel­a­tiv frühen Zeit­punkt (z.B. 1800) schla­gen stärk­er zu Buche als später (z.B. 2000), auch wenn nor­mal­isiert wurde, …

Messer, Gabel, …

Ein paar mögliche Prob­leme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchge­spielt. Man kön­nte hier den Ein­druck erhal­ten, die Gabel trete am sel­tensten auf und das Mess­er sei enorm viel häu­figer (alle Dia­gramme führen direkt zur entsprechen­den Suchan­frage mit größeren Darstel­lun­gen):

Weit­er­lesen