Schlagwort-Archive: Werkzeuge

[Werkzeug] Es läppert sich …

Kür­zlich kam jemand mit der Suchan­frage es läp­pert sich ethy­mol­o­gisch hier­her. Zu ethy­mol­o­gisch hab ich schon mal was geschrieben, zum Läp­pern aber nicht. Wie zur Herkun­ft viel­er ander­er Wörter oder Phrasen auch nicht. Daher gibt’s heute ein bißchen Hil­fe zur Selb­sthil­fe.

Will man die Bedeu­tungs- und Laut­geschichte eines Wortes erkun­den, dann hil­ft ein Blick in ein soge­nan­ntes “Ety­mol­o­gis­ches Wörter­buch”. Für das Deutsche gibt es da mehrere, zum Beispiel den Kluge, den Pfeifer und das Duden-Herkun­ftswörter­buch (genaue Angaben s.u.). Ich habe früher meist den Kluge benutzt, finde aber Pfeifer mit­tler­weile bess­er, weil er mehr Wort­bil­dun­gen verze­ich­net. Und die gute Nachricht: Die Ein­träge aus dem Pfeifer gibt es auch online, und zwar auf der DWDS-Seite.

Ein­fach in das Such­feld das fragliche Wort (hier: läp­pern) eingeben. Die Suche erfol­gt in allen Kom­po­nen­ten des DWDS (das sind u.a. Kor­po­ra und ein “nor­males” Wörter­buch) und die Ergeb­nisse wer­den in kleinen Kästen präsen­tiert. Der Ety­molo­gie-Kas­ten befind­et sich oben rechts, hier orange  hin­ter­legt:

Da zeigt sich dann, dass es läp­pert sich (bzw. es läp­pert sich zusam­men) die Bedeu­tung ‘in kleinen Men­gen zusam­menkom­men’ hat. Sie lässt sich mit der Geschichte des Verbs läp­pern recht gut nachvol­lziehen: Weit­er­lesen

[Schplock goes English] Last names in Germany

This is a (slight­ly mod­i­fied) trans­la­tion of a text I wrote in Jan­u­ary on the dis­tri­b­u­tion of last names in Ger­many. It was request­ed by Petra and I hope it meets your expec­ta­tions! My heart­felt thanks go to Robert for proof­read­ing, all remain­ing errors are of course my own.

Dur­ing the Christ­mas hol­i­days I noticed once more how names can shape a region. When I’m trav­el­ling south, I real­ize that I’ve arrived home not only because the Ale­man­nic dialect creeps into people’s speech but also because peo­ple are sud­den­ly named Him­mels­bach, Göp­pert and Ohne­mus: Names that are, to my ear, deeply root­ed in the region.

And sure enough: All of them can be shown to have the high­est fre­quen­cy in “my” or one of the neigh­bor­ing dis­tricts (“Land­kreise”). I then dis­cov­ered an excel­lent strat­e­gy to find more of these last names: I scrolled through the face­book friends of my rel­a­tives. (And I got lots of ideas doing that – you could ana­lyze pub­lic face­book pro­files that spec­i­fy the place of res­i­dence in order to cre­at­ed a city’s “name pro­file”. You could put more weight on names of high school stu­dents, because they tend to live were they were born. Major cities would have to be ignored because peo­ple move a lot, etc. How­ev­er that research strat­e­gy might bor­der on ille­gal­i­ty and would set a rather bad exam­ple con­cern­ing pri­va­cy.)

So, what to do if you sus­pect that a last name is typ­i­cal for a cer­tain region? How can you local­ize it? Weit­er­lesen

Mehr Spaß mit Ngrams

Heute gibt es ein buntes Sam­mel­suri­um von Abfra­gen mit dem Ngram View­er. Ich finde sie alle aus dem einen oder anderen Grund ganz erhel­lend. Vielle­icht ja son­st noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schön­ste” Abfrage ist sich­er die fol­gende, die ich kür­zlich (in ein­er min­i­mal abwe­ichen­den Ver­sion) auch in den Sprachlog-Kom­mentaren gepostet habe:

Wie man sieht, wenn man draufk­lickt, habe ich Aller­weltswörter abge­fragt: der, die, und, in, … Das sind Wörter, die so häu­fig sind, dass man in einem aus­ge­wo­ge­nen Kor­pus eigentlich keine großen Schwankun­gen erwarten würde. Man braucht sie ein­fach immer, für jeden Text. Klar, das geht nicht unbe­gren­zt weit zurück, irgend­wann sind die Artikel ja auch ent­standen, und Per­son­al­pronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuch­lich wie heute. Aber für die späte früh­neuhochdeutsche und neuhochdeutsche Zeit, die der Ngram View­er abdeckt, sollte es doch einiger­maßen passen. Weit­er­lesen

[Werkzeug] Burnouts bei Cosmas II

Ein Fre­und hat mich gefragt, ob die Ver­wen­dung des Begriffs Burnout seit den 1990ern in Zeitung­s­tex­ten zugenom­men habe und wie er das her­aus­find­en könne. Für eine medi­zinis­che Dok­torar­beit. Juhu, konkreter Nutzen für die Men­schheit involviert!

Nun gibt es elek­tro­n­is­che Textsamm­lun­gen, mit denen sich solche Abfra­gen machen lassen, aber oft sind sie für Laien schw­er zu durch­schauen. (Und ich will nicht behaupten, dass ich da den vollen Durch­blick hätte.) Eine davon ist das Deutsche Ref­eren­zko­r­pus, das man über Cos­mas II nutzen kann. Bei Beiträ­gen zum Anglizis­mus des Jahres 2010 kamen schon öfter Recherchen dazu vor, jet­zt will ich ein­mal exem­plar­isch zeigen, wie man an solche Fragestel­lun­gen herange­hen kann.

Ich benutze hier die Webober­fläche, aber man kann sich die Soft­ware auch instal­lieren. Zuerst braucht man aber (aus rechtlichen Grün­den) auf jeden Fall ein Nutzerkon­to. Lei­der ist die Nav­i­ga­tion der Ober­fläche sub­op­ti­mal, man muss ständig zwis­chen der hor­i­zon­tal­en Leiste und der linken Spalte hin- und her­sprin­gen. Zunächst ein­mal oben auf “Anmel­dung”, dann links auf “Login” und dann oben wieder auf “Recherche”. Und wieder links auf “Archiv”. Hier kann man jet­zt unter den fol­gen­den Archiv­en auswählen:

  • W — Archiv der geschriebe­nen Sprache
  • W-ÜBRIG — Archiv der aus­sortierten geschriebe­nen Kor­po­ra
  • HIST — Archiv der his­torischen Kor­po­ra
  • GFDS — Kartei der Gesellschaft für deutsche Sprache
  • TAGGED — Archiv der mor­phosyn­tak­tisch annotierten Kor­po­ra
  • WK-PH — Archiv der phasen­gegliederten Wen­deko­r­po­ra
  • W-TAGGED — Auswahl mit CONNEXOR getag­gter Kor­po­ra

Für unsere Zwecke brauchen wir das W-Archiv, die anderen sind entwed­er zeitlich nicht rel­e­vant oder zu klein oder bei­des. Nach dem Klick darauf erscheint eine Über­sicht über alle “virtuellen Kor­po­ra”, die darin enthal­ten sind. Das sind haupt­säch­lich Zeitung­s­texte aus ganz ver­schiede­nen Jahren und ganz ver­schiede­nen Umfangs. Damit wir sich­er sagen kön­nen, dass es eine rel­a­tive Zunahme von Burnout gibt, müssen wir sich­er­stellen, dass wir für alle unter­sucht­en Jahre unge­fähr gle­iche Textmen­gen haben – wir brauchen also Zeitun­gen, die die gle­ichen Jahrgänge abdeck­en.

Weit­er­lesen

Namenlandschaften 1: Große Flächen

Über die Feiertage ist mir mal wieder aufge­fall­en, wie prä­gend Namen für eine Gegend sein kön­nen. Wenn ich in den Süden fahre, merke ich nicht nur am isch und kannsch und weisch, dass ich zuhause angekom­men bin, son­dern auch daran, dass die Leute plöt­zlich Him­mels­bach, Göp­pert und Ohne­mus heißen.

Und tat­säch­lich sind alle Namen, die mir typ­isch vorka­men, in “meinem” Land­kreis oder einem direkt angren­zen­den mit Abstand am häu­fig­sten. Um noch mehr solch­er Namen zu find­en, habe ich dann die Face­book­fre­unde mein­er Ver­wandtschaft durchgeschaut, was sich als exzel­lente Strate­gie erwiesen hat. (Man kön­nte da richtig kreativ wer­den mit Face­bookpro­filen: Öffentlich zugängliche Pro­file mit Wohnor­tangaben automa­tisch auswerten und damit ein “Namen­pro­fil” eines Ortes erstellen. Namen von Leuten, die noch zur Schule gehen, kön­nten dabei ein stärk­eres Gewicht bekom­men, weil sie eher noch an ihrem Herkun­ft­sort leben. Oder Namen von Leuten, bei denen Wohn- und Schu­lort iden­tisch sind. Großstädte wer­den wegen der vie­len Umzieherei ignori­ert. Etc. Aber ich fürchte, das gren­zt dann schon an Ille­gal­ität und set­zt kein so gutes Zeichen in punc­to Daten­schutz.)

Wenn man nun Namen als typ­isch im Ver­dacht hat, wie kriegt man raus, wie häu­fig sie wo sind? Als am besten geeignet für solche Zwecke haben sich Dat­en aus elek­tro­n­is­chen Tele­fon­büch­ern her­aus­gestellt – darin sind die Namen ja ganz genau bes­timmten Postleitzahlen­bere­ichen zuge­ord­net. Mit­tels bes­timmter Com­put­er­pro­gramme kann man sie dann pri­ma auf ein­er Deutsch­land­karte verorten.

Ide­ale, aber lei­der nicht öffentlich zugängliche Möglichkeit­en dazu hat der Deutsche Fam­i­li­en­na­me­nat­las (ein Pro­jekt der Unis Mainz und Freiburg, mit Tele­fon­buch­dat­en von 2005), aber es gibt auch im Inter­net eine sehr brauch­bare Option, auf die ich hier schon ein­mal ver­wiesen habe, näm­lich Geogen (mit Tele­fon­buch­dat­en von 2002).

Unterteilt in zwei kleinere Beiträge will ich zunächst ein­mal zeigen, welche Namen es über­all gibt und bei welchen man trotz recht weit­er Ver­bre­itung großflächige Unter­schiede erken­nen kann (heute) und dann die ein­gangs erwäh­n­ten Namen zeigen, die für einen ganz bes­timmten Land­kreis typ­isch sind und son­st fast nir­gends in Deutsch­land auftreten (lat­er this week). Weit­er­lesen

[Werkzeug] Ngram Viewer

Beim Lan­guage Log wurde ja schon aus­führlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Kor­pus, das einen Auszug aus Google­Books darstellt, nach Wörtern oder Wortket­ten suchen und sich ihren Häu­figkeitsver­lauf anzeigen lassen. Dabei wird die Gebrauchs­fre­quenz errech­net, indem das Gesuchte (das n-gram, wobei n für die Zahl der Wörter im Such­be­fehl ste­ht) durch die Gesamt­wortzahl des entsprechen­den Jahres geteilt wird.

Die Sache ist für uns aus vie­len tausend Grün­den prob­lema­tisch: wilde Textsorten­zusam­menset­zung des Kor­pus – aber für Englisch gibt es immer­hin Unterko­r­po­ra wie Fic­tion, Amer­i­can Eng­lish und British Eng­lish –, die Kor­pus­größe vari­iert stark, d.h. Funde zu einem rel­a­tiv frühen Zeit­punkt (z.B. 1800) schla­gen stärk­er zu Buche als später (z.B. 2000), auch wenn nor­mal­isiert wurde, …

Messer, Gabel, …

Ein paar mögliche Prob­leme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchge­spielt. Man kön­nte hier den Ein­druck erhal­ten, die Gabel trete am sel­tensten auf und das Mess­er sei enorm viel häu­figer (alle Dia­gramme führen direkt zur entsprechen­den Suchan­frage mit größeren Darstel­lun­gen):

Weit­er­lesen

Von r, Nasalstrichen und Häkchen

Ich trage seit Urzeit­en die Kind­heit­serin­nerung mit mir herum, dass ich lange Zeit dachte, die Goten bei Aster­ix und die Goten hät­ten einen Sprach­fehler, weil sie immer f statt s sagten. Wer’s nicht ken­nt: Die Goten “sprechen” in Frak­turschrift. Das ist eine soge­nan­nte “gebroch­ene Schrift”, die neben dem run­den <s> auch das lange <ſ> besitzt. (Die Verteilung ist ganz grob: Sil­be­nan­fang und -mitte <ſ>, Sil­be­nende <s>.) Nun habe ich eben ein­mal nach einem Beispiel gegooglet und ent­deckt, dass die Erin­nerung wohl falsch ist: In den Comics wird immer das <s> benutzt. Hier z.B. müsste das <ſ> in <marschieren>, <ist> und <Lust> ste­hen und auch hier ist es nir­gends zu find­en. Eine vom heuti­gen Stand­punkt aus leser­fre­undliche Entschei­dung.

Dass <ſ> und <f> sich in gebroch­enen Schriften sehr ähn­lich sehen, ist ja recht weit ver­bre­it­etes Wis­sen:

nit vstopf­fē lassē

r gegen r!

Aber wusstet Ihr, dass es zwei Schrei­bun­gen von <r> gab? Schaut mal:

…/deßhalben sol man sich daruor hüten/vnd sonderlich/vor grossem zoren/Vnmuot/Sorgfeltigkayt/vnnd forchte des todts

Weit­er­lesen

Wie man ein Korpus zusammenstückelt und einen Teufelspakt schließt

Ich bin momen­tan dabei, eine Samm­lung früh­neuhochdeutsch­er Texte (ein “Kor­pus”), aus denen man ide­al­er­weise Aus­sagen über das Deutsch der dama­li­gen Zeit ableit­en kann, für mein Dis­ser­ta­tionsvorhaben anzu­passen. Das Kor­pus wurde ursprünglich zusam­mengestellt, um die Entste­hung der Sub­stan­tiv­großschrei­bung zu unter­suchen, deshalb machte es z.B. nichts aus, dass auch über­set­zte Texte darin enthal­ten waren. Bei mein­er Fragestel­lung habe ich aber ein bißchen Angst, dass die Wort- und Satzstruk­tur durch direk­te lateinis­che Vor­la­gen bee­in­flusst sein kön­nte. Deshalb werfe ich über­set­zte Texte raus und nehme andere rein.

Ich war also in der let­zten Zeit viel auf der Suche nach passenden Tex­ten – sie müssen aus bes­timmten Zeitspan­nen sein, als Drucke vor­liegen und von bes­timmten Druck­o­rten (oder wenig­stens aus deren Dialek­t­ge­bi­et) stam­men. Ach ja, Gereimtes darf auch nicht. Und min­destens 4000 Wörter lang. Und sie müssen Orig­i­nale oder Fak­sim­i­les als Vor­lage haben.

Per­fekt sind Texte, die elek­tro­n­isch vor­liegen, wie z.B. die Texte des Bon­ner Früh­neuhochdeutschko­r­pus. Auch bei Wik­isource find­et sich für ver­gan­gene Jahrhun­derte einiges, was sorgfältig von den Orig­i­nalen abgetippt und kor­rek­turge­le­sen wurde und sich damit auch bei Unsicher­heit­en immer ver­gle­ichen lässt. Weniger per­fekt, aber als Lück­en­füller geeignet ist auch Google­Books – die Tex­terken­nung, die man über die alten Drucke gejagt hat, taugt zwar für Frak­tur nichts, aber man kann sich viele alte Büch­er als Pdf run­ter­laden und dann per Auge durch­suchen. Anson­sten gibt es auch noch eine ganze Rei­he von Unibib­lio­theken, die ihre alten Drucke und Manuskripte als Bilder dig­i­tal­isieren, z.B. Hei­del­berg und Göt­tin­gen. (Hei­del­berg hat auch eine enorm aus­führliche Lin­kliste zum The­ma.)

Auf mein­er Suche habe ich viele Texte ange­le­sen – auch welche, die gar nicht geeignet, aber dafür sehr kurios sind. Zum Beispiel diesen (Foto von His­to­ri­ograf):

Weit­er­lesen

Wörter auf -nf

Vor ein­er Weile kam jemand mit der Suchan­frage

wörter mit endung nf

hier­her. Offline kön­nte man so etwas mit einem soge­nan­nten “rück­läu­fi­gen Wörter­buch” her­aus­find­en. Aber was’n Stress!

Meine Online-Stan­dard­lö­sung in solchen Fällen ist canoo.net. Ging hier aber erst­mal nicht, denn da muss man min­destens drei Buch­staben eingeben. Die Anfrage *nf führt zu “Bitte seien Sie genauer: Wild­cards sind erst ab 3 Buch­staben erlaubt”. Wie nervig, es will ja kein­er tausend (= 30) Abfra­gen mit *anf, *bnf, … machen!

Aber elexiko vom Insti­tut für Deutsche Sprache ist koop­er­a­tiv, es spuckt 15 Tre­f­fer aus. Sucht man sich davon nur die ein­fachen Wörter aus, schnur­rt die Zahl der­er auf -nf ganz schnell auf vier zusam­men: Hanf, Senf, fünf und der Eigen­name Genf. Sind das schon alle? Weit­er­lesen

[Schplock goes English] How to pronounce German ö and ü

Wel­come to Schplock’s first Eng­lish post – a tuto­r­i­al on round­ed front vow­els, name­ly <ö> and <ü>. Impa­tient read­ers might want to skip the more the­o­ret­i­cal first “half” and jump right to the DIY-part below.

What is round in a rounded vowel?

Round­ed vow­els are gen­er­al­ly pro­duced by form­ing a cir­cle with your lips. Or more tech­ni­cal­ly:

Lip round­ing involves draw­ing the cor­ners of the lips togeth­er and pro­trud­ing the lips for­ward from their nor­mal rest posi­tion. (Mad­dieson 2008)

That’s a very com­mon prop­er­ty in back vow­els (pro­duced by putting your tongue some­where in the back of your mouth) like

  • [o] which doesn’t exist in Eng­lish, but you may know it from French eau ‘water’, Ital­ian sole ‘sun’ or Span­ish tomar ‘take’,
  • [ɔ] in thought,
  • [u] in goose and
  • [ʊ] in book.

An extreme­ly sim­pli­fied ver­sion of where those sounds are pro­duced can be found in the fig­ure to the right.

In Ger­man, those four sounds dif­fer not only in tongue posi­tion, but also in length: the “lax” vow­els /ɔ/ and /ʊ/ are always short, the “tense” vow­els /o/ and /u/ are always long.

Front vs. back

Round­ing in front vow­els is pret­ty rare in the world’s lan­guages. The prop­er­ty can be found in only 37 of the 526 lan­guages con­sid­ered for the cor­re­spond­ing WALS-map. Only 23 of these pos­sess both high (i.e. ü) and mid (i.e. ö) round­ed front vow­els.1

Source: Ian Mad­dieson, World Atlas of Lan­guage Struc­tures. CC BY-NC-ND.2 (Click for a larg­er ver­sion)

Weit­er­lesen