Schlagwort-Archive: Werkzeuge

[Werkzeug] Es läppert sich …

Von Kristin Kopf

Kürzlich kam jemand mit der Suchanfrage es läppert sich ethymologisch hierher. Zu ethymologisch hab ich schon mal was geschrieben, zum Läppern aber nicht. Wie zur Herkunft vieler anderer Wörter oder Phrasen auch nicht. Daher gibt’s heute ein bißchen Hilfe zur Selbsthilfe.

Will man die Bedeutungs- und Lautgeschichte eines Wortes erkunden, dann hilft ein Blick in ein sogenanntes “Etymologisches Wörterbuch”. Für das Deutsche gibt es da mehrere, zum Beispiel den Kluge, den Pfeifer und das Duden-Herkunftswörterbuch (genaue Angaben s.u.). Ich habe früher meist den Kluge benutzt, finde aber Pfeifer mittlerweile besser, weil er mehr Wortbildungen verzeichnet. Und die gute Nachricht: Die Einträge aus dem Pfeifer gibt es auch online, und zwar auf der DWDS-Seite.

Einfach in das Suchfeld das fragliche Wort (hier: läppern) eingeben. Die Suche erfolgt in allen Komponenten des DWDS (das sind u.a. Korpora und ein “normales” Wörterbuch) und die Ergebnisse werden in kleinen Kästen präsentiert. Der Etymologie-Kasten befindet sich oben rechts, hier orange hinterlegt:

Da zeigt sich dann, dass es läppert sich (bzw. es läppert sich zusammen) die Bedeutung ‘in kleinen Mengen zusammenkommen’ hat. Sie lässt sich mit der Geschichte des Verbs läppern recht gut nachvollziehen: Weiterlesen →

[Schplock goes English] Last names in Germany

Von Kristin Kopf

This is a (slightly modified) translation of a text I wrote in January on the distribution of last names in Germany. It was requested by Petra and I hope it meets your expectations! My heartfelt thanks go to Robert for proofreading, all remaining errors are of course my own.

During the Christmas holidays I noticed once more how names can shape a region. When I’m travelling south, I realize that I’ve arrived home not only because the Alemannic dialect creeps into people’s speech but also because people are suddenly named Himmelsbach, Göppert and Ohnemus: Names that are, to my ear, deeply rooted in the region.

And sure enough: All of them can be shown to have the highest frequency in “my” or one of the neighboring districts (“Landkreise”). I then discovered an excellent strategy to find more of these last names: I scrolled through the facebook friends of my relatives. (And I got lots of ideas doing that – you could analyze public facebook profiles that specify the place of residence in order to created a city’s “name profile”. You could put more weight on names of high school students, because they tend to live were they were born. Major cities would have to be ignored because people move a lot, etc. However that research strategy might border on illegality and would set a rather bad example concerning privacy.)

So, what to do if you suspect that a last name is typical for a certain region? How can you localize it? Weiterlesen →

Mehr Spaß mit Ngrams

Von Kristin Kopf

Heute gibt es ein buntes Sammelsurium von Abfragen mit dem Ngram Viewer. Ich finde sie alle aus dem einen oder anderen Grund ganz erhellend. Vielleicht ja sonst noch wer?

Ab wann ist das Korpus brauchbar?

Meine “schönste” Abfrage ist sicher die folgende, die ich kürzlich (in einer minimal abweichenden Version) auch in den Sprachlog-Kommentaren gepostet habe:

Wie man sieht, wenn man draufklickt, habe ich Allerweltswörter abgefragt: der, die, und, in, … Das sind Wörter, die so häufig sind, dass man in einem ausgewogenen Korpus eigentlich keine großen Schwankungen erwarten würde. Man braucht sie einfach immer, für jeden Text. Klar, das geht nicht unbegrenzt weit zurück, irgendwann sind die Artikel ja auch entstanden, und Personalpronomen waren z.B. im Althochdeutschen noch lange nicht so gebräuchlich wie heute. Aber für die späte frühneuhochdeutsche und neuhochdeutsche Zeit, die der Ngram Viewer abdeckt, sollte es doch einigermaßen passen. Weiterlesen →

[Werkzeug] Burnouts bei Cosmas II

Von Kristin Kopf

Ein Freund hat mich gefragt, ob die Verwendung des Begriffs Burnout seit den 1990ern in Zeitungstexten zugenommen habe und wie er das herausfinden könne. Für eine medizinische Doktorarbeit. Juhu, konkreter Nutzen für die Menschheit involviert!

Nun gibt es elektronische Textsammlungen, mit denen sich solche Abfragen machen lassen, aber oft sind sie für Laien schwer zu durchschauen. (Und ich will nicht behaupten, dass ich da den vollen Durchblick hätte.) Eine davon ist das Deutsche Referenzkorpus, das man über Cosmas II nutzen kann. Bei Beiträgen zum Anglizismus des Jahres 2010 kamen schon öfter Recherchen dazu vor, jetzt will ich einmal exemplarisch zeigen, wie man an solche Fragestellungen herangehen kann.

Ich benutze hier die Weboberfläche, aber man kann sich die Software auch installieren. Zuerst braucht man aber (aus rechtlichen Gründen) auf jeden Fall ein Nutzerkonto. Leider ist die Navigation der Oberfläche suboptimal, man muss ständig zwischen der horizontalen Leiste und der linken Spalte hin- und herspringen. Zunächst einmal oben auf “Anmeldung”, dann links auf “Login” und dann oben wieder auf “Recherche”. Und wieder links auf “Archiv”. Hier kann man jetzt unter den folgenden Archiven auswählen:

W — Archiv der geschriebenen Sprache
W‑ÜBRIG — Archiv der aussortierten geschriebenen Korpora
HIST — Archiv der historischen Korpora
GFDS — Kartei der Gesellschaft für deutsche Sprache
TAGGED — Archiv der morphosyntaktisch annotierten Korpora
WK-PH — Archiv der phasengegliederten Wendekorpora
W‑TAGGED — Auswahl mit CONNEXOR getaggter Korpora

Für unsere Zwecke brauchen wir das W‑Archiv, die anderen sind entweder zeitlich nicht relevant oder zu klein oder beides. Nach dem Klick darauf erscheint eine Übersicht über alle “virtuellen Korpora”, die darin enthalten sind. Das sind hauptsächlich Zeitungstexte aus ganz verschiedenen Jahren und ganz verschiedenen Umfangs. Damit wir sicher sagen können, dass es eine relative Zunahme von Burnout gibt, müssen wir sicherstellen, dass wir für alle untersuchten Jahre ungefähr gleiche Textmengen haben – wir brauchen also Zeitungen, die die gleichen Jahrgänge abdecken.

Weiterlesen →

Namenlandschaften 1: Große Flächen

Von Kristin Kopf

Über die Feiertage ist mir mal wieder aufgefallen, wie prägend Namen für eine Gegend sein können. Wenn ich in den Süden fahre, merke ich nicht nur am isch und kannsch und weisch, dass ich zuhause angekommen bin, sondern auch daran, dass die Leute plötzlich Himmelsbach, Göppert und Ohnemus heißen.

Und tatsächlich sind alle Namen, die mir typisch vorkamen, in “meinem” Landkreis oder einem direkt angrenzenden mit Abstand am häufigsten. Um noch mehr solcher Namen zu finden, habe ich dann die Facebookfreunde meiner Verwandtschaft durchgeschaut, was sich als exzellente Strategie erwiesen hat. (Man könnte da richtig kreativ werden mit Facebookprofilen: Öffentlich zugängliche Profile mit Wohnortangaben automatisch auswerten und damit ein “Namenprofil” eines Ortes erstellen. Namen von Leuten, die noch zur Schule gehen, könnten dabei ein stärkeres Gewicht bekommen, weil sie eher noch an ihrem Herkunftsort leben. Oder Namen von Leuten, bei denen Wohn- und Schulort identisch sind. Großstädte werden wegen der vielen Umzieherei ignoriert. Etc. Aber ich fürchte, das grenzt dann schon an Illegalität und setzt kein so gutes Zeichen in puncto Datenschutz.)

Wenn man nun Namen als typisch im Verdacht hat, wie kriegt man raus, wie häufig sie wo sind? Als am besten geeignet für solche Zwecke haben sich Daten aus elektronischen Telefonbüchern herausgestellt – darin sind die Namen ja ganz genau bestimmten Postleitzahlenbereichen zugeordnet. Mittels bestimmter Computerprogramme kann man sie dann prima auf einer Deutschlandkarte verorten.

Ideale, aber leider nicht öffentlich zugängliche Möglichkeiten dazu hat der Deutsche Familiennamenatlas (ein Projekt der Unis Mainz und Freiburg, mit Telefonbuchdaten von 2005), aber es gibt auch im Internet eine sehr brauchbare Option, auf die ich hier schon einmal verwiesen habe, nämlich Geogen (mit Telefonbuchdaten von 2002).

Unterteilt in zwei kleinere Beiträge will ich zunächst einmal zeigen, welche Namen es überall gibt und bei welchen man trotz recht weiter Verbreitung großflächige Unterschiede erkennen kann (heute) und dann die eingangs erwähnten Namen zeigen, die für einen ganz bestimmten Landkreis typisch sind und sonst fast nirgends in Deutschland auftreten (later this week). Weiterlesen →

[Werkzeug] Ngram Viewer

Von Kristin Kopf

Beim Language Log wurde ja schon ausführlich über das neuste Google-Spielzeug berichtet – man kann damit in einem Korpus, das einen Auszug aus GoogleBooks darstellt, nach Wörtern oder Wortketten suchen und sich ihren Häufigkeitsverlauf anzeigen lassen. Dabei wird die Gebrauchsfrequenz errechnet, indem das Gesuchte (das n‑gram, wobei n für die Zahl der Wörter im Suchbefehl steht) durch die Gesamtwortzahl des entsprechenden Jahres geteilt wird.

Die Sache ist für uns aus vielen tausend Gründen problematisch: wilde Textsortenzusammensetzung des Korpus – aber für Englisch gibt es immerhin Unterkorpora wie Fiction, American English und British English –, die Korpusgröße variiert stark, d.h. Funde zu einem relativ frühen Zeitpunkt (z.B. 1800) schlagen stärker zu Buche als später (z.B. 2000), auch wenn normalisiert wurde, …

Messer, Gabel, …

Ein paar mögliche Probleme habe ich mal mit der Suche nach “Messer,Gabel,Löffel” für 1900 bis 2000 durchgespielt. Man könnte hier den Eindruck erhalten, die Gabel trete am seltensten auf und das Messer sei enorm viel häufiger (alle Diagramme führen direkt zur entsprechenden Suchanfrage mit größeren Darstellungen):

Weiterlesen →

Von r, Nasalstrichen und Häkchen

Von Kristin Kopf

Ich trage seit Urzeiten die Kindheitserinnerung mit mir herum, dass ich lange Zeit dachte, die Goten bei Asterix und die Goten hätten einen Sprachfehler, weil sie immer f statt s sagten. Wer’s nicht kennt: Die Goten “sprechen” in Frakturschrift. Das ist eine sogenannte “gebrochene Schrift”, die neben dem runden <s> auch das lange <ſ> besitzt. (Die Verteilung ist ganz grob: Silbenanfang und ‑mitte <ſ>, Silbenende <s>.) Nun habe ich eben einmal nach einem Beispiel gegooglet und entdeckt, dass die Erinnerung wohl falsch ist: In den Comics wird immer das <s> benutzt. Hier z.B. müsste das <ſ> in <marschieren>, <ist> und <Lust> stehen und auch hier ist es nirgends zu finden. Eine vom heutigen Standpunkt aus leserfreundliche Entscheidung.

Dass <ſ> und <f> sich in gebrochenen Schriften sehr ähnlich sehen, ist ja recht weit verbreitetes Wissen:

nit vstopffē lassē

r gegen r!

Aber wusstet Ihr, dass es zwei Schreibungen von <r> gab? Schaut mal:

…/deßhalben sol man sich daruor hüten/vnd sonderlich/vor grossem zoren/Vnmuot/Sorgfeltigkayt/vnnd forchte des todts

Weiterlesen →

Wie man ein Korpus zusammenstückelt und einen Teufelspakt schließt

Von Kristin Kopf

Ich bin momentan dabei, eine Sammlung frühneuhochdeutscher Texte (ein “Korpus”), aus denen man idealerweise Aussagen über das Deutsch der damaligen Zeit ableiten kann, für mein Dissertationsvorhaben anzupassen. Das Korpus wurde ursprünglich zusammengestellt, um die Entstehung der Substantivgroßschreibung zu untersuchen, deshalb machte es z.B. nichts aus, dass auch übersetzte Texte darin enthalten waren. Bei meiner Fragestellung habe ich aber ein bißchen Angst, dass die Wort- und Satzstruktur durch direkte lateinische Vorlagen beeinflusst sein könnte. Deshalb werfe ich übersetzte Texte raus und nehme andere rein.

Ich war also in der letzten Zeit viel auf der Suche nach passenden Texten – sie müssen aus bestimmten Zeitspannen sein, als Drucke vorliegen und von bestimmten Druckorten (oder wenigstens aus deren Dialektgebiet) stammen. Ach ja, Gereimtes darf auch nicht. Und mindestens 4000 Wörter lang. Und sie müssen Originale oder Faksimiles als Vorlage haben.

Perfekt sind Texte, die elektronisch vorliegen, wie z.B. die Texte des Bonner Frühneuhochdeutschkorpus. Auch bei Wikisource findet sich für vergangene Jahrhunderte einiges, was sorgfältig von den Originalen abgetippt und korrekturgelesen wurde und sich damit auch bei Unsicherheiten immer vergleichen lässt. Weniger perfekt, aber als Lückenfüller geeignet ist auch GoogleBooks – die Texterkennung, die man über die alten Drucke gejagt hat, taugt zwar für Fraktur nichts, aber man kann sich viele alte Bücher als Pdf runterladen und dann per Auge durchsuchen. Ansonsten gibt es auch noch eine ganze Reihe von Unibibliotheken, die ihre alten Drucke und Manuskripte als Bilder digitalisieren, z.B. Heidelberg und Göttingen. (Heidelberg hat auch eine enorm ausführliche Linkliste zum Thema.)

Auf meiner Suche habe ich viele Texte angelesen – auch welche, die gar nicht geeignet, aber dafür sehr kurios sind. Zum Beispiel diesen (Foto von Historiograf):

Weiterlesen →

Wörter auf ‑nf

Von Kristin Kopf

Vor einer Weile kam jemand mit der Suchanfrage

wörter mit endung nf

hierher. Offline könnte man so etwas mit einem sogenannten “rückläufigen Wörterbuch” herausfinden. Aber was’n Stress!

Meine Online-Standardlösung in solchen Fällen ist canoo.net. Ging hier aber erstmal nicht, denn da muss man mindestens drei Buchstaben eingeben. Die Anfrage *nf führt zu “Bitte seien Sie genauer: Wildcards sind erst ab 3 Buchstaben erlaubt”. Wie nervig, es will ja keiner tausend (= 30) Abfragen mit *anf, *bnf, … machen!

Aber elexiko vom Institut für Deutsche Sprache ist kooperativ, es spuckt 15 Treffer aus. Sucht man sich davon nur die einfachen Wörter aus, schnurrt die Zahl derer auf -nf ganz schnell auf vier zusammen: Hanf, Senf, fünf und der Eigenname Genf. Sind das schon alle? Weiterlesen →

[Schplock goes English] How to pronounce German ö and ü

Von Kristin Kopf

Welcome to Schplock’s first English post – a tutorial on rounded front vowels, namely <ö> and <ü>. Impatient readers might want to skip the more theoretical first “half” and jump right to the DIY-part below.

What is round in a rounded vowel?

Rounded vowels are generally produced by forming a circle with your lips. Or more technically:

Lip rounding involves drawing the corners of the lips together and protruding the lips forward from their normal rest position. (Maddieson 2008)

That’s a very common property in back vowels (produced by putting your tongue somewhere in the back of your mouth) like

[o] which doesn’t exist in English, but you may know it from French eau ‘water’, Italian sole ’sun’ or Spanish tomar ‘take’,
[ɔ] in thought,
[u] in goose and
[ʊ] in book.

An extremely simplified version of where those sounds are produced can be found in the figure to the right.

In German, those four sounds differ not only in tongue position, but also in length: the “lax” vowels /ɔ/ and /ʊ/ are always short, the “tense” vowels /o/ and /u/ are always long.

Front vs. back

Rounding in front vowels is pretty rare in the world’s languages. The property can be found in only 37 of the 526 languages considered for the corresponding WALS-map. Only 23 of these possess both high (i.e. ü) and mid (i.e. ö) rounded front vowels.¹

Source: Ian Maddieson, World Atlas of Language Structures. CC BY-NC-ND.2 (Click for a larger version)

Weiterlesen →