Spam Poetry

Von Anatol Stefanowitsch

car­a­van cal­cu­lus
curve priest­hood / with the bur­den of inten­tions / con­trive respectabil­i­ty
lus­cious recruiter / nobly explo­sive / snare human nature
Xerox gen­til­i­ty / hoarse­ly pyra­mid / retir­ing reprisal

Nein, ich bin nicht zu den Lit­er­atur­wis­senschaftlern überge­laufen, und das ist keine zeit­genös­sis­che englis­che Poe­sie. Ich habe diese Verse aus aus­gewählten Betr­e­f­fzeilen der E‑Mails zusam­mengestellt, die tagtäglich in meinem Spamord­ner lan­den. Es ist noch gar nicht lange her, da waren diese Betr­e­f­fzeilen ger­ade­heraus: „Sex all night long?“, „U can save your mon­ey“, „Need S0ftware?“ oder „Con­trat­u­la­tions! You have won the lot­tery!“. Wenn man die elek­tro­n­is­chen Wurf­sendun­gen öffnete, ahnte man, was einen erwartete: zweifel­hafte Offer­ten für Via­gra, Hypotheken und Adobe Pho­to­shop oder die Auf­forderung, doch bitte umge­hend seine Bankverbindung nach Nige­ria zu über­mit­teln um das Preis­geld für eine Lot­terie zu erhal­ten, an der man nie teilgenom­men hat­te. Doch seit einiger Zeit sind die Betr­e­f­fzeilen immer häu­figer kleine sur­re­al­is­tis­che Kunst­werke und wenn man die E‑Mails öffnet, enthal­ten sie Tex­twüsten aus zusam­men­hangslosen Sprach­fet­zen. Was ist da geschehen?

Es han­delt sich um die jüng­ste Spi­rale im Wet­trüsten zwis­chen Spam­mern und Anti­spam­fil­tern. Diese Fil­ter ver­suchen, die Spam­mer dort zu pack­en, wo sie am ver­wund­barsten sind — bei den Sprach­mustern, die sich im dig­i­tal­en Werbe­müll unweiger­lich find­en. Dabei dür­fen sie natür­lich nicht ein­fach eine Liste ver­boten­er Wörter abar­beit­en und alle Nachricht­en abweisen, die eines oder mehrere dieser Wörter enthal­ten. Denn es kön­nte ja sein, dass ein alter Fre­und mir von seinem Lot­to­gewinn erzählen möchte oder dass Bob Dole mich als Wirtschaftsmin­is­ter der USA vorschla­gen will und dabei erwäht, dass ihm die neue Via­gra-Wer­bekam­pagne nicht gefällt. Diese Nachricht­en müssen mich natür­lich erre­ichen können.

Deshalb gehen gute Anti­spam­fil­ter heute aus­gek­lügel­ter vor. Sie wer­den zunächst an zwei elek­tro­n­is­chen Kor­po­ra (=Textsamm­lun­gen) trainiert: einem, das aus möglichst vie­len mein­er erwün­scht­en E‑Mails beste­ht, und einem, das aus möglichst vie­len der uner­wüscht­en Sülz­mails beste­ht. Für jedes dieser Kor­po­ra erstellen sie eine Häu­figkeit­sliste aller Wörter. Die jew­eils zehn häu­fig­sten Wörter in ein­er zufäl­li­gen Auswahl mein­er erwün­scht­en und uner­wün­scht­en E‑Mails sind beispiel­sweise die fol­gen­den (dabei habe ich der Über­sicht hal­ber Wörter wie the, of, in, usw. wegge­lassen, die auf bei­den Lis­ten Spitzen­po­si­tio­nen einnehmen):

Erwün­scht     Uner­wün­scht
ana­tol 34     prize 57
jour­nal 33     lot­tery 45
lin­guis­tics 27     best­seller 42
lan­guage 24     adobe 36
paper 24     free 30
ste­fanow­itsch 24     via­gra 24
bre­men 23     win­ning 24
metaphor 21     mon­ey 24
stu­dent 21     address 21
cor­pus 21     pay­ment 21

Nun wird für jedes Wort die Spamwahrschein­lichkeit ermit­telt, also die Wahrschein­lick­eit, mit der es in ein­er Spam­mail vorkommt. Die Top Ten auf den bei­den Lis­ten kom­men in meinen Email-Kor­po­ra jew­eils zu 0 Prozent bzw. zu 100 Prozent in den uner­wün­scht­en Emails vor, aber die meis­ten Wörter liegen irgend­wo dazwis­chen: das Wort offer kommt zum Beispiel zu 75 Prozent in Spam­mails und zu 25 Prozent in erwün­scht­en Emails vor, beim Wort wish­es (aus der Gruß­formel Best Wish­es) ist es genau umgekehrt. Für den Fil­ter sind diese Prozentzahlen Wahrschein­lichkeit­en dafür, dass eine Nachricht, die das entsprechende Wort enthält, eine Werbe­mail ist. Er sucht also nach Wörtern, die beson­ders stark in die eine oder andere Rich­tung abwe­ichen. Die Wahrschein­lichkeit­en wer­den zusam­mengezählt und daraus ergibt sich eine Gesamt­wahrschein­lichkeit. Würde diese bei 50 Prozent liegen, wäre der Fil­ter unentsch­ieden; tat­säch­lich liegt sie aber typ­is­cher­weise deut­lich darüber (dann weiß der Fil­ter: das ist Spam) oder darunter (dann weiß der Fil­ter: das ist eine erwün­schte Nachricht).

Die guten und schlecht­en Wörter wer­den also gegeneinan­der aufge­wogen. Wenn in ein­er Email beispiel­sweise das Wort prize vorkommt, ergibt sich daraus zunächst eine Spamwahrschein­lichkeit von 100%. Wenn in der sel­ben Mail aber die Wörter Ana­tol und lin­guis­tics vorkom­men, so heben sie diese Wahrschein­lichkeit nicht nur auf son­dern kehren sie sog­ar um. Auf diese Weise würde mir eine Email, in der man mir ankündigt, dass ich den neugeschaf­fe­nen „Nobel Prize in Lin­guis­tics“ gewon­nen habe, nicht entgehen.

Und hier kom­men die Zufall­s­texte ins Spiel: sie stellen einen Ver­such dar die Anti­spam­fil­ter zu überlis­ten. Die Zufall­s­texte sollen dafür sor­gen, dass die Fil­ter keine aus­sagekräfti­gen Häu­figkeit­slis­ten für die Spam­mails auf­bauen kön­nen. Die Zufall­s­texte sollen dafür sor­gen, dass auf den schwarzen Lis­ten der Fil­ter jede Menge unschuldiger Wörter auf­tauchen, die die ver­rä­ter­ischen Wörter rel­a­tiv gese­hen sel­tener machen.

Anfangs wur­den diese Zufall­s­texte an die eigentliche Wer­be­botschaft ange­hängt. Das ver­wirrte die Anti­spam­fil­ter kaum, denn obwohl ver­rä­ter­ische Wörter wie lot­tery und Via­gra auf den Häu­figkeit­slis­ten dadurch tat­säch­lich nach unten wan­derten, kamen sie nach wie vor fast auss­chließlich in Spam­mails vor. Ihre Spamwahrschein­lichkeit blieb also fast unberührt. Im näch­sten Schritt ent­fer­n­ten die Spam­mer die Wer­be­botschaften ganz aus dem Text und hängten sie als Bild an. Zurück blieb also nur der Zufall­s­text. Der müsste die Fil­ter nun eigentlich vor ein großes Prob­lem stellen, denn es lassen sich keine typ­is­chen Spamwörter mehr aus­machen. Die Top Ten aus ein­er Auswahl von Zufallss­pam der let­zten Woche sehen bei mir beispiel­sweise so aus:

said 67
man 40
con­trary 37
case 34
sub­stance 28
things 27
called 27
qual­i­ties 26
knowl­edge 25
true 25

Dass diese Zufall­s­texte den Spam­fil­ter trotz­dem nicht überlis­ten kön­nen, liegt an drei Din­gen. Erstens weiß der Fil­ter ja gar nicht, dass etwa lot­tery ein spam­typ­is­ches Wort ist. Er weiß nur, dass es häu­fig in Spam­mails vorkommt. Deshalb behan­delt er nach kurzem Train­ing eben die Wörter said, man, con­trary, etc. eben­falls als Spamwörter. Zweit­ens fehlen in den Zufallss­pams nach wie vor die Wörter, die typ­is­cher­weise in tat­säch­lich an mich gerichteten Nachricht­en vorkom­men — die Spamwahrschein­lichkeit liegt deshalb nach wie vor deut­lich über der mein­er erwün­scht­en E‑Mails. Drit­tens, aus sprach­wis­senschaftlich­er Sicht weniger inter­es­sant, sam­melt der Fil­ter nicht nur Wörter, wie ich es hier gezeigt habe, son­dern auch verdeck­te Tex­tele­mente wie beispiel­sweise die HTML-Tags, mit denen die Bilder in die Werbe­mails einge­bun­den wer­den. Wenn die Sprache neu­traler ist, bekom­men diese Tags dafür ein umso größeres Gewicht.

Ein Gutes haben diese Texte aber: sie regen zu kreativem Umgang mit Sprache an. Die Idee, Gedichte daraus zu machen, stammt näm­lich lei­der nicht von mir. Über­all im Inter­net kann man solche „Spam Poet­ry“ find­en. Zu Zeit­en der tra­di­tionellen Massen­wer­bung waren diese Gedichte notwendi­ger­weise the­ma­tisch sehr beschränkt und dreht­en sich, wie die Wer­be­botschaften selb­st, haupt­säch­lich um Sex, Hypotheken und Lot­teriegewinne. Die Zufall­s­texte und ‑betr­e­f­fzeilen haben der Spam Poet­ry inzwis­chen zu wahren lit­er­arischen Höhen­flü­gen verholfen.

Dieser Beitrag wurde unter Bremer Sprachblog abgelegt am von .

Über Anatol Stefanowitsch

Anatol Stefanowitsch ist Professor für die Struktur des heutigen Englisch an der Freien Universität Berlin. Er beschäftigt sich derzeit mit diskriminierender Sprache, Sprachpolitik und dem politischen Gebrauch und Missbrauch von Sprache. Sein aktuelles Buch „Eine Frage der Moral: Warum wir politisch korrekte Sprache brauchen“ ist 2018 im Dudenverlag erschienen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.