Deutschlandfunk Nova. Deine Podcasts. Hörsaal. Ich bin es mal wieder, Katrin Ohlendorf. Hallo. In dieser Folge geht es um Hip-Hop, um Lyrics, die richtig lyrisch sind und darum, dass Deutschrap nichts weniger ist als die Avantgarde der deutschen Sprache. Klingt ein bisschen pathetisch, glaubt ihr vielleicht nicht, aber wartet's ab. Songtexte sind ein ganz lebensnaher Indikator für Sprachwandel, für Innovationen in der Sprache.
Mein Eindruck ist, dass Songtexte besonders im Hip-Hop unglaublich kreativ sind, mit Redewendungen spielen, aber auch neue Bilder produzieren. Gerade Texte aus dem Hip-Hop bilden eine ziemlich einzigartige Datenbasis für empirische Untersuchungen zu lexikalischen, zu morphologischen, zu syntaktischen Sprachphänomenen. Auch wenn das in der Linguistik noch eine recht frische Einsicht ist. Gute Songs werden nicht schlechter, wenn man sie empirisch unter die Lupe nimmt. Gute Songs halten das aus.
Also ich bin ganz ehrlich, wenn ich an gute Songs denke, denke ich nicht zuallererst an Hip-Hop. Ich mag andere Musikgenres einfach lieber vom Sound her. Aber was ich an Hip-Hop, an Deutschrap in vielen Fällen wirklich schätze, das ist die Sprache. Wenn ihr Hip-Hop mögt, dann wisst ihr das.
Und wenn nicht, dann hört einfach mal ein bisschen quer und lasst euch inspirieren, weil das macht richtig Spaß. Die Texte sind oft so extrem auf den Punkt, sehr bildhaft, oft auch mit schlauen Anspielungen, viel Humor, sehr, sehr kreativ. Und es gibt auch oft ziemlich coole Wortschöpfungen. Also ich finde das, wie soll ich sagen, richtig bewundernswert manchmal. Und ich finde, man kann da auch richtig was lernen.
Also in Hip-Hop, in Rap, da steckt eine Menge drin und das ist auch der Wissenschaft nicht entgangen. Mehr und mehr interessiert sich tatsächlich die Linguistik für Hip-Hop-Lyrics. Unter anderem auch deshalb, weil da die Sprache von morgen gesprochen wird.
Roman Schneider ist einer dieser LinguistInnen, die finden, dass Deutschrap wichtig für die Sprachwissenschaft ist und die Hip-Hop erforschen. Er leitet den Programmbereich Sprachinformationssysteme in der Abteilung Grammatik am Leibniz-Institut. für deutsche Sprache, kurz IDS, in Mannheim und ist, um ganz genau zu sein,
Computer- und Korpuslingo ist. Und was das bedeutet, das erklärt er gleich selbst. Und zwar mit ziemlicher Begeisterung. Es macht wirklich Spaß, ihm zuzuhören, wenn er von seiner Arbeit erzählt. Sein Vortrag heißt, wir spitten Feuer gegen die Kälte, warum Deutschrap für die Sprachforschung besonders tight ist, welche methodischen Ansätze Props einheimsen und womit auch derbe Algorithmen strugglen.
Ursprünglich hat er ihn am 9. November 2024 gehalten im Rahmen des Hip-Hop-Symposiums. Das ist eine zweitägige Konferenz rund um Hip-Hop von der Pop-Akademie Baden-Württemberg. Ja, und für den Hörsaal, also für euch, hat er ihn netterweise nochmal bei sich am Institut aufgenommen. Shoutout an Roman Schneider und Team und ja, weil wir schon mal dabei sind, Credits, Wem Credits gebühren.
Wir spitten Feuer gegen die Kälte. Das ist ein fettes Brot-Zitat und es stammt aus dem Track Claro. So, und jetzt geht's los. Ich freue mich wirklich sehr über die Einladung und ich freue mich als Computerlinguist. hier an der Popakademie Baden-Württemberg zu Gast sein zu dürfen, also an einem sehr musikalischen Ort. Es soll heute um Hip-Hop gehen.
Oder genauer gesagt, ich möchte zeigen, dass deutsche Rap-Texte für die Sprachwissenschaft eine ganz wichtige und ganz innovative Quelle sind. Dass also Deutschrap und seine Lyrics... Weder einfach primitiv sind, noch reine Massenbespaßung. Und all das ist für die Linguistik eine ziemlich neue Einsicht. Sie sehen hier den Vortragstitel. Der liegt es vielleicht nahe, dass ich auch Webzitate eingebaut habe.
Der legt vielleicht nahe, dass es da in erster Linie um irgendwie lustige Wortschöpfung geht. Aber das soll es nicht nur, es soll wirklich auch um genuin sprachwissenschaftliche Aspekte gehen, sowas wie Morphologie, Syntax oder anders ausgedrückt um die Struktur und um die Bildung von Wörtern und von Sätzen in der deutschen Umgangssprache.
Das für mich Spannende ist, meistens stehe ich ja vor Sprachwissenschaftlern und muss denen dann erklären, warum sind Songlyrics eigentlich ein guter Untersuchungsgegenstand. Vielleicht sind sie sogar interessanter als eine irgendwie... sagen wir mal hochkulturelle Lyrik. Oder ich muss erklären, was Hip-Hop überhaupt ist und was Hip-Hop ausmacht. Das kann ich mir heute sparen bei diesem Publikum. Da gibt es hier im Saal eindeutig genug Kompetenz. Ich fange deshalb mal genau andersrum an.
und sage kurz was zu moderner Sprachwissenschaft. Und dazu habe ich ein Zitat mitgebracht von John Sinclair. Das ist ein ziemlich bekannter Linguist aus den 80er Jahren, der unter anderem das British National Corpus aufgebaut hat. Und sein Ziel war die Analyse von authentischen Sprachdaten, also die Identifizierung von realen Sprachbausteinen und von daraus gebildeten Strukturen von Wörtern, Wortgruppen, Sätzen.
Das Zitat ist, Language looks rather different when you look at a lot of it at once. Sie sehen, die Idee ist hier, Variation und Wandel in der Sprache empirisch zu erklären, mithilfe großer Sprachdatenmengen. Das war neu, das hat damals auch Widerspruch provoziert und als Gegenargument haben die sogenannten Rationalisten eine Parallele zum Schachspiel gezogen. Die ging nämlich so, man muss doch beim Schachspiel einfach nur die Regeln kennen.
Das heißt, man muss wissen, was erlaubt ist und was nicht. Man versteht das Spiel nicht, indem man möglichst viele reale Züge betrachtet. Analogie Schachspiel. Aber genau das macht ja die moderne Linguistik. Und das machen im Übrigen auch ganz moderne, KI-basierte Schachcomputer. Und damit grenzt sich die empirische Linguistik gegen die sogenannte Preskriptive.
Linguistik ab. So, aber warum untersuchen wir überhaupt Sprachverwendung? Ich liste hier mal fünf Gründe auf. Erstens, man möchte vielleicht herausfinden, wie Menschen Sprache in verschiedenen Situationen nutzen. Das heißt, wie zum Beispiel ein bestimmter Kommunikationszweck den Gebrauch beeinflusst oder auch wie Sprache interagiert mit Gesellschaft, mit Kultur. Zweitens.
Linguisten untersuchen auch, wie Sprache als System funktioniert, also zum Beispiel wie Sprache im Gehirn verarbeitet wird. Sowas wie kognitive Prozesse beim Sprechen, beim Verstehen. Und drittens, ein ganz praktisches Ziel ist es, Sprachlernen zu fördern, zum Beispiel bei Kindern, bei Fremdsprachenlernern. Und viertens.
ist es natürlich sehr interessant, wie sich Sprachen über längere Zeiträume hinweg verändern. Das macht die sogenannte historische Linguistik. Und sie entdeckt auf diese Weise Verwandtschaften zum Beispiel zwischen unterschiedlichen Sprachen. Und schließlich fünftens, ein ganz aktuelles Ziel ist die Entwicklung von Technologien für die Sprachverarbeitung, also zum Beispiel für die automatische Übersetzung, für Sprachsynthese.
Für Sprachassistenten sowas wie Alexa, Siri und so weiter. Für all das sind sogenannte datengetriebene empirische Ansätze. Ganz wichtig. Das heißt, die Voraussetzung für all das... sind große Textsammlungen. Wir nennen das Corpora. Für das Deutsche gibt es da schon ziemlich viel, aber das meiste deckt dann doch eher so handelsübliche Schriftsprache ab.
Also Zeitungen, Belletristik, Fachtexte und so weiter. Künstlerische Sprache und damit Songtexte sind erst relativ kurz im Blickfeld. Und das hat vermutlich einerseits damit zu tun, dass Lyrics sehr geschützte Inhalte sind, also es gibt da rechtliche Fragen, andererseits aber vielleicht auch mit der Entwicklung der Philologien insgesamt, also mit der Etablierung von Linguistik einerseits und Literaturwissenschaft andererseits.
als ganz eigenständige Teilfächer. Und da war die Aufteilung bislang. Literaturwissenschaft beschäftigt sich unter anderem mit Lyrik. Die Linguistik dagegen hat sich davon eher ferngehalten, lange Zeit. So, soviel zum Forschungshintergrund. Die weitere Vorstellung wird jetzt in drei Schritten erfolgen. Es wird zuerst gehen um das Was, also über was genau sprechen wir, wenn wir Songtexte für die Linguistik nutzen.
Danach soll es um das Wie gehen, also wie bereiten wir Songtexte für empirische Analysen auf. Und dann schließlich um das Wozu, also wozu lassen sich diese Daten nutzen. Ja, was? Bei Sprache denkt man als erstes vermutlich meist an Wortschatz. Und deshalb fange ich damit jetzt auch an. Wichtig ist hier, dass Songtexte ganz viele Berührungspunkte haben mit gesprochener Sprache, mit Alltagssprache.
Das heißt, sie sind generell eher alltagssprachlich als fachsprachlich und von daher ein ganz lebensnaher Indikator für Sprachwandel, für Innovationen in der Sprache. Zweitens gibt es eine Nähe zu bestimmten Soziolekten. Ganz besonders zur Jugendsprache. Denn sowas wie klassischer Rockpop ist das ja vermutlich schon länger nicht mehr, also kein echtes Jugendphänomen. Das liegt schon ein paar Jahrzehnte zurück, aber Hip-Hop scheint ja deutlich näher dran zu sein.
Und das spiegelt sich in den Texten, in den Formulierungen, zum Beispiel in dieser Zeile hier. Keiner ist auf aggro, alle schieben Optik. Also aggro als Kurzform von aggressiv, Optik schieben. Im Sinne von unter Drogen stehen, Halluzinationen haben. Oder hier beim Song Anma von den Beginnern aus Hamburg. Ich spiele das gerade mal als Tonbeispiel ein.
Wie wir gucken, wie wir labern. Jeder sagt, Digga, heutzutage, wir packen Hamburg wieder auf die Karte. Was los, Digga, ahn, Mann. Wie wir gucken, wie wir labern. Anma ist Jugendslang für den Imperativ Ahne das mal. Im Sinne von kapierst du. Aber wem erkläre ich das hier? Das wissen natürlich alle. So, das Tolle an Rap-Texten ist, es wird häufig genau so geschrieben, wie auch gerappt wird.
Das heißt, wir haben eine 1A-Quelle für verschriftete akustische Sprache. Also exakt das, was in traditionellen Textsorten ganz dringend fehlt. Und wir sehen hier... Morphologisch interessant sind zum Beispiel zusammengezogene Wörter. Wir nennen das Kontraktionen, auf dem Plur. Oder der Wegfall von Lauten. Oder der Wegfall von ganzen Wörtern. Wir nennen das linguistisch Illusion. Also die Verkürzung auf dem statt auf dem. Oder auf keinsten statt auf keinsten Fall.
Wir sehen hier das Beispiel aus dem Song Summa Summarum von Cool Service. I, du, Horst, wir gleichen uns auf keinsten. Und du, Horst, lässt sich übrigens auch noch steigern. Also als Beschimpfung für einen Menschen, der sich nicht besonders klug anstellt. Du Vollhorst. So, außerdem finden wir hier in diesen Beispielen Belege für Steigerungen von eigentlich gar nicht steigerbaren Adjektiven.
Hier zum Beispiel der einzigste Gangster im Frankfurter Rap, der einzigste. Und damit finden wir etwas, was Schulgrammatiken als ganz schlechtes Deutsch markieren, was aber umgangssprachlich Gang und Gäbe ist. Und sowas ist dann natürlich spannend für die Beobachtung von Sprachwandel. So, jetzt habe ich ein paar Hip-Hop-Beispiele zur Syntax. Das Interessante ist hier, dass viele traditionelle Linguisten da eher skeptisch sind.
weil sie eben mit Songtexten, mit Lyrics, gebundene Rede assoziieren, also Verse mit Reimen. Aber wenn man genauer schaut... dann sind gerade Hip-Hop-Texte eben auch für syntaktische Phänomene ein ganz hervorragendes Material. Man braucht einfach nur eine zeitlich breit stratifizierte Datengrundlage. Also man muss einen großen zeitlichen Rahmen abdecken.
Warum? Weil sich grammatischer Wandel sehr viel langsamer vollzieht als lexikalischer. Also die Art und Weise, wie wir Wörter syntaktisch anordnen, im Vorfeld, im Mittelfeld, im Nachfeld eines Satzes. welche Satztrukturen sich etablieren oder eben auch nicht, bei all dem dauert der Wandel sehr viel länger als die Etablierung neuer Einzelwörter. Ich zeige hier ein paar syntaktische Dynamiken, speziell im Hip-Hop.
Nämlich erstens sowas wie Hauptsatzstellung in Nebensätzen. Doch vielleicht habe ich geweint, weil du machst es einem nicht leicht. Oder zweitens. sowas wie Possessivkonstruktionen, die eher nicht standardsprachlich sind. Guck mal, wie ich dem Boss seine Ex film, dem Boss seine Ex. Oder hier haben wir ein Beispiel für Reparaturen. Reparaturen sind typische Merkmale von gesprochener, von spontaner Sprache, wenn wir Aussetzer in einem Gespräch beheben wollen.
Das sind also Dinge, die häufig durch so Verzögerungssignale wie Ä oder Ö oder M eingeleitet werden. Und da habe ich hier ein Zitat von Fettes Brot. Nein, uns Jungs ging es ums, Dingsbums, Kickermatte. Ja, also da sehen wir, da haben wir sprachliche Reparaturen in Hip-Hop-Texten. So. Und schließlich finden wir in solchen Lyrics auch funktional pragmatisch interessante Dinge. Also Sprache, die typisch ist für dialogische Situationen.
Typisch sind hier sogenannte Reduplikationen, also die Verstärkung von Aussagen durch die Wiederholung von Wörtern. Ich will immer, immer, immer, immer mehr in diesem Beispiel. Oder geschriebene Zeicheniterationen, die sowas wie Prosodie emulieren sollen, also das Hinschreiben von ganz vielen As, von ganz vielen Os. um jeden Ausruf Hallo wiederzugeben in diesem Zitat. Und natürlich jede Menge Lautmalerei, das heißt sprachliche Nachahmungen von Schallereignissen.
Sowas wie Psst, Rrr, Seufz, wir kennen das aus Comics auch. All das finden wir auch in diesen Texten. Soviel zum Was. Wichtig ist, um bei all dem, was ich gerade gezeigt habe, von dem eigentlich wenig aussagekräftigen, vom anekdotischen Interpretieren einzelner Belege, wegzukommen hin zu einer empirisch-wissenschaftlichen Analyse. Dafür brauchen wir eine sehr, sehr große Datenbasis. In den Digital Humanities spricht man da auch vom Schritt vom sogenannten Close Reading zum Distant Reading.
Also vom Anwenden von Computerverfahren auf große digitale Textsammlungen. Und deshalb soll es jetzt um das Wie gehen. Also wie machen wir Songtexte digital auswertbar? Eine kleine Warnung, ich muss hier gleich ein ganz klein wenig Technik zeigen, einfach um deutlich zu machen, dass die Aufbereitung von Lyrics für digitale Analysen sehr viel mehr ist, als einfach nur Texte auf dem Laptop abzuspeichern.
Sie sehen hier zentrale Anlaufstelle für linguistische Forschung zu Deutschrap und auch zu anderen Genres ist das sogenannte Songkorpus. Das ist eine umfangreiche Datensammlung. Von sprachwissenschaftlich aufbereiteten Songtexten steht alles frei zur Verfügung, und zwar unter dieser Adresse songcorpus.de. Sie sehen hier, dass das Portal mehrere Künstlerarchive enthält.
Also komplette Werke von einzelnen Interpreten oder von einzelnen Bands. Und daneben gibt es sogenannte themenspezifische Archive. Sowas wie Single Charts, also alle deutschsprachigen. Hitparadentexte seit 1970. Dann gibt es ein Archiv zu Songs aus der DDR. Es gibt ein Archiv zum Phänomen Neue Deutsche Welle. Und es gibt eben auch ein ziemlich großes Archiv für Hip-Hop.
Insgesamt sind das bislang ungefähr 9000 Songs mit vielen Millionen Wortformen und alles wird auch fortlaufend erweitert. Und auf dieser Website kann man dann im sogenannten Corpus Explorer kann man Statistiken berechnen, live berechnen, auch visualisieren, auf Zeichenebene, auf Wortebene, auf Satzebene, auch auf Versebene. Also sowas wie häufige Wortkombinationen.
Wir nennen das Kollokationen. Verteilungen von Wortklassen. Das ist zum Beispiel interessant für Textsortenanalysen. Also in welchen Kontexten werden zum Beispiel Personalpronomen der ersten und zweiten Person genutzt. Das sind nämlich gerade dialogische Situationen, was sie in Zeitungstexten nicht haben, aber in Battle Raps ganz häufig. Oder wir werden Lautmalereien eingesetzt.
In Rap-Lyrics, das wissen Sie natürlich, sind das typischerweise sogenannte Ad-Libs. Für all das gibt es hier Auswertungsmöglichkeiten. Aber wie kommen die Songs überhaupt in dieses Korpus? Wie kommen die Songs überhaupt in diese Textsammlung?
Das heißt, wie versuchen wir, ein Genre möglichst repräsentativ abzubilden? Die Antwort ist, wir schauen zunächst auf außersprachliche Metadaten, also auf Faktoren wie Musikgenre, Datum der Veröffentlichung, vielleicht auch den Charts-Erfolg, um den Impact zu messen, also um analog zu Auflagenzahlen bei Zeitungen oder in Bestsellerlisten ein Kriterium für die Reichweite zu haben.
Wichtig ist, Songtexte sind urheberrechtlich geschützt. Das bedeutet, ich darf sie mir zwar besorgen aus öffentlich zugänglichen Quellen, Also zum Beispiel von Lyrics Websites. Aber wenn ich sie bearbeitet habe und wenn ich sie dann wissenschaftsöffentlich zur Verfügung stellen möchte, dann brauche ich das Einverständnis der Rechteinhaber, also der Textdichter.
oder der Musikverlage. Und wenn ich mir auch das besorgt habe, dann stehe ich als nächstes vor einem Formatproblem, nämlich aufgeschriebene Songtexte folgen ganz häufig gar keinen formalen Normen. Auch wenn sie in Booklets abgedruckt sind, auch wenn sie digitalisiert sind, vielleicht gerade dann, wird gerne mit der äußeren Form gespielt. Das bedeutet, keine Satzzeichen, eine ziemlich willkürliche Großschreibung.
Oft wird einfach jedes Wort am Anfang einer Verszeile großgeschrieben. Das sieht zwar hübsch aus, aber der Haken für uns ist, das macht automatisierte Analysen schwierig, weil die Auswertungssoftware auf Standardsprache trainiert ist. Um überhaupt eine Chance zu haben, mit Computern große Textmengen zu bearbeiten, ist, wie immer in der Informatik, eine sogenannte Formatierung, eine einheitliche Formatierung notwendig.
Und deshalb nutzen wir für das Song-Korpus entsprechende etablierte internationale Standards, sowas wie XML, die Extensible Markup Language, oder TI, die Text Encoding Initiative. um auf diese Art und Weise Songstrukturen und Metadaten eins zu eins abzubilden. Man erkennt hier, der Songtitel wird in diesem Beispiel ganz eindeutig als Title-Element ausgezeichnet.
Und genauso Autorenname, Publikationsjahr und so weiter. Und zwar mit solchen Etikettierungen in eckigen Klammern. Wir nennen das Annotationen. Und?
Ab und zu müssen wir im Fließtext sowas wie Satzzeichen ergänzen, vielleicht auch mal die Groß-Kleinschreibung ändern. Aber dabei geht es überhaupt nicht darum, den Finger zu heben, Sprache zu normieren oder als falsch zu markieren, sondern es geht schlicht darum, die maschinelle Weiterverarbeitung mit Computertools zu ermöglichen, die halt auf Standard-Schriftsprache trainiert sind und die auf die Nase fallen, wenn Ihnen eher unkonventionelle Schreibungen unterkommen.
Aber wir dokumentieren alle Änderungen allein, um spätere Interpretationen nicht zu verfälschen. So, sobald die Texte einheitlich digitalisiert sind, dann kommt ein wenig Sprachtechnologie zum Einsatz. Oder genauer, zu jedem einzelnen Wort ergänzen dann sogenannte Passer und Tagger linguistisch motivierte Zusatzinformationen. Das sieht man hier und das sind zum Beispiel erstens die Bestimmung der Grundform.
Wir nennen das Lemma oder Lemmata. Das passiert wie gesagt zuerst maschinell, wird dann aber anschließend so wie hier manuell kontrolliert. Und das gleiche gilt für Wortarten.
die wir ziemlich feingranular unterteilen, also Verben weiter unterteilen in Vollverben, Modalverben, Hilfsverben, finite und infinite Verben, Imperative und so weiter. Dann markieren wir als sogenannte Named Entities, Personennamen, Ortsnamen, Organisationen und so weiter und wir markieren neue Wörter, sogenannte Neologismen. oder auch neue Verwendungsweisen. Und schließlich annotieren wir Reime, Reimformen, also sowas wie Anfang, End oder Binnenreim, auch Unreine.
Das ist ganz interessant für ästhetische Aspekte, also zur Analyse von Rhythmus, von Flow und ähnlichen Dingen. Hier sehen wir detailliert, wie sich das Songkorpus in Archive und auch in genrespezifischer Teile aufteilt. Die hier gelisteten Künstler haben eben der Nutzung ihrer Texte explizit zugestimmt. Das heißt, wir dürfen ihre Texte für die Forschung nutzen.
und auch wissenschaftsöffentlich zur Verfügung stellen. Vielen Dank an dieser Stelle. Bei den thematischen Untergruppen, also bei der Gruppe Hip-Hop oder Neue Deutsche Welle oder Charts, Da ist das leider praktisch nicht möglich, weil einfach viel zu viele Künstler anzusprechen wären. Das hat zur Konsequenz, dass wir in diesen Fällen öffentlich nur sogenannte abgeleitete Formate anbieten können.
oder texttechnologisch ausgedrückt aggregierte Formate, sowas wie Bag of Words, Wortvektoren. Wen das interessiert, googeln Sie gerne mal abgeleitete Textformate. Jetzt kommen wir endlich zu ein paar Korpus-Auswertungen. Wie eben schon angedeutet, die Website songkorpus.de bietet eine Menge an Abfragemöglichkeiten.
Und Ergebnisse lassen sich oft auch direkt grafisch visualisieren. Hier ein ganz einfaches Beispiel. Sie sehen hier auf einer Landkarte dargestellt Named Entities in Songtexten, also Ortsangaben. In Songtexten. Hier wird auf einer Weltkarte markiert, welche Orte in deutschsprachigen Songtexten der vergangenen 50 Jahre auftauchen. Fällt Ihnen was auf? Naja, zum Beispiel das.
Deutsche Songs sind offenkundig ziemlich europazentriert. Auch Amerika ist noch prominent, aber andere Weltregionen, Australien, Asien, werden kaum erwähnt, sind also deutlich unterrepräsentiert. Und wenn man die Darstellung jetzt auf Europa runterbricht, ich kann den Maßstab hier ändern, dann sehen wir andere Unterschiede. Dann sehen wir innerhalb Europas werden zum Beispiel Orte in Skandinavien, im Norden, in Osteuropa.
eher selten in den Texten erwähnt. Und ich ändere den Maßstab jetzt nochmal und zeige die Verteilung von deutschen Ortsbezeichnungen. Und Sie sehen, man kann sich hier per Mausklick auch anzeigen lassen, in welchen Songs der jeweilige Ort vorkommt. Und das Spannende ist, das klappt sogar für ganz kreative Verbindungen. Sie sehen hier zum Beispiel das Wild West End, also das West End in Frankfurt. So.
Wir können auf der SongCorpus-Website nicht nur vordefinierte Auswertungen anklicken. Wir können auch ganz gezielt selbst suchen, selbst recherchieren. Und das funktioniert im einfachsten Fall durch die Eingabe eines Wortes oder von Wortkombinationen. Man kann aber auch nach Wortklassen suchen, nach Wortarten. Man kann sogar Wildcards nutzen, Platzhalterzeichen einsetzen.
Sie sehen hier ein typisches Suchformular. Wenn ich damit in diesem Beispiel nach Kombination suche, aus allen möglichen Flexionsformen des Verbs spitten, mit einem nachfolgenden Substantiv, dann finde ich sowas. Wir spitten Feuer gegen die Kälte. Ich spitte pures Gift in deine Augen. Ich spitte wie eine Machine Gun. Ich spitte die Kigidi-Wigidi-Rhymes. Wir spitten Bars, ihr spittet Texte, diese spittenden Nerds. Sie sehen, spannend, was alles so gespittet werden kann.
Und interessant ist natürlich auch der Wortschatz einzelner Künstler oder der Wortschatz bestimmter Genres. Hier sehen wir eine Grafik, die Worthäufigkeiten kontrastiert einerseits im Charts-Archiv. Sie erinnern sich? Alle deutschsprachigen Songs aus den Top 100 Single Charts seit 1970 und andererseits im Deutschrap. Wir reden da über 2000 bis...
Heute ungefähr. Man erkennt Wörter mit ähnlichen relativen Frequenzen, die gruppieren sich eher nahe an der zentralen Trennlinie. Das sind dann Wörter wie Kopf, Geld, Mann. Aber statistisch besonders charakteristische Wörter haben einen großen Abstand. Also hier zum Beispiel Feuerwerk, Glitzer, Sehnsucht, das sind offenkundig typische Wörter für Mainstream-Texte.
Und auf der anderen Seite Dinge wie Battle, Beef, Gangster sind ganz eindeutig Hip-Hop-Slang. Und zwar, das ist ganz wichtig, eben nicht, weil wir mal ein paar Belege angeschaut haben. sondern weil wir das mit statistischen Maßen, mit Aussagegüten auf einer sehr, sehr großen Datenbasis ausrechnen. Interessant ist auch, in Hip-Hop-Texten sind auch soziopolitisch relevante Keywords.
signifikant. Wörter wie AfD, wie Arbeitsamt und wenn man all diese inhaltlichen Keywords zu größeren Themenfeldern ordnet, dann finden wir eine Verteilung, in der es zwar klar mehr Gewaltbezüge gibt als zum Beispiel Liebe, ich sage nur Stichwort Gangsterrap, aber es gibt zum Beispiel auch einen gar nicht so kleinen Anteil an politischen Bezügen. Auch eine spannende Erkenntnis. Ein anderer Punkt, wir haben vorhin schon
dass Ausdrücke aus dem Hip-Hop auch mal in den jugendsprachlichen Mainstream übergehen oder umgekehrt. Das ist natürlich gar nicht so einfach zu messen, weil ja... die Eingrenzung von Jugendsprache nicht gerade trivial ist. Wir machen uns das hier mal einfach. Wir nehmen als Inspiration das Jugendwort des Jahres. Das kennen Sie.
Das wird regelmäßig mit viel Medienecho von einem Wörterbuchverlag gekürt und zwar auf Basis von eingereichten Vorschlägen. Also öffentliche Vorschläge fließen in eine, ich glaube, Top-Ten-Liste ein. dann darf online abgestimmt werden. Und vielleicht erinnern Sie sich, vor ein paar Wochen ist das Wort Aura als Jugendwort 2024 gekürt worden. Also Aura im Sinne von Ausstrahlung, Charisma.
Oder auch Status einer Person. Und wenn man sich jetzt fragt, ob Aura tatsächlich so allgemein in der Jugendsprache verbreitet ist, dann hilft vielleicht ein Blick ins Songkorpus. Wir sehen hier, dass es da leider nur eine sehr kleine Stichprobe gibt. Also wir sehen hier maximal sieben Belege pro Jahr in 2017, sechs Belege in 2022.
Man erkennt auch eine sogenannte Clumpiness, also den Umstand, dass zum Beispiel die sieben Belege aus 2017 aus nur zwei Songs stammen. Das heißt, das würde ich insgesamt als vielleicht nicht ausreichen für...
große verallgemeinerte Aussagen einstufen, aber flankierend zu anderen Analysen ist das sicher trotzdem eine ganz plausible Entscheidungshilfe. Und übrigens, man sieht hier in dieser zeitlichen Auswertung auch, dass zwischen den Belegen von 1983, das war das erste Mal, dass Aura in Songtexten vorgekommen ist, und 2002 Aura fast 20 Jahre lang überhaupt keine Rolle
in deutschen Songs gespielt hat. Und der Beleg aus 1983 ist also so eine Art ganz früher Prenzette. Hat vielleicht jemand eine Idee, wer das gewesen sein könnte? 1983, Aura, ja? Nein, die Lösung ist Nina Hagen im Song Was es ist. All die Farben deiner Aura leuchten voller Pracht.
Mach dir mal nichts vor hier auf deinem Planeten. Deine Mauern im Gehirn kannst du nämlich wegbitten. Du musst deine Ansistenten unendlich erweitern. Dann kannst du die Prinzessin in die Lacht erheitern. All die Farben deiner Aura leuchten voll erbracht. Bald wird jede kleine Sorge einfach weggelacht. Das ist das Recht. Wir sehen hier, Nina Hagen ist also nicht nur die Godmother auf Punk, sondern auch die Godmother auf Aura. Ja, wir haben vorhin gesehen, dass Neologismen, also
neue Wortschöpfungen im Songkorpus explizit markiert sind. Und wir sehen hier oben, wie das in der Praxis aussieht. In unserem Annotationstool, also in unserer Software, mit der wir diese Markierung durchführen. Da werden Wörter wie Luxusburg hier als neues Wort und die Kombination Radio-Luxusburg als fiktionaler Eigenname markiert.
Ich habe hier mal ganz bewusst die Grenze erweitert und schaue hier nicht nur auf Hip-Hop-Texte, sondern auch auf andere Künstler, die über die SongCorpus-Website recherchierbar sind und in diesem Fall... sehen wir hier in einer Wortwolke die Wortschöpfungen von Udo Lindenberg. Man erkennt, wir hantieren damit einen relativ weit gefassten Neologismenbegriff. Das heißt, wir markieren auch Gelegenheitsbildungen.
die vielleicht noch nicht in den Allgemeinwortschatz etabliert sind. Also solche Wortschönheiten wie Beklopptomanie, der Röntgologe, die Schwachmaten, das Kicherwasser. Aber hier gerade Luxusburg, das geht tatsächlich als lupenreiner Neologismus durch und zwar als spaßhafte Bezeichnung für den kleinen, wohlhabenden Staat Luxemburg. Und genau diese Lesart erscheint 1981. im Lindenberg-Song Affenstern. Und zwar wirklich zum allerersten Mal.
Wenn man in allgemeinsprachlichen Textsammlungen nachschaut, dann findet man vorher nur Belege, in denen mit Luxusburg wirklich wortwörtlich eine luxuriöse Burganlage beschrieben wird. Aber? Nach dieser ersten Verwendung im Soundtext verbreitet sich das Wort immer mehr, auch in Zeitungen, auch mit seiner idiomatischen Bedeutung. Und entsprechend hat es es tatsächlich sogar in Geologismenwörterbücher geschafft. Okay.
Was auf den ersten Blick einfach wirkt, kann also auch ganz kreativ und auch ganz clever sein. Das gilt nicht nur für Wortbildungen, sondern zum Beispiel auch für die Integration von eingewanderten Wörtern. Also sowas wie Anglizismen. Und gerade da hat Hip-Hop ja auch einiges zu bieten. Hier am Institut für deutsche Sprache in Mannheim nutzen wir das Songkorpus deshalb als Datenquelle.
in einem Online-Ratgeber zu grammatischen Zweifelsfällen. Und da geht es dann beispielsweise um Anpassungen in der Flexion, um morphosyntaktische Anpassungen. Also, wie sich Fremdwörter an Flexionsmuster des Deutschen anpassen. Wie ist das mit Partizipform? Sagen wir eher downgeloaded oder gedownloaded? Wie schreiben wir das? Lieber mit finalem D oder mit finalem T. Wir sehen hier das Beispiel von gefaked. Und die Verlaufsgrafik zeigt über die Jahre.
setzt sich von den drei Möglichkeiten eine Variante schließlich durch, nämlich gefaked mit T am Ende. Und interessanterweise finden sich gerade in Hip-Hop-Lyrics ganz viele Belege dafür. Wir sehen also, Deutschrap ist der sprachlich absolut am Puls der Zeit und sozusagen sogar normgerecht. Okay, so, jetzt noch ein anderes Thema, bei dem die Mathematik wieder wichtig wird, nämlich...
Beim Versuch, menschliche Sprache empirisch zu erklären, wurden in den letzten Jahren sogenannte quantitative Gesetze aufgedeckt. Das sind Regeln, das sind Regularitäten, die ganz unabhängig von Einzelsprachen immer gelten, auch unabhängig von Textsorten. Und das Spannende ist, auch für Songtexte, auch für Lyrics, lassen sich solche Muster nachweisen. Und das ist ja ein guter Indikator dafür, dass wir es tatsächlich mit authentischer Sprache zu tun haben.
Den Anfang macht hier das bestimmt bekannteste quantitative Gesetz, nämlich das Zipsche Gesetz, benannt nach seinem Entdecker George Kingsley Zipf und es besagt, bestimmte Wörter treten viel häufiger auf als andere. Und das Produkt aus Rang und Frequenz ist immer annähernd gleich. Oder anders ausgedrückt.
In jeder Sprache der Welt kommt das häufigste Wort ungefähr doppelt so oft vor wie das zweithäufigste, das dritthäufigste dann ungefähr ein Drittel so oft und so weiter. Und das korreliert auch mit Wortlängen. Häufige Wörter sind tendenziell kürzer. als seltene Wörter. Und grafisch dargestellt entsteht dann genau das, was wir hier sehen, nämlich eine sogenannte Zipfkurve. Und wir erkennen hier, das funktioniert für Songtexte ganz wunderbar. Genauso.
wie eine andere bekannte quantitative Systematik, nämlich das Menserat-Altmann-Gesetz. Das besagt, dass die Komplexität von direkten Bestandteilen einer sprachlichen Einheit abhängig ist, von der Komplexität der Einheit selbst. Also als Beispiel, Silbenlänge ist abhängig von der Anzahl der Silben, die ein Wort hat. Oder
Die durchschnittliche Wortlänge einer Phrase ist abhängig von der Anzahl der Wörter in dieser Phrase. Oder eben hier, die Länge von Verszeilen ist tendenziell abhängig von ihrer Anzahl in einer Strophe. Je mehr, desto kürzer. Und die Grafik unten zeigt genau das für das Songkorpus. Also die Anzahl von Verszeilen auf der x-Achse, die Länge von Verszeilen, gemessen in Wörtern, auf der y-Achse.
Und noch eine Visualisierung. Wir sehen hier einen sogenannten Density-Plot mit durchschnittlichen Wortlängen einzelner Genres, also durchschnittliche Wortlängen für Hip-Hop, für Charts-Texte. für Singer-Songwriter, für neue deutsche Wähler. Auch das ist gar nicht unspannend. Man erkennt nämlich, dass sowohl die durchschnittliche Wortlänge als auch die Dichte im Hip-Hop ganz besonders hoch ist.
Es gibt hier also offenkundig ganz viele kreative Kompositor, Wortzusammensetzungen, Wortbildungen. Und Kreativität, das ist auch für meinen letzten Punkt wichtig. Hier geht es nämlich um idiomatische Sprache, also um linguistisch ausgedrückt verfestigte Wortfolgen, bei denen die Gesamtbedeutung nicht so einfach aus den lexikalischen Einzelbedeutungen ableitbar ist.
Also die Kuh vom Eis holen bedeutet eben nicht, dass da tatsächlich eine Kuh vom gefrorenen Wasser runtergebracht werden muss, sondern bedeutet einfach, dass man ein drängendes Problem lösen muss. unterschiedliche wörtliche und übertragene Bedeutungen. Und mein Eindruck ist, Das habe ich ja als Hypothese Nummer 1 notiert, dass Songtexte besonders im Hip-Hop unglaublich kreativ sind, mit Redewendungen spielen, aber auch neue Bilder produzieren.
Und der Punkt ist, sowas möchte man natürlich gerne erschließen, sowas möchte man gerne finden, aber eben ohne, dass man ganz mühsam Text für Text und Zeile für Zeile anschaut. Also am liebsten automatisch. Genau das haben wir probiert. Und um das Finden von solchen idiomatischen Wortfolgen zu operationalisieren, um das programmieren zu können, haben wir mit einem kleinen linguistischen Kniff gearbeitet. Den habe ich hier als zweite Hypothese.
Formuliert nämlich, idiomatische Wörter passen wortwörtlich oft nicht so richtig in den Kontext. So wie hier beim Beispiel Perlen vor die Säue von Sammy Deluxe. Also wenn ich das höre, dann scheint mir das irgendwie auffällig, denn ich würde vermuten, dass Perlen doch grundsätzlich eher in anderen Kontexten vorkommen. Schmuck, Reichtum und so weiter. Das säue vielleicht eben auch in anderen Kontexten eher vorkommen. Texten aus der Landwirtschaft mit Kühen und Schafen zusammen und so weiter.
Aber wie lässt sich das für den Computer formalisieren? Das erkennt man vielleicht hier. Genau, ich muss einmal weiterklicken. Die Strategie ist für diese beiden Eigenschaften Verfestigung. einerseits und Kontextauffälligkeit, andererseits berechnen wir sogenannte Assoziationsmaße und sogenannte Kontextähnlichkeitsmaße. Und zwar für sämtliche N-Kramme, also für alle Wörter, Wortfolgen einer bestimmten Länge im Songkorpus.
Assoziationsmaße sind vergleichsweise etabliert. Die berechnen ganz grob gesagt, wie statistisch signifikant Wortfolgen gemeinsam auftreten. Genau das ist ja der Fall bei Redewendungen. Aber zur Implementierung der zweiten Hypothese. Sie erinnern sich, die Einzelwörter haben in nicht-idiomatischer Verwendung ein anderes Kollokationsprofil als in idiomatischer Verwendung.
Dafür berechnen wir ein sogenanntes Kontextunähnlichkeitsmaß, und zwar mit Hilfe von Wortvektoren. Und damit wurde manuell ein sogenannter Goldstandard annotiert, also eine Datenbasis mit typischen Vorkommen. Und darauf wurde ein sogenannter Random Forest Klassifikator trainiert. Und der liefert, wenn man ihn später dann auf alle Wortverbindungen im gesamten Korpus loslässt, eine Liste von Idiomkandidaten.
die dann einerseits einen hohen Verfestigungsgrad haben und andererseits in einem statistisch unüblichen Kontext stehen. Wir sehen hier einen Ausschnitt aus dieser Liste und wir sehen, dass da schon viel Bildhaftes dabei ist. Also sowas wie Sand in die Augen, das Herz in die Hose und so weiter. Was man hier nicht sieht, diese automatische Erkennung struggelt durchaus noch. Das heißt, sie produziert...
eine ganze Menge sogenannter False Positives, also Wortfolgen, die dann letztlich doch nicht idiomatisch sind. Aber... Sie reduziert trotzdem den manuellen Aufwand und zwar enorm. Und vor allen Dingen liefert sie empirisch belastbare Einblicke, wie mit bildhafter Sprache kreativ gespielt wird und speziell, wie damit in Songtexten gespielt wird.
So, ich komme jetzt zum Schluss. Ich glaube, das naheliegende Resümee muss ich vielleicht gar nicht explizit hinschreiben, weil es dann doch hoffentlich deutlich geworden ist. Nämlich Songtexte und zwar gerade Texte aus dem Hip-Hop. bilden eine ziemlich einzigartige Datenbasis für empirische Untersuchungen zu lexikalischen, zu morphologischen, zu syntaktischen Sprachphänomenen, auch wenn das in der Linguistik noch eine recht frische Einsicht ist.
Und zur Bekräftigung zeige ich hier zum Abschluss das Zitat einer renommierten Sprachwissenschaftlerin, nämlich von Professor Gisela Ziphonon, der langjährigen Leiterin der Abteilung Grammatik hier am Leibniz-Institut für deutsche Sprache in Mannheim. sie war auch Kopf der wissenschaftlichen Grammatik der deutschen Sprache und sagt, solche Wortschönheiten gefallen oft auch, weil sie selten vorkommen, von ausgeprägtem Sprachgefühl oder kreativer Sprachlustzeugen.
Sie sind daher in aller Regel in dichterischer Sprache vorzufinden. Vielleicht noch ein Gedanke von mir. Songs mag man oder man mag sie nicht. Also sie sprechen einen an oder sie lassen einen kalt. Und wer empirischen Ansätzen, wie den gerade gezeigten, vielleicht eher kritisch gegenübersteht, hat vielleicht Sorge, dass dieser analytische Zugang gerade das Künstlerische, das Lebendige zerstört.
Aber, das ist zumindest mein Argument, gute Songs halten das aus. Sie werden nicht schlechter, wenn man sie empirisch unter die Lupe nimmt und Gott sei Dank gibt es dann ja doch immer wieder Dinge, die wir trotzdem nicht erklären können. Zum Beispiel, wie man per Anleitung erfolgreiche Songs textet. Und das ist nicht nur so, weil wir da immer ein Zusammenspiel aus Text, aus Rhythmus, aus Melodie, auch aus der Choreografie haben, sondern weil...
Wie wir gerade gesehen haben, allein sprachlich so viele Aspekte in Lyrics stecken, dass ein zielgerichtes Texten für den Chart-Erfolg vermutlich gar nicht vorstellbar ist. Dankeschön. Ja, die Liste der Beispielsongs, die habe ich euch übrigens in die Shownotes und auf unsere Seite gepackt und auch den Link zum Songkorpus. Ja, macht wirklich Spaß, da mal ein bisschen auf Entdeckungsreise zu gehen.
Der Computerlingoist Roman Schneider war das mit einem Vortrag darüber, warum Hip-Hop so spannend für die Sprachforschung ist. Und ich fand es total interessant. Ich hoffe ihr auch. Ich bin Katrin Ohlendorf. Schön, dass ihr bei dieser Folge dabei wart. Falls ihr den Hörsaal noch nicht...
abonniert habt. Macht das gleich mal, es lohnt sich wirklich. Zweimal die Woche gibt es bei uns interessante wissenschaftliche Vorträge zu allen möglichen Themen aus allen möglichen Fachbereichen. Ja, einfach perfekt, wenn ihr neugierig und offen seid und Bock auf Wissen habt. Als Podcast immer Donnerstag und Freitagabend und bei unserem Radioprogramm immer Sonntagabend im Doppelpack. Ciao und bis bald. Deutschlandfunk Nova. Hörsaal. Jeden Sonntag neu.
auf deutschlandfunknova.de und überall, wo es Podcasts gibt. Deine Podcasts