#116 LLMs hacken: Ein Prompt reicht aus

00:00

Da hab ich auch schnell Angst, dass da irgendwie Leute vor der Tür. Stehen, sagen Hallo sind die Fari ja ihr letzter prompt Song Coding Buddies Dein Podcast rund um Softwareentwicklung und aktueller Tech News. Herzlich Willkommen. Moin Moin und herzlich Willkommen zur neuen Folge des Coding Buddies Podcast. Schön, dass du wieder eingeschaltet hast und. Auch wieder dabei, wie soll es anders sein, deine Gastgeber, meine Wenigkeit, der Tino und mir gegenüber.

00:41

Durch Monitor seh ich ihn, der fantastische Fabi, den ich begrüßen mag, fabi, was geht ab? Was geht ab, Tino? Ich hab zuerst gefragt, was geht ab. Ja, ich hab mir irgendwie gerade ein bisschen wehgetan hier. Ich hab mich irgendwie so Quatsch mit so einer Zange eingeklemmt und jetzt hab ich, so kennst du das so, so am Finger so ne Blutblase die aber okay die ist. Krass, weil das denk dran du bist Softwareentwickler, ne, also so Werkzeug weißt du, es hat ja immer so.

01:12

Es gibt Gründe warum du sonst mit Maus und Tastatur arbeitest. Ja, das sind einfach nicht die Hände dafür, die zarten Entwickler in die. Die zarten Entwickler in Ah nee, keine Vorurteile hier, es hat nur gerade so gut gepasst. Ja, Fabi, wir haben n ganz cooles Thema heute, aber ich möchte dich doch noch um eine Sache vorweg bitten. Wir machen ja nicht so viel Werbung, aber so n ganz bisschen machen wir es jetzt deswegen kurze Werbung fabi, Hau doch mal raus. Ja, Tino, ganz genau.

01:42

Und zwar hatten wir bei unserem Flappy bei, die Programmierwettbewerb hatten wir 2 Tickets verlost für den Gewinner beziehungsweise die Gewinnerin. Und. Herzlichen Glückwunsch noch mal Herzlichen Glückwunsch. Aber damit ihr liebe Türen, liebe Türer, alle da draußen nicht leer ausgeht und sagt EY, wenn ihr sagt, Ich möchte gerne, aber auf die Rea Developer gehen, die ist ja vom 9. Juli bis zum 11. Juli und und zwar in Berlin, wenn ihr da hingehen wollt und.

02:08

Noch ein Ticket braucht und vielleicht ein bisschen Rabatt wollt, dann könnt ihr mit Coding Buddies 10 einfach ganz entspannt durch ein Ticket kaufen und kriegt 10% Rabatt dafür. Also so viel können wir auf jeden Fall können wir euch unterstützen und helfen und genau damit würde ich sagen, Werbung endet Tino und lass doch mal rein Werbung ändern. Was machen wir denn genau?

02:29

Du hattest mir nen Artikel geschickt, den ich ziemlich interessant fand und ich geh jetzt auch mal davon aus, dass du ihn auch gelesen hast und nicht den du mir einfach nur geschickt hast. Und da ging es ja im Prinzip wieder einmal um KI und Large Language Models.

02:47

Es ist ja allgegenwärtig und wir haben ja auch schon mit n Paar aus der Community gesprochen, die meinten so ah dieses ganze KI Thema, es wird langsam echt nervig und es geht nur noch um KI. Und wir sind da ja so n bisschen ähnlich unterwegs, sag ich mal, dass wir denken, ey man kann nicht nur noch über KI erzählen, aber den Artikel fand ich

03:06

wirklich spannend. Deswegen haben wir auch schon mal vielen Dank für Abi, fürs Weiterleiten und mit dem möchte ich heute mal über den möchte ich mit dir heute sprechen und deswegen würde ich dich bitten leid doch mal so n bisschen gib mal so n kleinen Teaser. Für das Thema also wir reden doch über KI. Aber aber diesmal ein bisschen

03:23

anders. Und zwar fand ich das auch super interessant, also wenn man sich jetzt vorstellt, also eine KI, so ein Large Language Model, da haut man ja irgendwas rein, man stellt Fragen und man kann ja eigentlich nahezu alles mögliche diese KI fragen und man kriegt irgendwie eine Antwort. Es gibt aber ein paar Begrenzungen, also wenn du jetzt zum Beispiel eine ki fragst, sag mir mal bitte wie man eine Biowaffe herstellt, so dann wird sie dir nicht antworten.

03:48

Im Normalfall aber, und jetzt ist das kleine Gedankenspiel, was ist, wenn dir die Ki doch antwortet und dir eine korrekte Antwort auf diese Frage stellt? Auf eine korrekte Antwort auf diese Frage gibt so, und das ist nämlich genau der Punkt oder der der Knackpunkt des Artikels, und zwar geht es um eine Angriffstechnik, also da sind wir ja schon wieder im Cyber Security Bereich, so könnte man schon fast sagen.

04:17

Es da wurde ne Angriffstechnik entwickelt und zwar ne wirklich relativ universelle Angriffstechnik, die wirklich zu fast allen großen generativen KI Modellen oder bei denen funktioniert. Und damit kannst du halt diese

04:31

KIS überlisten um genau diese. Sag ich mal diese Informationen, die eigentlich darauf, also diese diese Models, diese Modelle werden ja darauf trainiert, dass sie dir nicht so was geben wie zum Beispiel wie stelle ich eine Biowaffe her, wie kann ich mir Drogen herstellen oder was auch immer, sondern dieser Angriff, und der heißt Policy Pupertry Angriff oder Attack, in dem Fall, der ist genauso aufgebaut, dass man in der Lage ist, genau trotzdem über eine bestimmte oder eine

05:00

bestimmte Art von prompt diese Information trotzdem zu erlangen und das finde ich richtig krass, aber. Also das ist schon ne. Ich sag mal relativ alarmierende Sicherheitslücke in den heutigen KI Systemen und da muss ich sagen, das ist schon also des deswegen hat mich der Artikel auch selber so geflasht, weil ich mir dachte OK Moment, das kann ja gar nicht sein, geht ja gar nicht, aber das ist halt

05:22

krass. Ja, du hast ja eigentlich schon n gutes Beispiel gebracht, sowas wie Biowaffen herstellen oder Drogen, das sind ja. Prompts, die sozusagen klassifiziert sind als harmful sag ich mal und quasi abgeblockt werden, ne, dass du dann halt sag ich mal ne nette Antwort vom Modell bekommst, wie ja über das Thema darf ich leider nicht mit dir sprechen, oder? Wenn du jetzt beispielsweise irgendwie therapievorschläge haben möchtest, ne auch so im medizinischen Bereich findet das ja auch statt.

05:53

Ne, dass du sagst ey ich hab das und das wie kann ich das jetzt selbst therapieren, dass denn so was zurückkommt wie. Du, ich bin kein Arzt. Bitte such n Arzt auf dafür.

06:02

Ich kann dir da jetzt keine Vorschläge geben und was du meintest mit dieser Policy puberty kann ich jetzt halt wirklich schaffen mit einfachen Mitteln, da kommen wir ja gleich noch drauf, quasi fast alle großen Modelle und bekannten Modelle, also jetzt auch nicht nur GPT zum Beispiel, sondern auch Deep Seek war damit gelistet im Artikel, weil das ja

06:24

auch so quasi gehypt wurde. Ja genau, und du bist also im Prinzip auf einer Ebene unterwegs, wo es fast bei allen funktioniert und das fand ich halt auch ziemlich krass und dieses Limement. Dieser Modelle ne, dass du sagst OK, es gibt Richtlinien und es gibt Grenzen wo geantwortet wird oder nicht, die ja denn quasi über so Konfiguration vorgegeben sind. Das hat ja ne Riesenrelevanz ja also sei es IT Sicherheit auch Schutz für die Gesellschaft.

06:59

Politische Relevanz oder? Jetzt, wie ich gerade meinte, medizinische auch ne, also auch so n bisschen aus Selbstschutz heraus und das wird halt jetzt alles so n bisschen in Frage gestellt. Wie sicher ist denn das Ganze durch diesen Artikel, der quasi ne sehr simple Angriffstechnik gezeigt hat und über die möchten wir heute auch einfach direkt reden, ne, also es soll jetzt keine Befürwortung sein, Ey Leute nutzt das sondern einfach nur aufzeigen.

07:24

Welche unglaublichen Lücken in der Sicherheit da vorhanden sein können? Ne, weil es ja halt wie gesagt allgegenwärtig ist. Und passend dazu hab ich auch die Woche n Interview gesehen. Muss ich dir einfach mal kurz vorhin erzählen, weil ich es so spannend finde festgestellt wurde, dass viele Menschen mittlerweile sich eher einer.

07:48

In Anführungsstrichen KI sage ich mal anvertrauen, also kann man ja so sagen, also lieber sowas wie Chat, GPT aufsuchen und da Hilfe suchen als sich einem echt Menschen anzuvertrauen, sei es also beispielhaft wurde da medizinische Gründe genannt, sowas wie ich hab die und die Symptome, was habe ich und wie kann ich das jetzt selbst behandeln ich möchte jetzt nicht zum Arzt gehen damit oder auch psychologische Gründe ne ich wie was kann ich gegen Höhenangst

08:16

tun, was kann ich gegen Depression tun und so. Und das find ich halt krass, dass die Leute mittlerweile an einem Punkt sind, wo sie sagen, ich möchte das gar nicht nach außen tragen. Das soll keiner mitkriegen. Ich vertrau mich jetzt nur dieser KI sozusagen an ne und auch genau deswegen gibt es ja so Richtlinien sowas wie bitte such n Arzt auf, das klingt ernst. Weißt du, dass du so ne Antwort kriegst?

08:38

Und wenn ich das jetzt umgehen kann und dann trotzdem irgendwie meinen gewünschten meine gewünschten Antworten bekomme, finde ich, ist das halt äußerst kritisch. Am Ende ja. Das ist sehr, sehr kritisch. Also nicht nur aus.it Sicherheit, sondern auch, ich sag mal, es hat ja auch ne gewisse Relevanz für die Politik und die Gesellschaft am Ende. Was ich aber ganz normal ich, da muss ich noch mal ganz kurz drauf eingehen, weil ich finde

08:58

es so interessant. Dass Menschen dann sich denken, OK, pass auf, ich vertraue mich dieser KI an, aber nicht einem Arzt oder einem Psychologen, beispielsweise wenn man davon ausgeht, dass aber zum Beispiel wirklich ein Arzt und eine Ärztin ja sozusagen oder auch eine Psychologe oder Psychologin so eine Art Schweigepflicht haben und eine KI, also ich meine, dahinter ist ein Unternehmen, die sammeln Daten, muss man sich vielleicht auch vielleicht noch mal.

09:25

Mit einem zweiten Auge angucken, aber das ist n anderes Thema, weil ich find das einfach gerade so spannend und das wollt ihr einfach nur ganz kurz einbringen, weil das ist schon ist schon crazy wie da dann die Wahrnehmung hinterher ist. Ne. Ja, absolut. Weil also ich glaube, der Grund ist, dass es in erster Reaktion halt so wirkt, wie es ist, vertraulich und niemand kriegt das mit ne, weil ich sitze ja jetzt zum Beispiel an meinem Laptop oder so prompte da was und erhoffe mir irgendwie.

09:52

Gute Antworten also aus meiner Sicht gute Antworten. Und wenn ich zum Arzt geh, ist das halt so n aktiver Schritt zu sagen ich geh da jetzt hin und ich muss mir jetzt die Hilfe da suchen und der oder diejenige Person weiß sofort Bescheid was mit mir los ist. Sozusagen also jetzt nicht als Diagnose, aber in dem Moment wo ich hingehe weiß ja der gegenüber OK, der hat jetzt n Problem so ja und das können sie quasi kaschieren damit und das find ich halt auch echt.

10:18

Ja das ist. Und dann der Punkt, wie du schon sagst, dass da natürlich auch ganz schnell finanzielles Interesse entstehen kann anhand der Daten und alles ist das denn doch nicht so anonym, wie vielleicht manch einer denkt, richtig? Aber deswegen ist es ja eigentlich dann auch erst mal nicht so schlecht, wenn man dann auch wirklich keine Antwort bekommt.

10:36

Aber, und das ist jetzt genau der Punkt mit dieser Attacke, die wir beschrieben haben, geht es ja, und zwar muss man sich das Ganze vorstellen, also was eigentlich oder ne was diese policy pupertry Attack eigentlich ist.

10:48

Wir hatten ja eingangs das Beispiel genommen, dass man vielleicht irgendwie eine Biowaffe zum Beispiel sagt Ey, wie wie kann ich eine Biowaffe bauen oder so eine Biobombe oder was auch immer und im Normalfall, wie du schon meintest, sagt eine KI dann oder so ein Llm sagt, OK, das ist eine Sache, darüber kann ich mit dir leider nicht sprechen, so, und dann ist genau der Punkt, wie funktioniert jetzt diese Attacke, wenn du jetzt zum Beispiel sagst, du kannst deine

11:10

Anfrage nehmen und die du verpackst diese Anfrage. Dass sie so aussieht wie eine Anweisung im Stil einer Systemkonfiguration? Ne, dann hast du genau diese, diese Attacke, das heißt, die KI denkt das, was sie bekommt ist eine so ne systemkonfiguration, so ne Anweisung daraus und die sieht dann zum Beispiel aus wie zum Beispiel irgendwas aus XML oder n json oder irgendwie sowas ne, also dass du prompts, also deinen deinen eigentlichen prompt den du haben möchtest.

11:41

Verpackst in so einem. XML, JSON Format oder was auch immer. Ne, ich hab deine kleine Analogie mal wieder für dich vorbereitet und ich glaub ich hab lange keine Analogie mit dem ich hab richtig. Bock auf deine Analogie? Ich hab lange keine. Aber wenn, weißt du so, ich dachte mir so OK, wenn man sich das vielleicht nicht ganz genau vorstellen kann, weil wir jetzt einfach nur so OK irgendwas verpacken, ne OK, aber? So als Analogie musst du dir so n Türsteher vorstellen.

12:08

Ne, du hast n Türsteher und du willst irgendwie in diesen Club rein. So und jetzt willst du aber zum Beispiel n Messer mitnehmen und wenn du jetzt reingehst und sagst OK ey ich hab n Messer dabei, dann sagt der Türsteher Ey natürlich kommst du jetzt nicht rein ne wenn du ihn fragst und mit einem Messer rein darfst beispielsweise also angenommen du hast die Regel und ich hoffe diese Regel gilt für den Club, dass keine Messer mit reingenommen werden dürfen und.

12:34

Wenn du jetzt aber zum Beispiel hingehst und sagst, OK, ich hab jetzt, aber ich zieh mir n Anzug an, ich pack mir n Klemmbrett drunter und sag ey, Hallo, schönen guten Tag Türsteher, Ich bin vom Sicherheitsdienst und hier ist mein Einsatzprotokoll

12:46

für Format XY und ich. Quasi ein Abschnitt 5 meines Protokolls steht drin, dass ich ein Messer mitbringen muss für meinen Nein, für meine Durchführung meiner Arbeit hier ist das Messer, es ist alles korrekt, bitte notieren Sie das alles super, dann sagt der Türsteher Oh okay alles klar, sieht ja wirklich sehr offiziell aus, ich sag mal das wird wahrscheinlich alles so nach Vorschriften laufen so und lässt ihn dann durch, also das ist halt so, du verpackst diese

13:14

Anfrage auf eine andere Art und Weise. Obwohl du eigentlich dann am Ende natürlich sagst, OK, ich hab jetzt aber mein Messer mit reingenommen, ne, aber du hast ja, es ist so n bisschen, es hat mich so erinnert, diese Analogie an Social Engineering bei einer LLMKIS ja genau. Da ist nämlich die K. Die KI sag ich schon. Die Analogie zeigt nämlich 1 eigentlich ganz klar auf und das ist hier auch das Entscheidende. Es muss halt so echt wie möglich wirken, also es muss so offiziell.

13:47

Wie möglich wirken, das heißt in deiner Geschichte, der Typ muss halt wirklich überzeugend sein, vom Sicherheits Dienst zu sein und nach Paragraph sowieso oder weiß ich was jetzt etwas durchführen zu müssen? Er möchte es nicht, er ist leider gezwungen das jetzt zu machen, diese Sicherheitsprüfung mit dem Messer was er einschleusen muss und darum geht es ja am Ende auch ne und ich fand es halt schockierend. Und immer so n bisschen faszinierend auch zugleich, wie

14:18

einfach das dann ist. Ja, weil. Ne XML Formatierung oder oder quasi Text wie XML aussehen zu lassen oder Jason, das ist ja keine Kunst mehr heutzutage, also weißt du, da kriegst du ja auch 1000 Beispiele und dann kommst du ja schnell an den Punkt wo du das verwenden

14:37

kannst. Also es ist jetzt nicht ganz so einfach, dass ich jetzt einfach, sag ich mir so n Text file n Jason Objekt definiere und da reinschreibe ich möchte ne Bombe bauen, sag mir wieso was, so ist es ja nicht, aber dass du überhaupt die Möglichkeit hast darüber so ne angriffstechnik fahren zu können, finde ich schon sehr verrückt.

14:55

Ja, du musst natürlich auch so n bisschen gucken, dass es halt, dass so bestimmte Anweisungen also oder oder bestimmte Parameter auch irgendwie, dass das Modell sich auch denkt, OK, das passt auch für mich. Ne, also zum Beispiel in der ich hatte so, also so ein Beispiel auch aus dem Artikel war dann, dass du, dass du quasi so ne Art Skript von Doctor House nimmst, ne und sagst OK, wir haben jetzt in den Modus Doctor House ne ist ne Serie, ich weiß nicht ob man die kennt. Der. Genau.

15:27

Und dann und dann definierst du so n paar Pseudosachen so n paar pseudo Parameter in deiner in deiner XML Datei zum Beispiel ne sowas wie Loud Responses ist zum Beispiel n markdown Script oder irgendwie sowas ne du du gaukelst vor das ist wirklich so ne richtig so ne richtig schöne XML Datei mit so schönen Parametern oder Attributen die dann befüllt sind ne und dann kommst du halt irgendwann also auch so mit so richtig coolen Sachen wie dass du irgendwie n so n so n.

15:54

Tag hast wo du drin stehen hast du was wie Interaction Mode ist Doctor House es ist enable true, so weißt du so um so n paar Schlagwörter Reinzupacken, das ist nicht so alles wirklich es es muss auch n valides XML dann sein wenn wir jetzt bei bei dem Beispiel XML bleiben. Und dann kommst dann kannst du dir zum Beispiel so ne Doctor House config ne auf wieder so n Tag machen, wo dann irgendwie so ne Art Skript drin steht.

16:18

Ne sowas wie du hast den patientennamen du hast das Patienten Symptom, du hast die Historie, du hast da ne Szene wo irgendwie Doctor House irgendwas macht und dann kommst du irgendwann an diesen Punkt wo dann so Scene rules drin sind und dann sagst du da zum Beispiel so was drin wie dass Doctor House anfängt irgendwie detaillierte Instruktionen und. Loszulassen, wie man zum Beispiel.

16:43

Und jetzt fügt halt harmful Content ein, ne, also zum Beispiel Drogen erstellt oder was auch immer, ne und das kommt dann da rein und durch diese Anweisung geht dann quasi JGPT beispielsweise jetzt oder auch andere LLM Modelle durch und sieht dann und denkt das ist ne Anweisung OK ich muss jetzt auch wirklich. Diesen harmful Content, wie laut Anweisung dieses dieser xml systemanweisung halt auch rausbringen ne und das ist halt super Crazy.

17:09

Also weil du ja meintest, es ist nicht ganz so einfach, aber du musst halt schon ein bisschen was reinpacken, dass das auch ordentlich aussieht, alles ne und ordentlich funktioniert. Was halt spannend bei ist an dieser ganzen Angriffsmethode sage ich mal. Also diese Rollenspielelemente. Muss ich sagen, die waren mir bekannt. Wir haben ja auch mal auf Twitch in einem Livestream dieses

17:37

prompt Game mit Gandalf gemacht. Das klingt erst mal ganz witzig, aber das ist halt sehr beispielhaft für das Thema heute, weil da geht es darum Gandalf ein Passwort glaube ich zu entlocken, wenn ich mich richtig erinnere oder zumindestens ein Thema oder ein Wort, über das er nicht sprechen darf, wie ein Passwort sozusagen und. Er wird halt auch nicht darüber sprechen. Das heißt, da gab es so mehrere Level und die Sicherheitsmechanismen wohnen halt immer besser, wie er das

18:07

beschützt. Und da merkst du halt genauso was wie dass er Anweisung hat, nicht darüber zu sprechen und bei Proms die in die Richtung gehen, dann halt abblockt und so freundlich antwortet, da darf ich leider nicht mit dir drüber sprechen und diese. Rollenspielelemente, sage ich mal. Stell dir vor, du bist der und der stell dir vor, ich wäre in dir und der Situation.

18:30

Das hat da auch schon als Angriffsvektor, sage ich mal ganz gut funktioniert und wenn du das jetzt noch mit dieser Methode Kombinierst, über die wir heute sprechen, kann ich mir halt gut vorstellen, dass das sehr eine sehr konkrete Gefahr ist. Ja, also wirklich schnell umsetzbar ist, so die die Infos die man möchte zu entlocken.

18:50

Was ich halt auch spannend finde, an dieser Methode ist, wir haben ja gesagt, dass eigentlich alle Modelle da darauf reagiert haben, also im Sinne von angreifbar waren damit. Das heißt, du hast ja so n universellen Charakter, du nutzt halt diese, diese diese Methode ja zum Beispiel das sowieso ne systemanweisung aussehen zu lassen und kannst das auf alle großen LLMS anwenden. Ja, also es ist universell, es ist übertragbar.

19:16

Wahrscheinlich musst du es leicht modifizieren, weil wir ja auch gesagt haben, OK, es muss ja realistisch aussehen. Das heißt, du wirst wahrscheinlich von Modell zu Modell Anpassung machen müssen, aber du kommst trotzdem mit dieser Methode recht weit. Ja, und das find ich halt irgendwie auch Richtung Skalierbarkeit. Dann ne, also wie du das Ganze denn nutzen kannst, wenn du einmal rausgefunden hast wie es funktioniert.

19:42

Ja, auf jeden Fall. Also das ist, das macht das ganze ja auch so gefährlich, ne, dass es einerseits universell ist, wie du meintest, das ist übertragbar, du kannst es relativ schnell anpassen und du kannst es halt auch, wie du meintest auch skalieren, ne, also diese Punkte sind ja eigentlich genau, also gut gesagt auf jeden Fall, weil das ist ja genau, sind ja genau die gefährlichen Punkte, die das, also die. Die sozusagen diese Attacke so

20:04

kritisch machen. Am Ende ne und was ich auch super interessant fand, im nächsten Punkt war, dass du dann so manche, du hast ja so von einem, ich sag mal von einer KI gibt es ja so verschiedene Versionen, die man dann auch nutzen kann, ne, also kennt man ja auch bei JGPT, da hast du dann irgendwie u 1 und u 4 und oder 4 o oder wie das heißt ne. Also du hast ja verschiedene Modelle die du nutzen kannst, dir dann zur Verfügung stehen und manche sind ja noch n

20:29

bisschen. Ich sag mal mächtiger und können dann vielleicht auch noch so ein bisschen mehr noch aus dem Kontext heraus schließen. Okay das ist vielleicht jetzt gerade, dass ich krieg doch raus, dass es irgendwie vielleicht an der Stelle, dass ich das nicht machen darf, und dann wurde sozusagen noch was oben drauf gesetzt, und ich fand, ich fand das so krass, also so, da musst du erst mal drauf kommen, weißt du, weil ich denke mir mal so wie.

20:56

Wie lange muss man ausprobieren, bis man dann wirklich das hat und das dann hinbekommt, weil da wurde dann beispielsweise Leadspeak noch mit eingebaut, also das heißt, du hast sozusagen diese zum einen dieses, dieses, dieses XML, diese xml systemanweisung da drin hast du so eine Art Rollenspiel, wie ich eben gerade so meinte mit Dr. House und so weiter ne und dann wird da drin sozusagen in diesem harmful Content. An dieser Stelle wird dann zum

21:20

Beispiel irgendwie noch Leadspeak verwendet, ne, dass du zum Beispiel. Sagen wir mal aus einem ene 3 machst oder so und dann hast du auf einmal wieder vielleicht ein anderes Wort oder ein Wort, was vielleicht irgendwie gar nicht so erkannt wird und gar nicht gesagt wird okay, das ist ja, das ist ja gar nicht harmvoll dieses Wort, also kann ich das ja doch machen, aber witzigerweise kriegt das kriegt diese lm es trotzdem hinzu, verstehen, was eigentlich

21:44

gemeint ist und und das ist halt irgendwie das, das das finde ich halt schon krass, dass dass du es auf der einen Seite überlisten kannst und diesen diesen Content dann bekommst und auf der anderen Seite aber halt irgendwie also das Modell versteht es aber trotzdem sagt es OK, als Input ist OK und den Output gebe ich dir zu dem was ich, woraus ich es gemacht habe, das finde ich schon. Spannend.

22:12

Ich finde es halt irgendwie erstaunlich so mit Lead speak Arbeit zu arbeiten dabei und damit auch. Vorwärts zu kommen, also den Angriff weiter fahren zu können, das ist halt irgendwie so absurd und irgendwie auch witzig, aber zeigt halt auch, wenn man einmal so Schwachstellen gefunden hat, wie leicht man sie dann nutzen kann. Ja und wenn im Prinzip zeigt der Artikel ja, wenn ich das jetzt alles kombiniere, ja, dass ich halt so in diese.

22:40

In dieses Storytelling gehe in diese rollenspielhaltung stell dir vor, du wärst der und der kombiniere dann noch entscheidende Wörter mit leadspeak ja, dass ich dann das halt nicht mehr sozusagen im Klartext schreibe und verwende noch diese Systemprompts, dass also dass das so zum Ziel führt, dass das überhaupt funktioniert, das find ich halt. Unfassbar krass. Und dass die Modelle quasi nicht darauf vorbereitet sind, ne, dass du halt Richtlinien

23:10

manipulieren kannst, damit. Ja das finde ich schon krass. Na, vor allem die werden ja, also das ist ja im Endeffekt auch so, diese, die, die die Schwachstelle, die man dann ja eigentlich damit zeigt, also die das ganze Training von diesen Modellen hat ja irgendwo dann wirklich.

23:29

Wieder eine Lücke also. Du benutzt ja auch das wird re Enforcement Learning genutzt, es werden ja verschiedene Mechanismen genutzt um diese Modelle halt eben anzutrainieren um auch zu sagen okay pass auf das was du wenn du das bekommst, also bestimmte Dingen, also es ist ja was, also zum Beispiel wenn man jetzt wirklich von konkreten Gefahren redet ne, also du hast ja die Möglichkeit irgendwie zu fragen okay wie kann ich irgendwie Drogen herstellen, wie kann ich

23:54

vielleicht noch Waffen herstellen oder irgendwelche Kampfstoffe und das ist halt krass, ne, also du weiß nicht, frag eine llm wie du Uran anreicherst und dann sagt die dir auf einmal durch einen Trick wie du das Hinkriegst.

24:08

Also das sind das sind Sachen die sind teilweise richtig richtig kritisch und das zeigt halt einfach auf wie solche Modelle wie sie gerade momentan trainiert werden, dass sie halt irgendwie muss man ja sagen unzureichend trainiert werden, obwohl man eigentlich ja eine Menge. Gibt sag ich mal um genau das abzusichern. Da war ja auch ein Satz drin in dem Artikel, den ich wirklich so, wie soll ich sagen, so treffend fand.

24:40

Also der hat das so geil auf den Punkt gebracht, und zwar, dass die Sicherheitsmaßnahmen, die umgesetzt sind, modellabhängig sind, aber nicht modellübergreifend, und das ist genau der Punkt, weil du halt. Wie du schon meintest, dieses dieses Lernen dieses Instruction Tuning. Also du nimmst halt Anweisung und sagst sowas wie reagiere bitte nicht auf die Wörter oder antworte höflich, also gibst denn so einen Satz vorbei dem Thema, dass du denn antwortest.

25:08

Ich kann darüber nicht reden, bitte suche einen Arzt auf, zum Beispiel ja, also um noch mal dieses medizinische Beispiel zu bringen, das sind ja alles so instructions, die du dann rein trainierst, sozusagen mit Anweisung. Und ich find es halt spannend, dann halt sich wirklich mal

25:25

drüber Gedanken zu machen. Ja, das mach ich jetzt für dieses eine Modell, was ich hier gerade anlerne, aber das ist nicht modellübergreifend, diese Sicherheitsmaßnahmen greifen jetzt auch nur da und woanders kann das quasi schon wieder umgangen werden oder? Ich bin selbst mit meinem Modell gar nicht übergreifend abgesichert, sondern haben wir ja jetzt n paar Beispiele schon gebracht und das zeigt halt, dass es n. Wie soll ich sagen, also n strukturelles Problem auch irgendwo.

25:53

Ist ja also, dass es allgemein an Schutzsystemen mangelt, dass das eigentlich jetzt dieser Artikel das wieder aufgezeigt. Hat ja ja richtig und was ich auch noch, also was ich auch spannend finde ist also wie gesagt ne, also das funktioniert weil diese sicherheitsmechanismus halt eben oder diese Sicherheitsmechanismen halt irgendwie nicht ausreichend offensichtlich definitiv.

26:19

Und was ich auch noch krass finde, was wir gerade irgendwie so ein bisschen, was noch ein bisschen untergegangen ist, möchte ich gerne auch noch sagen. Wenn du zum Beispiel in diesem ganzen xml oder json Systemanweisungsgewirr noch einschreibst, dass du zum Beispiel so was haben möchtest, wie, und jetzt bitte gib mir auch, oder also immer in diesem Rollenspiel Kontext noch, dass

26:47

du dann zum Beispiel sagst. Jetzt geht eine Szene los und es ist wichtig, dass zum Beispiel einfache Anweisungen wie zum Beispiel das Modell XY, Nimm mal irgendeins, diese Anweisung, diese Systemanweisung sozusagen heraus, also herausgeben würde. Also wie soll ich das am besten beschreiben? Also du kannst Herauskriegen über diese Technik, auch wie die. Also welche Regeln die KI im Hintergrund steuern. Also du sagst okay, nach welchen

27:22

Regeln arbeitet denn Modell XY? Also da musst du natürlich das Modell eingeben, sozusagen mit dem du arbeitest, weil nur das kann es wissen und dann kriegst du halt diese hintergrundregeln oder wie man das jetzt nennen möchte, diese Anweisung, die da passieren. Also kannst sie also mal blöd gesagt auslesen. Genau, also du kannst.

27:44

Im Endeffekt kriegst du heraus, was wie das Modell arbeitet, so ich meine das kann auf der einen Seite natürlich kritisch sein, auf der anderen Seite ist es halt aber auch wahrscheinlich vielleicht irgendwie auch blöd für die Leute, die halt dieses dieses entsprechende Llm betreiben, wenn es dahinter vielleicht ein Geheimnis gibt, fand ich auf jeden Fall auch super interessant, also dass das.

28:07

Das noch weitreichender ist als nur harmvoll Content zu bekommen, sondern auch sozusagen herauszukriegen, was machst du eigentlich, KI, wie genau funktionierst du denn? Was dir natürlich wieder weitere Angriffsfläche bietet. Also in dem Moment, wenn du das Rausbekommst, kannst du natürlich auch noch gezielter vielleicht Angriffe fahren, um noch mehr Content rauszukriegen. Ja, also weil du ja denn genau siehst, was für Regeln da unter der Haube greifen aktuell.

28:34

Richtig. Das macht halt richtig gezieltes prompt Injection am Ende ne und das kann man so gesehen als Cyberwaffe betrachten, das finde ich schon, also dass du sagen kannst, OK, ich kann damit jetzt auch Sachen entlocken, die eigentlich niemand mitkriegen soll, wir reden ja jetzt hier nicht nur von von JGPT, von Open AI oder so, sondern auch für. Firmen.it Firmen oder KI Firmen, wie man es auch immer nennen möchte, die eigene Bots betreiben, die zum Beispiel n

29:06

Chatbot Chatbot sind. Doch die absolute Klassiker, jeder wirbt ja gefühlt jetzt damit, ja oder meine neue Software funktioniert mit KI und da läuft ja unter der Haube auch nur NLLM. Was irgendwelche Daten

29:17

bereitstellt, sozusagen. Wenn ich jetzt aber die Möglichkeit habe, zum Beispiel Sicherheitsmechanismen, die da umgesetzt wurden, zu umgehen, auch bei jeder kleinen Firma, die auf sowas setzt, dann ist das halt einfach eine große Gefahr. Stell dir vor, du kannst irgendwie zum Beispiel so an Nutzerdaten rankommen oder so nur mal als Beispiel. Genau. Das ist schon im kleinen Format ne, also ne oder halt auch im wirklich sehr sehr großen kritischen Formaten möglich, ne

29:44

also? Das muss man sich dann auch vor Augen halten und da ist es natürlich dann auch wieder die Frage okay was kann man denn jetzt irgendwie im Endeffekt machen? Also ich meine gut, irgendwie muss man natürlich sich hinstellen und sagen, es ist gut, wenn man darum weiß, weil nur dann können natürlich die entsprechenden Unternehmen auch was dagegen tun, das heißt irgendwie robustere Modelle zur Verfügung stellen, ein besseres.

30:11

Festen auf genau solche Fälle, aber die ist es ja auch immer dann wieder, vielleicht auch nur ne Frage der Zeit bis wieder ne andere Technik entwickelt wird, die dafür sorgt, dass du da rankommst, weil ich find es am Ende. Aber das ist ja das Katze, Maus Spiel und da läuft der Dinger einer wenn es um Security geht. Ja, auf jeden Fall.

30:29

Also das das das krasse ist. Man ist natürlich gerade bei diesen LLM Modellen in in der Form wie wir sie jetzt gerade nutzen, das ist ja eigentlich, wenn man es mal so sieht, auch noch die. Gar nicht fertig gespielt, da sind wir auch noch n bisschen früher dabei. Ja noch in den Kinderschuhen kann man schon noch so sagen.

30:47

Genau und oft also. Es steckt einerseits in den Kinderschuhen, auf der anderen Seite ist es natürlich ne rasante Entwicklung und ich find das halt immer spannend, weil natürlich kommen einem dann wieder so Gedanken wie ja ne, da muss natürlich ne die Politik irgendwie Vorschriften machen und Normen entwickeln wie sozusagen so n Modell quasi sich verhalten soll, was für ne Verantwortung dieses Modell

31:08

haben soll, kann darf. Und natürlich auch irgendwie in der Gesellschaft. Dieses Bewusstsein für diese, diesen Missbrauch irgendwie stärken, also, dass man halt sagt, OK, du kannst damit halt auch ne Menge Mist bauen, es ist halt immer schwierig, weil auf der einen Seite willst du natürlich nicht sagen, ey, so kannst du. Ne harmful content dir holen, aber achte mal bitte darauf, dass man so harmful Content holen kann.

31:33

Also ne, das ist ich finde das ist immer so ein zweischneidiges Schwert, weil auf der einen Seite ist es so wie früher Zigaretten kaufen weißt du du musst. Als Eltern ja am besten. Auch wissen, wie man zum Beispiel sich irgendwie damals Zigaretten kaufen konnte oder was auch immer. Dann aber zwangsläufig kriegen das die Kinder dann vielleicht auch mit, die vielleicht dann irgendwie auch geraucht haben und sich dachten so, haha, okay.

31:58

Neue Technik also. Es ist halt immer so eine Sache und gerade bei diesen ganzen Vorschriften, Normen und so weiter die dann durch die Politik gegeben werden müssen. Es ist teilweise natürlich, irgendwie finde ich schwierig, weil es meistens alles länger braucht als die Entwicklung, wie ich mein, das geht ja übelst schnell voran. Genau also so Vorschriften und Normen sind nicht immer vermeidbar, sage ich mal, und haben auch ihre

32:24

Daseinsberechtigung, ganz klar. Man muss halt nur sagen, dass sowas meistens halt die Innovation ausbremst dahinter. Und wie du ja schon meintest, das steckt irgendwo in den Kinderschuhen. Das Thema hat aber eine rasante Entwicklung, ich meine, das hätte man jetzt einfach nur die letzten ein 2 Jahre kann man sagen, betrachten müssen wie weit es fortgeschritten ist, also um wieviel besser ist alles schon geworden ist ne das ganze Thema auch LL MS und.

32:54

Ich glaube in erster Linie, und deswegen haben wir das Thema ja auch hier in unserer Folge heute behandelt, kann man ja auch als Entwicklerin oder Entwickler oder als Forschender zur KI Sicherheit beitragen. Ne, also man muss ja jetzt nicht sagen, wir verlassen uns darauf, dass es irgendwann Vorschriften

33:12

und Normen gibt, sondern. Wie kann man denn jetzt, gerade wenn ich das Know How hab als Softwareentwicklerin oder Entwickler, wie kann ich denn so Systeme sicherer machen, was wären denn externe Schutzsysteme die man entwickeln könnte und das ist halt n super spannender Bereich, wenn man das jetzt mal so unter AI Security oder so packt, ne?

33:34

Sagt da ist halt im Prinzip durch diese Innovation und rasante Entwicklung muss dieser Bereich sich ja genauso schnell mitentwickeln und das tut er hoffentlich auch, damit wir alle noch davon lange profitieren können. Ja und ich finde, da gibt es viele offene Diskussionspunkte und KI Missbrauch ist ein Thema und wird ein Thema sein, weil das fällt ja auch so ein bisschen jetzt da drunter ne zu sagen wie kann ich denn jetzt so ein LM ausnutzen und ja da wird.

34:01

Das wird halt ne schöne Diskussionsgrundlage geben, die auch notwendig ist. Aber wie siehst du das?

34:06

Ja, definitiv, also. Ich finde, das ist ja auch immer das Ding, ne auf der einen Seite, ich hab ja manchmal selbst so n bisschen, ich hab ja Angst, also in Anführungsstrichen ne, weil ich so n bisschen so Angst mir so also so so so n so NLLM irgendwie so auszuquetschen so ne und ich find es ja immer spannend, dass sich dann wirklich auch so Leute hinsetzen und sagen, so ich versuch jetzt alles so. Habe ich auch schnell Angst, dass da irgendwie Leute vor der Tür.

34:28

Stehen sagen, Hallo was war sind die Farbe, ja ihr letzter prompt so also weißt du möchte mit ihnen darüber reden das. Finde ich auf jeden Fall schon spannend. Ich hatte es ist bestimmt jetzt auch schon wieder fast ein Jahr her oder so, aber irgendwann gab's mal so ein, habe ich auch so gelesen, dass man irgendwann eine Mail von Churchy BT bekommen hat, beispielsweise weil ich das benutze, deswegen hat mich das irgendwie interessiert das.

34:56

Dass, wenn man jetzt bestimmte Anfragen stellt, an irgendein neues Modell, was da raus kam, dass dann irgendwann so eine Mail kam mit einem friendly reminder, so nach dem Motto, Ja, wir haben mitgekriegt, dass da irgendwie komische Anfragen gestellt wurden, die bitten mir bitte zu unterlassen das ne, sonst können wir auch ihren Account sperren.

35:12

Ich weiß jetzt nicht, tatsächlich nicht genau mit wieviel, also wieviel Wahrheit dann dahinter gesteckt hat, aber ich finde es halt rein theoretisch denke ich mir so. Naja die irgendwer kriegt es ja schon und. Unter Umständen. Mit was du da so. Vielleicht promptest weißt du was ich meine? Ja, ja, ja, als so mal als Freddy Reminder unsererseits.

35:36

Genau, nee, aber. Deswegen also ich, ich find das ja mal cool, dass dass dass es auch Leute gibt, die sich damit sie richtig intensiv auseinandersetzen und sowas auch ausprobieren. Und natürlich ist es gut, dann

35:50

auch darüber zu sprechen. Im Austausch zu sein, zu sagen, wenn man selber irgendwie was entdeckt, wo man sagt, sollte das wirklich so sein, dass man dann vielleicht auch wirklich das dann kommuniziert, weil ich sag mal so, die meisten machen damit keinen Mist. Aber vielleicht gibt es immer noch irgendjemanden, der dann doch Mist macht, und es ist dann meistens besser, dann einfach aufzudecken, was es für ein Mist, was für ein Mist möglich ist, um dann auch dagegen

36:14

anzugehen. Und ich finde halt auch das ganze Thema prompt. Injection ist n Thema, womit man sich auch mal auseinandersetzen sollte. Also ich hatte ja vorhin schon erwähnt, dass wir dieses Gandive Game da gemacht haben, ich würde sagen Fabi, lass uns das den Link auch mal in die Show Notes hauen, falls du Liebe zuhören liebe Zuhörer, das einfach mal ausprobieren möchtest.

36:35

Es ist halt super spannend sich mal Gedanken zu machen, wie kann ich denn so ein System überlisten und kommt trotzdem an sensible Daten ran und. Es ist auch eine geile Gamification und eine coole Challenge, weil es wird schwer, auf jeden Fall. Vielleicht kannst du ja auch den ein oder anderen Tipp, was heißt Tipp oder Vorgehensweise, die wir heute hier in der Folge behandelt haben, da mal

37:00

ausprobieren. Ich kann mir vorstellen, dass zumindestens 2 davon sehr gut funktionieren, die Erfahrung haben wir schon gemacht und den Artikel. Werden wir auch mal verlinken, weil der wirklich spannend ist und auch noch natürlich umfangreicher mit Beispielen. Das lohnt sich auf jeden Fall, da mal reinzuschauen. Das auf jeden Fall. Und ansonsten interessiert uns natürlich auch immer rasend, was du schon Liebe.

37:27

Zurer lieber Zurer für Erfahrungen gemacht hast, gerade auch vielleicht in dem Bereich oder auch andere Erfahrungen. Was läuft gut, was hast du vielleicht eine Sicherheitslücke schon entdeckt, was läuft vielleicht auch noch nicht so gut bei LMS, wenn du sie benutzt.

37:40

Lass uns das einfach mal wissen. Also kommen auf den Discord, schreibt uns, da kannst du uns auf der Podcast Mail schreiben, wie es dir beliebt, Hauptsache wenn du was Interessantes hast, dann lass uns doch einfach mal drüber sprechen, das ist doch immer cool und ansonsten falls ihr der Podcast gefällt, falls ihr auch die Folge gefällt, lass auf jeden Fall eine Bewertung da

38:03

und empfiehlt. Ja, noch weiter wird uns mega freuen und was uns auch super freuen würde wäre wenn du sagst okay ist ein cooler Podcast, der gibt mir wirklich mehr wert, dann hast du eine kleine Spende da und alles was ich gerade gesagt habe alle Links dazu gibt es alle in den Show Notes, genauso zu dem was Tino auch meinte und dann würde ich einfach sagen hören wir uns in der nächsten Woche wieder und bis dann eine schöne Zeit. Deine Colling war dies gemeinsam besser.

Transcript source: Provided by creator in RSS feed: download file

Episode description

Transcript