¶ Podcast Statistiken
Was? Moin, zu einfach, komplex und ein frohes neues Jahr vom Team von Heisenwear und einfach komplex. Ja, willkommen im 24. Er, Burkhardt, ist jetzt schon ein Jahr her, dass wir gemeinsam podcasten oder wir podcasten schon seit einem Jahr nun gemeinsam. Krass, ja gar nicht mitgefilmt. Und bevor wir in unser neues Thema für heute einsteigen, was reg. Ai also mal wieder ein Thema zur künstlichen Intelligenz sein wird, habe ich ein paar
Statistiken mitgebracht. Wir wollen euch nicht allzu lange langweilen, aber nur mal ja die Gelegenheit nutzen, jetzt wo wir das schon ein Jahr machen, noch mal danke zu sagen und mit euch zu teilen. Ja, wie viele Hörer und Hörerinnen ist denn eigentlich so? Gibt es von Podcast. Und zwar sind wir inzwischen bei knapp über 1000 Abonnentinnen und Abonnenten angekommen. Cool. Ja, also über alle Plattformen weg haben knapp 25 nicht ganz 25 000 Abrufe in Summe.
Also das ist schon eine ganze Menge, kann man sich jetzt den Durchschnitt im Monat ausrechnen, das ist aber noch steigend und. Was glaube ich auch noch bemerkenswert ist, sind die Top Episoden. Ich sag noch mal die ersten 3 das die erfolgreichste oder am meisten gehört Episode ist die Folge Nummer 6 zum Thema Datenbanken. Wer hätte das gedacht? Also ich nicht, ehrlich gesagt. Ich auch nicht, überhaupt nicht. Also ich dachte, es ist ein trockenes Thema über
Datenbanken, aber gut. Und die Zweitbeliebteste Folge war die Folge zum Thema Microservices und Docker. Auch unsere Folge Nummer 2. Und die Drittbeliebteste Folge ist die Folge Nummer 3. Was ist Software also? Sehr allgemeine generelle Themen, natürlich aus der Anfangsphase, die sind auch im längsten draußen die Folgen.
Ja, das ist einfach mal vorweg, also bleibt uns, bleibt uns treu, wir haben uns viel vorgenommen fürs neue Jahr, machen weiter zu zweit natürlich ab und zu mit spannenden Gästen, wenn es passt. Und ja, würden uns freuen, wenn ihr auch dabei bleibt, so viel erstmal der Vorredner, jetzt steigen wir mal ein in Reg. Ai voll cool gerettet.
¶ Sprachmodelle (LLMs)
Hat mich überrascht mit der Statistik, davon wusste ich doch gar nichts, aber richtig schön, ja genau und reg Ai und wir haben sogar ein bisschen Datenbank dabei mitgebracht, also wer Datenbanken mochte, der darf heute auch noch mal ein bisschen dran bleiben, da kommt nochmal der Datenbank vorbei. Du dann leg mal los mit Drag AI. Also ich glaube generative AI ist das was die meisten aktuell so unter AI verstehen, also den
klassischen Chat GPT. Ich tippe was ein und der gibt mir halt irgendwie generierten in dem Fall Text auch zurück. Die AI, da sag ich mal ausgedacht hat, kennt man ja auch mit Bildern. Also wo man mit einem prompt ein Bild beschreibt und bekommt ein Bild zurück, das ist ja auch generativ Ai. Genau. Das hatten wir auch schon mal, glaube ich, relativ am Anfang besprochen. Was ist denn jetzt reg AI und inwiefern unterscheidet sich das eigentlich zur.
Generative. Ai. Klar, Gerrit, Die generativen AIS und die spannenden heutzutage, ich auch schon mit mit Dall E und wie sie alle heißen Bilder generiert und zu fahren.
Wir sind heute bei mit reg AI bei bleiben wir ein bisschen bei den Sprachmodellen, den textbasierten Sachen und hier das haben glaube ich alle auch schon mal gehört gesehen gefühlt auch, es ist ja so, dass wenn du jetzt Chat GPT eine Frage stellst die einen aktuellen Bezug hat zu aktuellen Informationen, dann wird der Chat GPD das nicht beantworten können warum das jetzt auch kein neues Wissen?
Weil das Modell das Large Language Modell, was unter Jet GPT liegt, trainiert wurde zu einer Zeit, die Halt jetzt nicht heute ist, sondern das dauert ja auch sehr lange und damit quasi Daten gesehen hat, verarbeitet hat und wissen aufgebaut hat, die nicht aktuell sind und auch nicht domänenspezifisch. Also es wird nichts zu deinem Privaten, es sei denn du hat das quasi vor Jahren schon ins Netz gestellt, irgendwie größere private Daten von dir vielleicht mit drin irgendeinen Teil.
Aber es wird halt nicht die spezifischen Domänenspezifischen Sachen kennen und darauf dann nicht antworten können.
Das ist jetzt aber gerade ne ziemlich spannende Anwendung, ich geb mal nur so n paar Beispiele, könnte zum Beispiel ne Firma sein die sehr viele dokumentations PDFS hat oder oder oder Datenblätter oder irgendwie was ne also viel Information und du würdest jetzt quasi die sprachliche Kompetenz eines eines Chat GPTS eines Sprachmodells nutzen wollen um auf aufgrund dieser Informationen quasi einen Chatbot zu erstellen, wo dann halt quasi Leute fragen können,
wie ist denn das und das, wie geht das und das oder. Was nehme ich denn am besten für ein Produkt, wenn ich das und
das habe oder oder oder? Also die Problemstellung ist die das öffentliche oder generative KI an der Stelle einfach limitiertes Wissen hat, und zwar nur das Wissen bis zu einem bestimmten Zeitpunkt und vor allem nur das Wissen, was eben dann auch zur Verfügung stand bei bei Chat GPT jetzt zum Beispiel ja das Internet bis weiß ich nicht 2022 oder sowas in der Form. Ganz genau, ganz genau das ganze Internet wird ja gescrapt und es wird, auch das ist glaube ich,
auch was Open Air erfolgreich macht. Also es gibt ja so n paar Phasen sag ich mal so ne von so nem Training von so nem großen sprachmodus es gibt sogenanntes Vortraining, da wird halt so quasi im Prinzip nur erstmal. Datendaten Daten gescrapte Daten aus dem Internet eingesetzt und das Modell lernt quasi erstmal, wie funktioniert Sprache, wie funktioniert Semantik und das kann man vielleicht noch einmal wiederholen. Wir hatten ja schon mal eine Folge bei KI, aber im Prinzip ist es so.
Dass das Modell Wahrscheinlichkeiten lernt, was für ein weiteres Wort auf ein vorheriges folgt. Also das ist also tatsächlich sind so Sprachmodelle, also die haben jetzt kein echtes Bewusstsein, sondern das ist ne Wahrscheinlichkeitsmaschine gewichtet, so dass wenn du jetzt irgendein Wort oder mehrere Wörter in der in der AI heißt, es immer Tokens ist nicht ganz n Wort und auch nicht ganz n Buchstabe ist. N ja so n technisches Mittelding, sag ich mal. Ja, das Modell lernt erstmal.
Was sind die wahrscheinlichen Folgewörter auf einem? Bestimmt ist damit quasi Sätze gebildet werden können, die irgendwie normal klingen in einer beliebigen Sprache und dann kommt ein zweites, ein zweites Training dran, das ist ein bisschen aufwendiger, das hat aber Open Area dann auf sich genommen und das ist so ein Frage Antwort Spiel. Denn sonst hast du ja kein generative AI.
Du hast wie in der Schule kann man es sich vorstellen in der Human sagt man immer, der Human stellt eine Frage und der Assistant beantwortet die dann und damit wird quasi trainiert, also man hat einen ganzen Datensatz von von Frageantwort rätseln Lösung die richtig sind und dass man lernt quasi also man trainiert das Modell und gibt ihm quasi. Punkte, wenn es schlechter ist. Und es ist besser, wenn wenn die Antwort richtiger ist, ne, dann wird das Halt trainiert.
Aber alle diese, also sowohl das vortraining halt als auch die Frage Antwortspiele sind halt passieren halt auf Daten die ja nicht individuell sind und auch nicht aktuell sind. So, und jetzt kann man sich die Frage stellen, aber die Kompetenz dieses Modells haben wir sprachlich ordentlich zu antworten auf beliebigen Kontext ist halt trotzdem gegeben, das ist halt eintrainiert und wenn ich die jetzt nutzen möchte, dann könnte ich, dann gibt es jetzt im Prinzip 2.
Offensichtliche Möglichkeiten oder sagen wir mal 2 Möglichkeiten, ob die offensichtlich sind, steht noch mal auf einer anderen Frage, aber man kann ja Modelle, man kann Modelle weiter trainieren, also so n so n so NGPT so n Chat GPT Modell GPT 4 oder irgendsowas könnte ich nehmen und es mit meinem Domainspezifischen Wissen weiter trainieren. Jetzt ist bei GPT nicht so einfach, weil das glaube ich nicht so einfach Open Source weiter zu trainieren geht es gibt aber mittlerweile passiert
ja viel bei KI es gibt. Open Source Modelle Elama zum Beispiel. Die kann man sich quasi runterladen und dann mit seinen Daten weiter trainieren und weiter trainieren. Heißt halt ich mach frage Antwort spiele ich füttere Informationen quasi rein in dieses Modell und in der Anatomie des Gehirns.
Ich stelle mir immer so ein AI Modell vor, tatsächlich wie ein menschliches Gehirn mit und was wir quasi an Neuronen haben und so weiter das sind quasi die die ganzen Gewichtungen die da drin liegen, dann kommt ein neuer Datensatz rein, dann wird er durch gewichtet und kommt etwas raus und. Ich kann quasi das Gehirn weiterentwickeln, das Modell selbst, in dem ich weiter trainiere mit Daten, die halt quasi aus meinem Bestand sind und die aktuell sind, das kann
ich machen. OK, und da gibt es quasi Open Source Projekte, die in Anführungszeichen so sind. Wie.ch PT, also das ganze Internet oder das Internet bis zu einem gewissen Zeitpunkt. Wir haben schon in sich haben in sich. Tragen? Richtig damit. Genau.
Und du kannst bist jetzt in der Lage dazu, als Entwickler das zu nehmen und dann noch weiter mit zum Beispiel firmeninternen Wissen. Was diese, diese Dokumentation, diese PD fs da erwähnt, die da noch reinzugeben um ein Modell, was schon das Internet kennt oder ein Teil des Internets noch weiter zu trainieren, richtig, das war jetzt der Anfang. Das wäre der Anwender. Die erste Lösung? Und damit veränderst du quasi anatomisch das Modell, das Gehirn quasi. Also so, wie wenn der Mensch
weiter lernen würde. Dann man sagt ja auch, anatomisch entstehen neue Verbindungen und so weiter dies entwickelt sich alles weiter so wäre es dann da auch und das ist halt langwierig und teuer und du brauchst extrem krass Hardware, weil weil diese Modell. Diese großen Sprachmodelle sind
halt groß, also die freien. Es gibt auch kleinere von denen, die dann schon abgespeckt wurden, da gibt es auch wieder Techniken, wie man die etwas reduzieren kann, aber du brauchst da halt ne Grafikkarte, mindestens ne gute und du brauchst Zeit und brauchst Geld. Und du musst die Daten hervorragend aufbereiten, dass du quasi dieses Training vornehmen kannst. Extrem rechenintensiv, da deine
¶ RAG AI erklärt
Daten reinzugeben. Ja, deswegen ist das ne Alternative, aber jetzt auch vielleicht nicht die schnellste und naheliegendste. Wenn ich jetzt nämlich, wenn ich jetzt quasi einfach mal ganz schnell irgendwie mein Wissen da rein bekommen möchte, möchte was haben, was dann einfach funktioniert. Und jetzt kommen wir quasi auf die auf das Rack. Dafür ist halt dieses Retrieval Augmented Generation ist halt eine Methode.
Wie man das, wie man das erreichen kann, ohne ein Modell weiter zu trainieren ne. Ja, also ich sag es noch mal ganz klar, man kann ein fertiges Modell, egal welches zum Beispiel das Chat TPT 3.5 Turbo oder Irgendsowas nehmen so wie es ist. Und trotzdem erreichen. Dass dieses Modell quasi mit neuen Informationen gefüttert wird und Kontextuell antwortet, ja. OK, genau. Also das ist, das wollte ich
heute mal. Also erstmal, dass das geht ist auch das relativ neuer Ansatz, ne neue Idee, das ist ungefähr seit 220 20. Und wie das funktioniert technisch. Ich hatte gar keine Ahnung, ich wusste nicht, dass das geht, es ist mal wieder so, dass wir aktuellen Fall haben und mich die Nase da auch beruflich, sag ich mal, reinstecken muss und das wollte ich einfach mal heute im Chat teilen, das ist nämlich ne.
Ja, eigentlich ne ganz einfache Geschichte, wie das funktioniert und das kann man ganz schnell mal. Also ganz schnell, aber in einem Podcast schon mal erklären. Cool, das hat mir extrem geholfen.
Diese Unterscheidung zwischen diesen 2 Möglichkeiten, entweder dass ein bestehendes Large Language Language Model eben entsprechend weiter zu trainieren mit dem spezifischen Wissen, was es noch können muss oder nicht, weiter zu trainieren, aber trotzdem es in die Lage dazu zu versetzen, dieses Wissen zu verarbeiten, was dann eben die Reg. Ai also nochmal langsam retrieval Augmented Generation AI. Ist genau.
Okay sehr cool. Ich habe ein paar Fragen, aber vielleicht erklärst du es erstmal noch ein bisschen und ich stelle den dann am Ende, wie das jetzt genau funktioniert, weil erstmal klingt es ja so, also erstmal nicht so. Logisch, dass das überhaupt geht.
Das stimmt. Ich versuche das mal zu erklären, also ganz wichtig bei dieser Methode ist, dass wir eine, dass wir eine zweite Knowledge Base Aufbenologisch Base, eine zweite Wissensbasis aufbauen, die erst mal nichts mit dem Modell zu tun hat, und ich hatte ganz am Anfang gesagt, Datenbasis Datenbank. Jetzt, so die, die die Fachleute sprechen jetzt schon von der Vektordatenbank es müsste eine Vektordatenbank aufgebaut werden, in der das spezifische
Wissen gespeichert wird. So kann man es auch überall lesen, aber damit kann man nichts anfangen. Also was ist das ja. Im Prinzip ist es so, ich hab ich hab jetzt Informationen, die kommen zum Beispiel aus Dokumenten, also aus dem PDF aus dem Word Dokument textuelle Informationen, die ich jetzt quasi als aktuellen Kontext dem Modell beigeben will, so und die die können auch. Also ich finde die kommen entweder aus dokumententypischer Weise oder die kommt tatsächlich aus dem Web.
Du könntest ja auch eine neue Webseite aufgemacht haben, da hast du dir irgendwie schon die Mühe gemacht, hast alles hingemacht, da gibt es ja auch ganz viel texturelle Informationen, die muss ich jetzt irgendwie noch so ein bisschen aus dem HTML rausziehen, aber da steht ja schon was drin, so, da kann das alles herkommen. Was wir jetzt machen müssen. Wir müssen im Prinzip diese textuelle Informationen. Speichern, und zwar so, dass wenn wir jetzt eine Frage stellen.
An das an das Modell, die sich natürlich im Kontext irgendwie darauf bezieht, auf die aktuellen Daten. Dass dass die, dass die bestimmten Teile dieser ganzen Information nicht reingebe die relevanten Teile rausgesucht werden und dem Modell auch noch mit zur Verfügung gegeben werden. Denn also Key von dem Ganzen ist, dass ich nicht nur, denn das also prompt Engineering
haben wir auch schon mal gehört. Ich kann natürlich dem Chat GP T eine einfache Frage stellen, ich kann aber dem Chat GPS prompt auch sehr viele andere Informationen noch mit beigeben, ich muss ja nicht nur eine Frage stellen, ich kann auch sagen. Liebes Jet GPT, meistens noch nicht so freundlich, aber hier hast du ein ganzes Stück Code oder Irgendsowas. Ja und dann und dann stellst du eine Frage, finde zum Beispiel den Film. Diesen Code, ja.
Ist auch bei einer Übersetzung, ist es doch quasi auch ähnlich, oder? Ja, genau. Also wenn ich jetzt sage, hier ist NNN Absatz auf Deutsch, bitte werf mir den auf. Französisch raus, richtig, richtig genau. Und das ist halt ne Kompetenz, die kann halt, die kann halt das.
Große Sprachmodell sowieso. Ja, du kannst halt, da kannst du ja beliebig viele, das ist meistens gesperrt, irgendwann kann das nicht mehr aufnehmen, das ist so die Anzahl der maximalen Tokens, das ist modellbasiert, aber das sind ein Paar, also du kannst das schon richtig Kontext rein reinkleben
ja du kannst halt nicht einfach. Und, und das ist wichtig, du kannst halt nicht einfach deine ganzen PDFS irgendwie zu Texten machen oder irgendwie und die da bei jeder Anfrage vor das Modell knallen und sagen gegeben, diesen ganzen Informationen, sag mir mal das und das, ja das wär zu krass und das wär auch zu aufwendig und und aber im Prinzip funktioniert das so Gerrit, also die Idee ist eigentlich nimm die extra Informationen die ich hab und gib sie mit in den prompt und
stell quasi darunter deine Frage die sich auf diesen Kontext bezieht, du sagst halt quasi und das ist der Key, du sagst halt. Liebe Sprachmodell, gib mir eine gute Antwort auf meine Frage, gegeben auf den Kontext, den ich dir jetzt hier mitgebe und dann dann dann copy pastest du quasi den Inhalt von deinem neuen Kontext einfach mit rein und gibst halt in der Anfrage die Informationen dazu. Das will.
Ich jetzt wahrscheinlich, aber nicht bei jeder Anfrage machen, die ich dann an dieses doch an das LM Stelle. Musst du musst bei jeder Anfrage den entsprechenden Kontext mitgeben. Aber jetzt kommt's. Jetzt ist es nämlich so. Du willst halt also jede Frage benötigt ja für die Antwort nicht den gesamten Kontext deinen gesamten Webauftritts oder aller deiner 1000 PDFS, sondern nur n bestimmten Teilbereich und jetzt kommt das was ich gesagt hatte, jetzt müsste man quasi ne Möglichkeit
haben. Aus einer Datenbank genau die Stellen, also die vielen Stellen, die potenziell vielen Stellen, die sich darauf beziehen auf das, was du jetzt gerade anfragst, rauszufinden und nur diese gefiltert. Dem Sprachmodell mitzugeben als Kontext. Du hast verstanden, ich weiß nicht, ob ich es erklärt. Habe also ich hab es verstanden, aber das klingt als würde jetzt für mich so klingen als wäre da irgendein Mechanismus im Gange oder Algorithmus oder sowas der erstmal.
Raussucht, welches die relevanten Stellen sind und diese dann mitgibt als. Kontakt exakt, und das ist ja, dass die KI Technologie, wir brauchen also ne Datenwahl, also die Datenbank, die speichert quasi alle Informationen die wir reinpacken, und zwar nicht einfach nur als Text. Sondern als sogenannte Vektoren vom Text.
Und so funktionieren auch die Sprachmodelle wir wissen, ich weiß nicht aus der 1. Folge vielleicht, dass wir haben immer so Gewichtungen, im Prinzip können so mit Modelle immer nur mit Nummern und Wahrscheinlichkeiten umgehen, das heißt, aus so einem Wort oder so ein Text wird quasi ne Abfolge von. Von von Floating Points, also von von Nummern generiert. So also tatsächlich in Mathe.
In der Mathematik sind das Vektoren, entstehen aus Tokens halt multidimensional und diese diese Tokens kann ich nachher dann vergleichen miteinander, ob die sich ähnlich sind oder nicht und kann quasi. Kann dann quasi so ne Art
Semantik erreichen. Also wenn ich so ne Anfrage habe und Speicher jetzt meine ganzen Daten die ich hab als Vektoren ne also als Nummer als durchnummerierte Informationen quasi ja in der Datenbank, das sind sogenannte Vektordatenbank, gibt es viele von viele verschiedene Arten, dann kann ich quasi meine Anfrage auch in so einen Vektor verwandeln live.
Das passiert auch. Also ich gebe in den prompt ein meine Frage zum aktuellen, zum aktuellen Kontext, der wird in so einen Vektor umgewandelt, damit wird die Wissensdatenbank
die ich aufbaue. Auch zu meinem Vater versucht so ein Vektorensearch quasi, das ist so Nearly's Naval Search und so weiter da werden also alle Stellen sehr schnell rausgefunden, die jetzt irgendwie relevant sind für für meine Anfrage. Die werden in Text zurückverwandelt und in den prompt geklatscht, in den prompt geklatscht und dann kommt die Frage dazu und dann kommt das große Sprachmodell und kann halt mit dem Vortrainierten Wissen, wie Sätze baut und wie es Antworten zu geben hat.
Und im Kontext, den ich da gerade schnell rausgesucht habe aus der Wissensdatenbank eine ordentliche Antwort zu geben. Ne, ja, krass. So funktioniert das also ganz grob so. Also das da wirklich 2 Technologien die da geschickt miteinander kommuniziert werden. Genau, ganz genau. Und diese diese Technologien, das also so Vektordatenbanken, die sind halt quasi während des Trainierens von Large Language Models. Halt quasi auch schon Bestandteil.
Also das braucht man da auch, das sind halt quasi Technologien, die ich dafür sowieso brauche, deswegen sind die extrem weit entwickelt und man nimmt einfach dann die, die im Prinzip die die Embedding sagt man auch so ne die Arten und weisen wie ich quasi vom Text auf diese. Vektoren komme das, da steckt ja so ein bisschen die Magie drin,
sage ich mal. Die nimmt man eigentlich schon, die man hat, macht es aber quasi als extra Kästchen sich hin, als extra Datenbank und und fragt dann schnell vorher ab und packt dann den Kontext in den man braucht. Dadurch werden die Anfragen. Minimal klein. Das ist wichtig, damit das Sprachmodell halt quasi ja auch irgendwie nicht überfordert ist und sich da die richtigen Sachen
raussucht. Ja und auch für die Geldbörse ist es wichtig, denn dann die Anzahl der Tokens normal rechnen, die es also wenn du jetzt das als Service nimmst und das davon muss man mal ausgehen, man kann sich ja quasi nicht ein Modell selber hosten, weil dafür brauchst du extrem viele Ressourcen, dann willst du quasi die Anfrage Größe klein.
¶ Prompt Engineering und Temperatur
Halten die LM schon vorbereitet darauf sage ich mal. Also ich weiß oder oder man weiß, dass ja die beim Training von den LMS bestimmte Quellen. Höher gewichtet werden als andere. Also ich glaube zum Beispiel Reddit. Alles was auf Reddit ist, geht mit einer höheren Gewichtung ein als ein x beliebiger Block oder so im Internet. Warum? Aber man glaubt, dass das bei Reddit so um die Wahrheit steht, eher die Wahrheit steht als woanders, sagen wir es mal so.
So. Und jetzt müsste ja so ein LNM auch wiederum vielleicht den den Kontext wieder miteinander mit Vergleichen, mit mit, mit so etwas, was da zum Beispiel bei bei Reddit gelesen hat. Also was ist ne, was ist höhergewichtet? Ja, der sehr gute Frage. Ja, also ist das ist das vorbereitet ist, das schon vorher mit drin oder oder ist das egal? Das ist auch so überraschend einfach, wenn man sich das vorstellen kann. Das ist einfach die Frage, wie
du dein prompt formulierst. Du kannst also wenn also wenn du jetzt zum Beispiel möchtest, dass das Sprachmodell tatsächlich nur und explizit nur aussagen. Zu den Informationen, die du da noch mit rein gibst, deine aktuellen Informationen, dann schreibst du halt in deinen prompt. Also während du den Kontext davor geklatscht hast, sagst du. Gib mir eine Antwort, basierend nur auf den von mir hier gegebenen Kontext.
Ja, und wenn du das tust und du sagst, gib mir ne Antwort, basierend nur auf diesem Kontext, dann tut es das und wenn du jetzt ne Mischung haben willst zwischen wissen was quasi das Sprachmodell auch in sich trägt und deinem Kontext, also wenn es ein bisschen aufmachen willst, sage ich mal, dann kann, aber dann kann es halt sein, dass du eine halluzinierte Antwort bekommst und so weiter das Probleme kennen wir ja dann sagst du, gib mir bitte eine Antwort.
Priorisiere irgendwie meinen Kontext hoch, aber du kannst auch andere Sachen auch mit Reinmischen. Das ist halt die Frage wie, das nennt sich ja prompt Engineering, Du gibst halt quasi in dem Satz den du formulierst, was das Sprachmodell zu tun hat, gibst du ihm vor, wie stark irgendwie was gewichtet in deiner Antwort.
Und wenn du, wenn du willst, dass es tatsächlich exakt ist, weil du zum Beispiel weiß ich nicht, was du, weil du für ein Unternehmen intern irgendwie Dokumentation wiedergeben willst und du willst auf keinen Fall, dass du irgendwie Quatsch steht, dann dann sagst du dem Sprachmodell, bitte antworte nur gegeben den Informationen, die ich dir da reingegeben hab und dann passiert auch kein, da passiert auch kein kein komisches Zeug, dann passiert vielleicht nicht ganz richtig,
dann passiert leicht ein bisschen komisches Zeugs, weil irgendwie die Sprachmodell in sich durcheinander kommt, zwar auf der Information, aber wirbelt das in sich irgendwie durcheinander die. Hier gegebenen Informationen, das hat das mit der Temperatur zu tun. Ich weiß nicht, ob du das schon mal gehört hast. So ein so ein Parameter, den kann man dann auch einstellen, wenn man auf dem Level ist. Du kannst quasi, das ist typischerweise ein Wert zwischen 0 und 1 Temperatur.
Beim Sprachmodell gibst du das mit an. Und wenn du es kalt machst, da so 0, dann fängt das dann ist es hat es nen kühlen Kopf, so merk ich mir das immer das Sprachmodell und gibt sehr kurze ganz klare Antworten und fängt nicht irgendwie an irgendwie blumig zu reden und
rumzuhalluzinieren. Und wenn du die Temperatur eben erhöhst, und das war bei 0,9 oder fast 1 bist, dann wirst du sehen, werden typischerweise die Antworten etwas länger und dann hast du irgendwelche Klammerausdrücke und so und relativsätze fängt es halt irgendwie an wild zu werden und dann ist die Wahrscheinlichkeit, dass da irgendwie. Ja, vielleicht eine widersprüchliche Sache.
Zum Beispiel in einem Satz steht jetzt heute morgen gerade gesehen irgendwie bei Johannes Brahms, da war er geboren, und gleichzeitig war er schon irgendwie unterwegs und hat vorgespielt, irgendwie am gleichen Tag so, das kann dir passieren, ne da. Habe ich mal den Vergleich gehört, dass das Halluzinieren von von Ai ein bisschen verglichen werden könnte mit menschlicher Kreativität, weil es ja, weil die große Frage ist, ja, kann KI auch so kreativ
sein, quasi wie ein Mensch? Und was ist ja Kreativität, das ist eigentlich. Erfinden von Dingen, aber dann doch wieder basierend auf Sachen, die man schon mal gesehen oder gehört hat. Irgendwo also Eindrücke, die man mal gewonnen hat, ob nun bewusst oder eigentlich auch unbewusst. Und. So ein bisschen eine, die halluziniert also und die Temperatur hochgestellt ist dann ja technisch gesprochen könnte könnte man als Kreativität bezeichnen. Ja, aber naja.
Genau mathematische, philosophische. Also. Es ist sehr philosophische Parameter, aber mathematisch, ja klar, das heißt ja, weil es geht ja alles um Wahrscheinlichkeiten, es gibt das Sprachmodell durchläuft mit einem Input seine ganzen Gewichtungen, und dann kommt quasi. N ganzer Satz von Tokens raus. Die Tokens sind dann quasi die Wort Bestandteile oder Satzbestandteile, die haben alle ne Wahrscheinlichkeit und und und.
Die Temperatur ist quasi so ne globale Wahrscheinlichkeits Cut off sag ich mal und alles was nicht total wahrscheinlich. Also je weiter du es nach 1 drehst desto mehr von diesen bisschen unwahrscheinlicheren Tokens werden halt noch mit Reingemengt und wenn du es kälter stellst, also gegen 0 drehst, dann ist da der Cut Off für alles was nicht ganz so wahrscheinlich ist, halt härter und fliegt halt raus und dann muss es halt kürzer antworten. So ungefähr ist es halt
mathematisch. Wenn du technisch mit der Beschreibung durch bist, also ich hab's auf jeden Fall verstanden, jetzt hätte ich noch ein bisschen fragen, wie man das jetzt so anwenden kann, aber. Ich sag noch eine technische Sache, dann bin ich durch. Das war für mich auch ein riesen aha Erlebnis. Es gibt ja auch den großen Unterschied, ob ich jetzt ein Sprachmodell mit einer einzelnen
¶ Conversational AI
Frage Anfrage und es gibt mir ne Antwort, was natürlich ganz klar, aber was natürlich total cool ist und was neu ist, ist ja diese dieses Chatverhalten. Also dass du nen, dass du ne Konversation führen kannst und dich beziehen kannst auf vorherige Aussagen, die du gemacht hast.
Ja also ich geb mal n Beispiel zum Beispiel ich hab jetzt diese reg AI gefüttert mit Wikipedia Eintrag von Johannes Brahms und dann frage ich irgendwie, wann ist Johannes Brahms geboren, da wird dann eine Antwort kommen die richtig ist.
Ja, Johannes Brahms ist jetzt ein schlechtes Beispiel, ich müsste eigentlich jemanden nehmen, der jetzt heute gerade gelebt hat, den Johannes Brahms ist wahrscheinlich sogar das könnte es von sich aus ja, aber egal, du weißt was ich meine, also ich nehme, ich nehme jetzt mal den Johannes Brahms und frag wann ist er geboren. Und dann? Dann kann ich quasi weiterreden, indem ich sage und.
Mit wem war er verheiratet? So, wenn ich jetzt, wenn ich jetzt n sprachmodell ohne Konversationskontext irgendwie sowas mit wem war er verheiratet, dann bezieht sich ja eher auf nix. Entschuldigung, das ist dann aber schon deine nächste Frage. Wieder ne. Also mit wem erst fragst du? Ja, genau das wäre die. Nächste Frau ist geboren der sagte 18:00 Uhr, Tschüss mich
tot und dann schreibst. Du dann kommt die Antwort von dem System, also von der AI bla bla bla ist geboren dann und dann ja und dann frage ich eine zweite Frage und beziehe mich quasi auf die Konversation und gehe dann mit Relativwörtern und er und so weiter weiter und sofort wie wir jetzt auch gerade konversieren quasi während wir während.
Podcast machen ne, das ist ja, das ist jetzt hat jetzt nichts mit direkt mit RAG zu tun, das dürfen wir nicht durcheinander bringen, aber ist natürlich ne wichtige Eigenschaft, denn ich will eigentlich, wenn ich jetzt auf Daten ich will quasi einen Chat auf Daten machen, ich will ne Konversation erreichen wenn
ich jetzt so abfragen mache. Dann möchte ich quasi, dass meine Anwender auf den aktuellen Informationen, die ich zur Verfügung stelle, so n so n so n, so n, so n Frage Antwortspiel machen können und sich beziehen können auf ihre vorherigen Fragestellungen. Ja, ich, ich hab das Gefühl, das klappt mal mehr, mal weniger oder ist mal mehr und mal
weniger ausgeprägt. Also zum Beispiel wenn ich bei Bart, wenn ich mit Bart Spiele, habe ich das Gefühl, der erklärt immer Sachen doppelt und dreifach, die eigentlich schon mal besprochen, in Anführungsstrichen besprochen. Worden. In diesem Chatverlauf sicher. Hat er ja auch immer den ganzen Kontext zur Verfügung. Also ganz bestimmt, aber ich hab das Gefühl, dass der die Bart oder was auch immer Bart auf jeden Fall immer das Gefühl hat, man müsste das alles noch mal erklären jetzt.
Oder? Ja, das kann gut sein.
Ich weiß nicht, das sind vielleicht die Modelle, wie sie ein bisschen unterschiedlich sind, aber ich hatte so ein krasses aha Erlebnis, weil ich immer gedacht habe, wie, wie ist das krasser Unterschied, also so ein Chat mit so einer Konversation ist ja auch nicht, klingt erstmal nicht so einfach und das war glaube ich auch so ein bisschen der Durchbruch warum Open AI mit ihrem Chat GPT, das war ja eine UX, quasi dass du quasi wirklich so einen Chat aufbauen konntest und du
mit der AI quasi konversieren konntest. Es war natürlich eine krasse Neuerung. Die steckt aber wieder nicht im Sprachmodell. Der Trick ist ja genau der gleiche wie mit dem, und der ist so trivial, wie man sich so denken kann. Die Prompts, das muss ich halt auch noch mal sagen, die Promts,
in denen du schreibst. Ja, also wenn du bei Open a da irgendwas eingibst oder auch jetzt, wenn wir was machen, ja das sind ja, das sind noch nicht die Proms, die das Modell tatsächlich sieht, das sind so eine Art man sagt Template prompt ja. Und der tatsächlich technische prompt, der wirklich an das Modell weitergeleitet wird, das ist n ganz anderer, ne, der wird dann quasi zusammengebaut aus den Informationen die du da reingegeben hast.
So funktioniert es ja über ne. Also ich, ich geb ja quasi nur meine Frage rein und dann bau ich eigentlich n prompt zusammen aus dem Kontext, aus dem rausgesuchten Kontext so und wenn ich jetzt den Chat habe, das ist auch nichts anderes, da wird halt einfach nur eine Historie aufgezeichnet von von meinen Fragen von jungen Fragen und von den AI antworten und es wird ja eine immer längere Liste.
Aber ich klatsche quasi bei jeder neuen Anfrage diese gesamte Liste der Konversation einfach mit in den finalen Anfrage prompt und der wirkliche prompt heißt hier ist meine Frage, bitte antworte gegeben der ganzen Konversation, die wir schon hatten, die du hier findest.
Ja, und die steht dann wieder da, eigentlich drin, es ist also im Prinzip funktioniert das ganz ähnlich und wenn du das Kombinierst, also diese diese konversations Historie mit dem Kontext mit den Relations gesuchten Kontext aus der Datenbank. Dann hast du im Prinzip reg einen Rack Chat, der auf deinen Daten richtig gut antwortete.
Rima jetzt. Hast du schon ein bisschen Übergang dahin gemacht zu dem, was ich dich noch fragen wollte, also wie man das jetzt anwenden könnte als Unternehmen oder wie das jetzt in der Praxis aussieht? Angenommen, es gibt ein Unternehmen, was weiß ich,
¶ Anwendung im Unternehmen
Maschinenbauunternehmen hat vielleicht 500 Mitarbeitende hat x Seiten Dokumentation über die Jahre angehäuft, es existieren wahrscheinlich. Zehntausende, Hunderttausende Dokumente, hoffentlich digital, die alles Mögliche an wissen über diese Firma beinhalten. Und das ist jetzt eine riesen Chance, dieses Wissen tatsächlich auch der ganzen Firma zur Verfügung zu stellen. Voll ja.
Genau das sind genau die. Anwendungsfälle jetzt möchte ich aber, also genau du kannst uns ja mal durchführen, wie würde man da anfangen, nicht im Detail und so weiter und sofort, dann wird das aussehen könnte wieso eine Firma das machen könnte und was mich jetzt besonders interessiert, was den prompt angeht, was du gerade schon mal so ein bisschen beschrieben hast, muss ich jetzt bei jedem prompt reinschreiben, bitte. Werte dieses Kontextwissen hier höher als das, was du im
Internet gefunden hast. Oder ist das genau das, was im Hintergrund eigentlich schon passiert, für einen abgenommen wird? Als Anwender tippe ich einfach nur ein, was weiß ich welche, wie ist die Stückliste von der Maschine die wir 1995 an den Markt gebracht haben als Beispiel ja. So ein Stückliste verstanden? Spiel rausziehen möchte ja also. Wir kriegen genau das hin, was du gerade gesagt hast, als zweites gerade.
Du musst dann also dem, der User muss überhaupt nichts eintippen, gar nichts wissen, der kann genau diese Fragen stellen. Das funktioniert so gut wie das prompt Engineering von dem Entwickler, der dir quasi diese RAG zur Verfügung stellt. Getan wurde. Ja, also ne, also du du schmeißt du, du generierst den finalen prompt. Mit der Anwendung mit der speziellen Anwendung für diese Firma, so wie es diese Firma Halt haben möchte und braucht.
Ja und da muss man jetzt also wenn man das machen wollte, dann könnte man müsste man hingehen, bisschen coden. Es gibt, kann man sich vorstellen, für die KI wunderbar und ganz viel, und es entwickelt sich jede 10 Minuten.
Irgendwie gibt es nen Commit, ist echt krass, Bibliotheken, Open Source, Bibliotheken eine davon, ich nenne die einmal Bananen Tappan ist lang, Chain heißt das, das sind quasi Bibliotheken die dir erlauben verschiedene Modelle mit verschiedenen Vektordatenbanken zu kombinieren usw und dir quasi diese ganze Detailarbeit wegnehmen und auch die dir erlauben quasi so ein prompt templating prompt Engineering zu machen. Und was du dann machen müsstest?
Im Prinzip brauchst du nur 2. Du brauchst 2 Funktionen. Du brauchst ad knowledge, so würde ich es nennen. Tatsächlich bauen wir sowas auch, da heißt es ADD Knowledge, deswegen weiß ich ganz genau wie ich es machen würde, ich habe es gerade gemacht und in einem Knowledge das auch vorbereitet in diesen Open Source Dingern, da kann dann quasi jemand der im Backoffice sitzt einmalig, nur braucht er das machen alle PD fs also alles was du sagst alle digitalen Dokumente zum Bestand
der Firma usw einsparen. Einfach hinzufügen, immer nimm, nimm, nimm, nimm, nimm, nimm, nimm, das dauert bei jedem Dokument irgendwie ne Sekunde oder 2, je nachdem wie lang die sind und. Wenn die, wenn die jetzt schon alle sag ich mal irgendeinem online Speicher vielleicht in der Cloud sogar alle einfach liegen.
Ja, das gibt es alles. Dann kannst du sagen, nimm das ganze Directory hier und Frierst das alles ab und sie können sogar verschiedene file Datentypen, das musst du ein bisschen gut machen, was überhaupt technisch gar kein Problem zu sagen, hier ist der Ordner, nimm alles was da drin was du da findest an Doc x, an PDF an Text und so weiter. Und dann dauert es halt das Add knowdage genau so lange, wie gut
man eben vorbereitet ist. Wenn man alles so ein Directory hat, dann schnell, wenn der ganze Kram wirklich nur auf Zettel rumfliegt, dann ein bisschen langsamer. Ein bisschen langsamer, genau. Und dann? Was dann passiert quasi. Dann baust du quasi.
Also jedes jedes Dokument wird quasi verwandelt in so einen, in diesen Vektor, also in viele Vektoren von von von Texten und der Vektordatenbank Eingegleist, die wird dann immer größer und immer größer, aber die können das ab, die legst du irgendwo hin, da gibt es jetzt auch schon wieder zig vektordatenbanken wir. Wir benutzen eine ja gar nicht
HNSWE glaube ich. Heißt das Ding, da gibt es halt auch ganz viele, muss man gucken, welches man am besten nimmt, die wächst dann und dann müsste irgendwann fertig. Du kannst ja auch erweitern, du kannst auch Sachen wieder rausnehmen und ändern, manchmal ändert sich ja auch n. Nen Faktum sag ich mal, irgendwas ist alt und neu ist
kannst du machen. So das ist und und die musst du zentral halten und dann musst du natürlich für deine ganzen Mitarbeiter, die jetzt darauf basierend Fragen stellen wollen in prompt zur Verfügung stellen. Und, und der muss halt dieses Regtechnik können, das heißt, wenn der ne Frage stellt, was
passiert dann technisch? Du hast ja gesagt, du musst n prompt zur Verfügung stellen und meinst NNNN Chatbot oder sowas genau n. Chatbot ja n Chat prompt genau ja genau, also das ist jetzt auch kein n Interface genau also du, also im einfachsten Falle gibt gibt der Kollege, der jetzt darauf wissen irgendwie haben möchte gibt das per Textuell einen kannst du auch jetzt schon, gibt's ja schon Sprache ne Sprache zu Text und so kannst sogar auch Sprache verstehen und
dann eine Ausgabe geben und so das Nextlevel so ja aber du gibst, du brauchst halt ein kleiner muss eine kleine
Anwendung bauen wo? Weiter seine Frage Reinsteckst Steckeln kannst oder das ist ja heute keine Kunst, das ist ja nur ein Textfeld, sag ich mal ja so, und diese Informationen aus diesem Textfeld. Mit dieser Information fragst du erstmal die große Vektordatenbank was gehört, was könnte semantisch oder inhaltlich, da alles zu passen, die Sachen werden rausgezogen und damit wird der prompt
zusammengebaut plus also. Also die Anfrage, die Daten, die relevant sind für die Anfrage aus Direktdatenbank. Die Liste von allen Maschinen aus dem Jahr 95 zu. Möchten zum Beispiel genau dann geht da quasi die ganze Vektor deine ganze Knowledge Base durch alle Dokumente wo irgendwas zu Stücklisten steht oder Anteilen oder was weiß ich ja.
Es wird dann alles rausgeholt aus der Vektordatenbank, in den prompt gebaut plus dem Chatverlauf, den du schon hattest, den den Fragen und den Antworten. Und das wird dem Large Language Modell vor die Nase geklemmt und dann kommt die Antwort zurück und aus dieser Antwort generierst du halt die Antwort für den Kunden plus was auch cool ist. Wenn du nämlich deine eigenen Daten einspeist, dann kann man sogenannte Metadaten dransetzen.
Es kann ganz interessant sein zu wissen, woher hat das denn genommen, aus welchem Dokument ist denn diese Information, welches PDF mit welchem Namen an welcher Stelle vom PDF. Und Zeilennummer das kann man alles mit verhaften und es kann. Du kannst quasi dann. Diese Technologie zwingen es dir zu sagen, wo hat das her? Ja. Das ist auch ganz cool, weil dann also ne, wenn du wenn du
¶ Parsen für die Vektordatenbank
sagst sowieso sagst du kannst mir nur auf diesen Kontext antworten, dann kann die, dann kann die auch dir beziehungsweise das ist dann ne Technologie der Vektordatenbank, die kann dir dann genau sagen hier und hier und hier, das Stand zur Verfügung, darauf basiert meine Antwort. Das ist ein Riesenthema, also sowas. Also Wissensmanagement innerhalb von von Firmen. Glaube ich jetzt. Ein bisschen älter sind. Deswegen ist KI so ein Riesenthema.
Deswegen ist, glaube ich auch KI so ein Riesenthema, weil das halt richtig große Schmerzpunkte sind, die wir lösen. Können. Aber das ist ein Riesenproblem, was man dann eben mit Hilfe von KI und. Dem Retrieval Augmented, wie auch immer der Ergänzung durch Retrible Augmented. Ja, lösen kann. Das ist total cool. Und wir können das jetzt und wir können das jetzt anbieten. Wir.
Können das auch? Wir können das Anbieten und die Kunst ist gar nicht die Technologie an sich, die Kunst ist und wo man, wo wir auch noch gerade üben und feilen. Ist gegebene Texte. Von Textform ne. Also so NPDF ist ja auch nicht nur NPDF, die sehen ja alle anders aus. Ja dann hast du Tabellen drin, Bilder drin und so weiter ja und die Kunst ist quasi diese Daten. So gut in diese Vektordatenbank reinzubringen, wie es nur geht.
Ja, also du willst halt diese tabellarischen semantischen Informationen erhalten und so, das ist, das ist, da ist es, wo der Hase im Pfeffer liegt. Also das das das korrekte Parsen damit es später wenn du es quasi als Kontext der AI gibst damit die sich daraus ein Bild machen kann was da los ist, ja. Das ist extrem wichtig und da passieren sofort riesige Qualitätsunterschiede, je nachdem, wie du das machst.
Ja, also auch wenn Du zum Beispiel Webseiten, paarst und so weiter wie du das dann quasi aufbereitest. Ja, die ganzen Informationen und dass du dann auch die HTML tags ordentlich wegschmeißt und diese ganzen Styling ansagen, die alle nicht zu dem Inhalt gehören, dass du das nicht alles der der AI vor die Nase klatscht so, sonst ist sie verwirrt, aber das nimmt. Dir so einen langen. Das nimmt dir so ein Langchain zum Teil ab, aber da bleibt noch viel an Handarbeit. Wurde noch irgendwie.
Noch Performance machen kannst also dieses ganze Token splitting kannst. Mit langen Challengen gibt es Bibliotheken, gibt es loaders, da kannst du PD fs laden und das extrahiert dir schon mal den Text, aber was du dann und dann hast du den Text auf einer ganzen Seite, du kannst aber nicht, das wäre dann quasi ein Dokument was du dann was du dann
raus bekommst. Aber du musst das quasi noch feiner Stücke in semantisch gut zusammenhängende Stücke und so weiter und damit die Vektordatenbank füttern, das sind jetzt alles aussagen, die sind heute noch richtig wahrscheinlich wenn wir in einem halben Jahr eine Folge machen würden, dann kannst du sagen, nimm das und brauchst über nichts mehr nachdenken, das ist natürlich alles alles Gegenstand
aktuell. Der Entwicklung und andauernd, also im Prinzip jede Woche, kommt irgendwie ein neuer parser, Transformer und so weiter raus und aber das ist halt auch tatsächlich noch Gegenstand aktueller Forschung und. Man spielt ja noch mit diesen, man versteht es ja nicht so ganz genau, wann das gut funktioniert
und wann nicht. Das ist ja das Geheimnis der KI, sag ich ja so n bisschen und ganz viele Forscher und so weiter arbeiten daran, was nun die besten generischen Koordinaten sind und sowas zu tun, ja. Ist auch voll davon. Wie wie kann ich irgendwie meine Inputdaten so optimieren, dass es am besten funktioniert? Dann wird es also nicht die letzte Folge gewesen sein.
Zuge. Wenn bestimmt auch mal irgendwas zur KI sagen, ja, vielleicht dann auch was zur Sprache, zu sprachverständnissen und so weiter. Ich würd sagen, für heute passt das. Passt. Ich hab alles rübergebracht, was ich wollte. Ich wollte, dass ihr versteht, dass das geht, also ich mich hat das selbst. Ich muss sagen, also KI ist ja immer wieder man, man ist dann ja wieder auch n bisschen müde, weil es halt irgendwie so krass
n aller Munde ist. Und jetzt haben wir das auch angefangen und mich hat es fast vom Stuhl gehauen, wie extrem gut das auch tatsächlich funktioniert.
Ja, mit so unstrukturierten Informationen im PDF und dann lädst du das da rein und ergibt dir ne sehr strukturierte Antwort zu den du kannst dich ja auch, du kannst die ganzen Features fass mir das zusammen oder sowas, da hat jemand irgendwie einen riesen Abstract geschrieben und du packst das halt einfach als Kontext rein, als aktuellen und sagst halt deinem Modell was steht denn da drinne und fass mir das bitte gut zusammen, das kann er halt, weil das können ja sowieso diese
Dinger. Und diese ganzen Power, der irgendwie in so einem Large Language Model steckt, den kannst du auf einmal anwenden, auf deine persönlichen Daten und das ist. Ziemlich erstaunlich, was da passieren kann, ne? Wer Lust hat da n paar Versuche zu machen mit uns meldet euch gerne, ja. Wir freuen uns da über über Interesse und gemeinsam Dinge zu arbeiten. Dann würde ich sagen, vielen dank Burkhard Reg, AI Retrieval Augmented generative AI wie du
hast gelernt. Ein krasses Wort entschärft. Und ja, euch nochmal ein gutes Start ins neue Jahr. 2 Wochen geht es dann weiter, wieder mit einem Gast und für heute macht es. Gut ciao ciao, alles klar, bis dann Tschüss aus Hamburg. Einfach komplex wird produziert und präsentiert von Heisenware. Weitere Informationen findest du unterheisenwear.com. Vielen Dank fürs Hören dieser Folge und bis nächste Woche Tschüss aus Hamburg.
