¶ Neuronale Netze
Moin zu folge 71 von einfach komplex. Ich hab wieder den Wookart da mein Wookart. Moin, ja schön, dass du mich wieder dabei hast. Ich war schon ein bisschen eifersüchtig.
Nein, da hab ne super Folge gemacht, find's richtig cool, ich hab's verlinkt in geschrieben ich bin ich hab die im Auto gehört, ich bin direkt an der Abfahrt vorbei geblasen weil irgendwie wurde es spannend und ich hatte auch ja hatte gar nicht so ne vertiefte Ahnung von MES Systemen aber ja viel gelernt bei der Folge. Ist cool.
Wer jetzt nicht weiß, wovon wir reden, da hört sich noch mal die letzte Folge an. Das war insofern ne Premiere, dass Burkhard das erste Mal, sagen wir es mal andersrum, das erste Mal ich n Interview alleine mit einem Gast geführt habe, sagen wir es mal so, ja. Gerrit formuliert gerne positiv.
Ich muss einen eine sagen, wir quatschen jetzt sonst nicht so viel, aber jetzt mal kurz, Gerrit sagt, da haben wir gerne gerne, da haben wir aber kein Pech gehabt, Gerrit muss dich noch mal loswerden, find ich so schön. Hab aber kein Pech gehabt. Nein, ist schon alles gut und ich weiß gar nicht, wie wir jetzt da gelandet sind.
Ehrlich gesagt aber beginnen wir einfach mit unserer Folge 71 jetzt und sprechen über LL Ms und ich bin ganz froh als Burkhard das vorgeschlagen hat, weil wir haben jetzt seit Folge 4 oder sowas, also echt schon Ewigkeiten her nicht mehr so richtig künstliche Intelligenz besprochen und es hat sich ja seitdem super viel getan, also insofern, dass es jetzt einfach ein immer größeres Thema wird und.
Trotzdem wissen wahrscheinlich die wenigsten über die Grundlagen Bescheid oder sie geraten jetzt sogar schon in Vergessenheit, weil das Tool oder weil die Tools insbesondere sowas wie die die Chats, also Chat, GPT, Cloud oder ähnliche in unseren Alltag eingezogen sind. Ne und deswegen heute noch mal LLMS, also Large Language Models und was steckt eigentlich dahinter, insbesondere die Transformer? Ja, genau das Transformermodell, das ist ja schon quasi was fortgeschrittenes ich.
Ich würde fast noch mal, weil es so lange her ist, n bisschen im Uhrschleim anfangen. Der Uhrschleim ist ja auch noch nicht so alt, also insgesamt sind wir ja im KI Fieber ja noch nicht so ewig, deswegen schadet es glaub ich nicht, wenn wir noch mal n bisschen wiederholen und vielleicht so n bisschen auf die Art und Weise wie ich es gerne erkläre ist vielleicht ja auch noch mal anders als man es gibt. Ja 1000 und ein Video und Informationen im Netz.
Aber jeder erklärt es halt noch mal n bisschen anders. Vielleicht macht es Spaß, so wie ich es noch mal erkläre, vielleicht kann man es auf der Tonspur auch noch mal n bisschen verstehen, ist natürlich immer schwierig ohne Grafik, aber
gucken mal wie weit wir kommen. Na ja, es ist ja eben mal so, man könnte ja auch den ganzen Kram lesen oder den LNM fragen, sich den Kram erklären zu lassen, aber ich glaube, es ist ja auch n gewisser Unterhaltungsfaktor, wenn man dir zuhört oder oder uns jetzt ja. Man kann auf einmal im Auto sitzen, zum Beispiel. Richtig, ja, wollen wir loslegen. Ja, lass mal loslegen. Ich kann ja einfach mal n bisschen n bisschen was erzählen.
Noch mal so also. Allem voraus sind ja die neuronalen Netze, das ist ja die Grundlage der KI, also auch Large Language Models und Transformer Modelle und was alles so gibt, basiert am Ende des Tages auf den sogenannten neuronalen Netzen und die sind dem menschlichen neuronalen Netz doch sehr krass nachgebaut und es frappierend, wie gut es funktioniert. Das sehen wir ja alle, KI ist ja schon ziemlich überzeugend in ihrer Potenz, sage ich mal.
Und es liegt vielleicht daran. Dass wir sehr gut mittlerweile abgeguckt haben, wie es tatsächlich bei uns funktioniert. Und da will ich mal kurz
anfangen. Ich komme ja auch ein bisschen aus der Molekularbiologie Ecke, das habe ich auch schon mal gesagt und habe auch studieren dürfen, wie es so im menschlichen Hirn funktioniert und so fange ich immer ganz gerne an, das mal kurz aufzuziehen und wenn man sich das mal anguckt, was bei uns im menschlichen Gehirn abgeht, da haben wir also im Gehirn, da haben wir quasi Neuronen, ganz
viele, das weiß man schon. Aber jetzt, wenn man sich so ein einziges Neuron mal rauspickt und das mal so schematisch aufdröselt, dann hat man ich mal das mal so von links nach
rechts. Ihr müsst euch das jetzt vorstellen, ja dann hat man auf der linken Seite, das sieht so ein bisschen aus wie die Wurzeln von von einem Baum, so ganz hart verästelt und so weiter das nennt sich die Dendriden und die Dendriden sind quasi die, die fangen quasi die Eingangssignale auf, ja, denn Neuronen arbeiten ja nie alleine, die sind ja quasi im Gehirn im riesigen Netz verschaltet.
Das heißt, in den an den Dendriden ankommen andere Neuronen. Ja, und also es kommen quasi Inputsignale, das ist die Aufnahmestelle des Neuronen, die Dendriden ja, und davon können es sehr, sehr viele geben, also ich glaube, im Schnitt können wir jetzt nicht festlegen, aber im Schnitt ist im menschlichen Gehirn jedes Neuron mit 10000 anderen im Schnitt ja mit 10000 anderen Neuronen vernetzt.
Ja, also da kommt ne ganze Menge rein, ne so und dann und dann gibt es diesen Zellkörper. Und dann, ganz wichtig ist, im Prinzip geht es aber nur an einer Stelle raus, das Signal an den Neuronen auch im Menschen. Ja, und das ist das Axon, ja, das nennt man Axon, was passiert jetzt, das muss man einmal kurz aufdröseln, wenn jetzt die Signale ankommen in so Neuronen auf den Dendriden, auf dem Input quasi, dann werden die summiert, ja integriert, quasi summiert und es gibt eine sogenannte
räumliche Summation, das heißt? Ich erzeuge umso mehr Signal innerhalb des Neurons, wenn halt umso mehr quasi gleichzeitig an verschiedenen Stellen von den Dendriden Inputsignale auf mich einwirken. Das ist die räumliche Summation oder ich kann n starkes Signal erzeugen innerhalb eines Neurons, in dem quasi ein ein anderes vernetztes Neuron sehr
stark feuert. Ne, wir haben nämlich quasi feuerenergie quasi ja. Und das kann man sich so vorstellen, wie früher er noch ein C 64 hatte und hat mal Decathlon gespielt oder irgendwelche Ballerspiele, da musste man ja relativ viel auf den Feuerknopf drücken vom Joystick vielleicht heute noch so.
Ich hab lange schon nicht mehr Computer gespielt und das ist jetzt das Axon, das Axon, der Ausgangssignal, das ist nämlich quasi wieso ein feuerbutton ich kann jetzt hier nicht mehr die Signalhöhe modulieren, sondern nur noch die Frequenz, ja es feuert ja entweder langsam tam tam tam oder schnell tatatatatatat. Und diese Umrechnung findet in dem Neuron statt, gegeben dem Eingangssignal.
Die Eingangssignale werden quasi Umsummiert im Axon Hügel passiert das und es gibt dann entweder gar kein Signal raus oder langsame Signale oder schnelle Signale und das hoch vernetzt. So ist unser Gehirn aufgebaut und so ein Hirn hat insgesamt bei 86 Milliarden Neuronen. Sollen wir das haben, springe ich jetzt mal kurz rüber, wie
das KI Neuron aussieht. Das gibt es nämlich tatsächlich, die werden quasi nachgebaut und auch ein KI Neuron hat verschiedene Inputs. Ja, es hat nicht nur ein Input oder ein Output, sondern ganz viele Inputs, je nachdem wie stark es verkabelt wird mit mit vorherigen Neurons, das ist allerdings festgelegt im Programm, das nennt man das Modell ja das Modell im KI entspricht dem anatomischen Gehirn, ja. Und das Modell, einmal festgelegt und programmiert, ändert sich auch nicht mehr.
Das ist ein bisschen ein Unterschied in der Neurobiologie weiß man, dass sich unser Gehirn quasi auch in der Verdrahtung der Neuronen ändert, das passiert nicht im Modell, das ist fest. Ja, was im Modell nur passiert, sind die Signale, ja die Stärke der Signale, das ändert sich am Gehirn auch so, jetzt Krieg ich quasi inputsignale rein und dann gibt es das der wichtigste Punkt, ja dann hat jedes Neuron Gewichte, ja jedes für jedes Inputsignal, das in Neuron
reinkommt. Hat das Neuron hinterlegte Gewichte, mit denen quasi das Input Signal multipliziert wird? Ja, also habe ich zum Beispiel eine eine 1, die auf einem input Signal reinkommt und das Gewicht ist 3.
Dann geht das Gewicht weiter mit 3 * 1, also 3 ja habe ich habe ich ein Negatives zum Beispiel negatives Signal ist -1 und mal 2 und so weiter das wird also multipliziert durch die Gewichte, dann wird das auch summiert in dem Neuron und es geht ein einziges Signal wieder raus, also insofern ist das KI Neuron. Mit ein bisschen mathematischen Funktionen und so weiter dem menschlichen Neuron ziemlich
stark nachempfunden. Ja, und dann ist es ja auch so, dass ich jetzt in so einem Large Language Modell, von dem wir heute immer sprechen und und die ja ziemlich fantastisch sind, da sind dann halt auch nicht nur ein paar Neuronen drinne, sondern um und bei und jetzt diese Zahl, da konnte er mich nicht drauf festnageln, weil man jetzt nicht wirklich ganz genau ein KI Neuron mit einem Menschen Neuron mappen kann, aber wenn man mal so ungefähr schätzt, dann sind das so 50 Milliarden
Neuronen. In so einem GBT 4 o. Ja und wir sind bei 86 Milliarden Neuronen beim Menschen. Also wir kommen schon in eine Richtung und wir haben aber, und das ist wichtiger in diesen 50 Milliarden Neuronen werden quasi eine Billion Gewichte trainiert, um und bei ja, das ist immer, wenn ihr, wenn ihr hört so Parameter, ja wieviel Parameter hat das Modell? Ja, das sind diese Gewichte, von denen ich gesprochen habe, das sind die einzelnen Gewichte. Total aufsummiert über alle
Neuronen, die dieses Modell hat. Also das heißt, eine Neuron kann auch mal mehr Gewichte haben, muss ja, sonst würde es ja nicht passen. Ja genau, je nachdem wie das Modell gebaut ist. Genau. Wenn du so ein Feed Forward Netzwerk hast.
Das nennt man Feed Forward, weil du Feed Forwards kann man sich auch verstehen, du schiebst halt Input rein und der schiebt sich quasi durch dieses ganze Modell durch und je nach Anatomie kann die Halt stärker oder weniger stark verknüpft sein, aber es ist festgelegt zur Bauzeit des Modells. Das ist dann unabhängig vom Training, ist quasi festgelegt, wie viele Parameter es haben wird. Da ändert sich auch nichts mehr dran. Das GP 4 O kann nicht mehr neue Parameter dazu bekommen oder
welche Ablegen, die sind fest. Und jetzt noch so ein Punkt, ich will nicht zu weit ausholen, ich will noch mal 23 wichtige Begrifflichkeiten durchsetzen, also wir haben die Parameter gesprochen, das sind quasi die Gewichte, da kommt dann noch so ein bisschen beides zu und so, das sind nicht nur die Gewichte, man akribisch ist aber. So für das erste Verständnis
reicht das. Das kann man erstmal so vereinfachen, das Modell ist quasi das, was das Gehirn ist, also die Anatomie, und dann ist noch wichtig zu verstehen, wir haben sogenannten Input Layer und einen Output Layer und das, was ich jetzt gerade gesprochen habe, diese ganzen Neuronen dazwischen, die nennt man hidden Layer, also jetzt noch mal kurz der Vergleich zur zum menschlichen, zum menschlichen Wesen, ein input Layer, wer zum Beispiel unser Auge gerittet
also was ist nämlich ein input Layer, wir haben quasi ein Signal anderer Art. Ja, also in dem Fall Auge, elektromagnetische Wellen und so weiter ja, die müssen jetzt quasi umgebaut werden in neuronale Signale.
Ja, also bei Menschen diese diese Axon Impulse und so weiter ja das passiert schon im Auge auf der Retina und so, das weil hat man alles sehr genau verstanden, ist ziemlich spannend, kann man mal nachlesen in so einem Buch aber genau und da gibt es dann diese Zäpfchen und so weiter und sofort und die wandeln das in Neuronen um und dann kommt das quasi ins Gehirn ach so und dann ist das Auge quasi der Input Layer, weil da hier findet so eine Verwandlung statt, ja.
Und im Gehirn finden wahnsinnige Verknüpfungen, Gewichtungen und so weiter statt. Ist der hidden Layer, wie man so schön sagt, der versteckte Layer und dann soll das ja aber was zu
was führen. Ich sehe was und ich will irgendwie darauf reagieren, zum Beispiel ich sehe eine Stufe und jetzt will ich meinem Bein sagen heb mal das Bein an damit ich ihn nicht runterstolper und das dann der Output Layer das heißt alles das was in meinem Gehirn abgearbeitet wurde wird jetzt quasi endet auf so einer gesamten motorischen Endplatte am Muskel. Und diese Neuronen, die die bewirken jetzt, dass sich der Muskel in bestimmter Art und
Weise bewegt, sodass mein Bein hochgehoben wird. Ja, das ist dann quasi der biologische Outputlayer, ja. Ich hätte jetzt intuitiv gesagt, dass der Outputlayer in dem Fall das Bild ist, was entsteht. Aber ist tatsächlich schon noch n Schritt weiter? Ja. Ja, das Bild entsteht ja quasi noch im Hiddenlayer ne da da, aber da, daran bin ich jetzt gar nicht dran interessiert. Ja, der Outputlayer ist das woran ich interessiert bin, ja das da entstehen auch irgendwelche Bilder.
Ja es gibt verschiedene Outputlayers, ja.
Aber jetzt zum Beispiel jetzt noch mal aufs Sprachmodell umgemünzt, wenn ich da Sprache eingebe, dann ist der input Layer mein Text, den ich eingebe und der Output Layer beim Sprachmodell ist auch gerade wieder Text, aber es ist ja nicht immer so, wir wissen das, es gibt ja auch Modelle, da gibst du Text ein, kommen Bilder raus, Text to image oder Text to speech und so weiter also wir können ja auch Voice Signale, also Audiosignale verarbeiten und so weiter und sofort.
Das wäre Voice to Text. Ja genau, Voice to Text und so weiter und es gibt ja auch Text to Video und so weiter alles Mögliche. Ja, also man kann das ganz gut verstehen, wenn man diesen biologischen Vergleich hat.
Ich habe also irgendwie ein Medium, was ich umformen muss, erstmal in und in der Informatik sind es dann quasi in Zahlen ja, also ich muss dann zum Beispiel ein Bild irgendwie aufdröseln und in in Vektoren von Zahlen vorbereiten, die ich dann dem Modell reingebe ja. Und eine ganze Zeit lang war das so, dass es immer ein Modell gab für einen gewissen Input Layer und einen gewissen Output Layer. Jetzt wird es gerade modern und den Begriff will ich auch noch mal erwähnt, das sogenannte
multimodale. Ja, man spricht jetzt von multimodalen Modellen, was heißt das, das heißt einfach, dass die nicht nur mit einem einer Sorte Input Layer klar kommt, sondern verschiedenen, Ja, also nicht, wenn das gleiche anatomische Modell gleichzeitig Text, audiospuren und zum Beispiel Bilder. Als Input aufnehmen kann und es daraus einen textuellen Output zum Beispiel machen kann. Dann ist es sogenanntes multimodales Modell.
Ja, dann könnte ich zum Beispiel könnte dem Modell sagen, hier ist ein Bild übrigens, und dann frage ich noch hinterher, das ist dann die Texte, habe ich also ein Bild eingeben und frage, was siehst du auf dem Bild und dann antwortet mir das Modell, ja, ich sehe hier irgendwie was weiß ich, eine Gießkanne und und ein Blumentopf oder was weiß ich ja, dann war dieses Modell schon multimodal, unser Hirn ist voll multimodal,
¶ Sprachmodelle trainieren
weil alle Sensorik, die wir haben, riechen, schmecken, hören, sehen und so weiter. Geht ja alles da rein und da kommt da irgendwas raus, da ist Multimodal in beide Richtungen so und jetzt jetzt noch einen ganz kurzen Satz und dann sind wir ja gleich, dann verlassen wir gleich die Allgemeinheit und gehen, gucken wir uns einmal kurz sprachmodelle an, einen kurzen Satz noch mal zum Trainieren, ja, und wie funktioniert das also was ist halt, wenn man noch noch nicht
angefangen hat? Ja, also ich, wenn so ein Sprachmodell trainiert wird oder wenn das überhaupt programmiert aufgebaut wird, ja dann habe ich erstmal nur die Anatomie, die Anatomie heißt ich habe die Neuronen. Die KI Neuronen quasi programmiert.
Das ist n Programm, da steht fest wie viele verbinden sich und wie viele Layer hab ich und so weiter aber die Gewichte sind völlig gewürfelt völlig randomisiert da das das hat jetzt einfach ne gaußsche Verteilung, irgendwelche Zahlen sind da drin ne und hier noch mal das stell ich, das ist auch so cool wenn man das jetzt noch mal mit der Biologie des Menschen vergleicht wenn du so n so n Säugling zur Welt bringst.
Der hat auch randomisierte Gewichte, also die Neuronen sind auch voll noch irgendwie nicht sinnvoll verknüpft. Ja, man weiß sogar, dass Säuglinge manchmal schreien, die furchtbar, ja, weil die, weil das Gehirn noch nicht richtig verarbeitet, die können dann auf einmal, was sie sehen, riechen oder so weiter ja, oder die fühlen Schmerz, weil sie was sehen und so weiter weil das alles noch nicht richtig
verkabelt ist. Ja, die können ja auch ihre Arme überhaupt nicht richtig bewegen, warum nicht, weil weil weil alles noch randomisiert im Kopf ist, ist noch nichts gelernt, ja, und die fangen ja dann an, die wahnsinnig zu lernen, das
heißt? Dieses dieses KI Modell des des Kindes ist n bisschen krass ausgefundet, aber das Gehirn des Kindes muss halt auch durch ständige, durch ständiges Lernen bewegen und so weiter und Feedback ja Gewichte aufbauen, die Neuronen richtig verdrahten, die diese ganzen Summationen so weiter, von denen ich ganz am Anfang gesprochen hab, erstmal so hinbekommen, dass alles anfängt Sinn zu machen und der Robotermensch quasi anfängt zu funktionieren.
Ja sehr sehr ähnlich wie. Wie das halt auch wieder jetzt nachgebildet wurde bei der KI. Ich fang also mit gewürfelten Dingern an das Ding, da geb ich dann irgendeine Frage rein, da kommt nur Kauderwelsch raus, kompletter Bullshit ja, aber es kommt halt was raus und das was rauskommt das vergleich ich mit den realen Daten. Also ich geb ja Daten rein und stell irgendeine Frage und dann vergleich ich dann mach ich ne Vorhersage ich schieb das einmal durch dieses Gehirn durch dann
kann ich messen wie gut war die. Wie gut war jetzt diese Vorhersage? Das heißt, die Antwort muss schon bekannt sein bei Trainingsdaten. Also das genau um das immer programmatisch und automatisch dann auch zu vergleichen, also Ergebnis mit dem tatsächlichen Fakt oder dem eigentlichen richtigen Ergebnis. Ja, genau das führt jetzt hier noch ne Stufe weiter, die würde die würde ich mal auslassen. Es gibt das sogenannte Supervised und un supervised Training, da kommen wir ganz zum
Schluss noch mal drauf. Ja also wer jetzt sagt ob das richtig war oder nicht, das Macht das kann man auch schon wieder automatisieren. Wichtig ist der Fakt, dass ich quasi. Die echte Antwort kenne und ich kann vergleichen. Wie gut war das jetzt, was mir das dieses KI Modell quasi vorher gesagt hat.
Daraus lässt sich quasi einen Fehler berechnen und den muss ich minimieren und das kann ich auch wenn ich wenn ich quasi die Aussage habe und den Fehler habe und das ist jetzt spannend, das muss man einmal verstanden haben, ist ein bisschen komplex, aber jetzt habe ich dieses riesige Sprachmodell mit diesen ganzen was habe ich gesagt Billionen von eine Billion von
gewichten. Und jetzt habe ich, jetzt habe ich so eine Aussage gemacht, ja, es hat eine, wir sind in einer Iteration, ich habe einen eine Frage gestellt und es kommt ein Ergebnis raus und jetzt gehe ich rückwärts durch das Modell durch und drehe an jedem Gewicht, so dass das Gesamtergebnis besser wird. Das nennt sich Backpropagation ja, das mache ich für jeden Einzelnen von diesen Parametern, die das Ding hat, ja, bis ich am Anfang angekommen bin, ne.
Und jeden Einzelnen drehe ich so, dass das Gesamtergebnis, dass der Fehler quasi minimiert wird. Also es ist eine hochdimensionale Reduktion eines Fehlers, und da steckt ganz viel Mathematik und da steckt ganz viel wissen drin, was auch dazu geführt hat, dass wir es
irgendwann sehr gut können. Wie stark mache ich das, ja, wie hart gehe ich runter, das sind die sind gradient, aber da gibt es viele Methoden und dann dann erreiche ich einen Punkt, wo ich, wo ich das gleiche Modell habe, aber mit einem komplett neuen Satz. Gewichte ich habe ein Parameter Update gemacht und dann geht es in die zweite Runde.
Dann sage ich wiedergegeben diesen Daten Sachen was voraus und das vergleiche ich und das mache ich halt unendlich oft und das ist das was so teuer ist beim lernen, weil dieser Ganze dieses Ganze gerechnet backpropagation bei so viel gewichten braucht halt unglaublich viel Computing. Und das kann gerade am besten Nvidia bereitstellen. Die sind da am effizientesten pro Chip oder wie auch immer. Ja, und das liegt, das liegt an 2 Gründen.
Das liegt daran, dass wenn man sich die Mathematik dann dahinter anguckt, kommt man zu dem, zu dem Erkenntnis, dass das alles im Prinzip Vector Algebra ist.
Und am Ende ist das im im dreidimensionalen, und dann ist das dann tensoren, deswegen heißt das bei Google das Ding auch Tensor Flow, ja, das ist also Tensor Mathematik und was können Grafikkarten besonders gut ist, wenn die, das weiß ich jetzt nicht, ob unser Turer das wissen, aber wenn ich jetzt so n 3 D ego Shooter hab oder Irgendsowas.
Da sind die ganze Zeit irgendwelche Vektormatrixgedrehungen und so weiter ich habe zig Millionen Polygone, die müssen an und gedreht werden, darauf sind die Grafikkarten optimierter, das heißt die Rechnen die gleiche Mathematik, das heißt, es ist prima und dann ist es auch so, dass ich nicht den gesamten Datensatz immer durchfilter, sondern ich kann quasi die Daten beliebig kleine Batches zerhacken und und parallel in Batches lernen quasi, und das
ist diese Parallelisierung, was wir auch schon mal besprochen haben, das ist auch, die Grafikkarten sind besonders gut und dann? Genau.
Und dann brauche ich immer noch ein riesen Rechenzentrum voller Grafikkarten. Also es reicht auch nicht eine, sondern wenn ich so ein großes Modell trainieren will, dann passiert das über sehr viele Monate, vielleicht ein halbes Jahr, ich weiß es nicht genau, ist glaube ich ein gegütetes Geheimnis mit sehr viel Power und da wird ja auch das ganze Internet drüber gejagt als Daten, ja muss man ja auch sehen, das sind alles keine kleinen Probleme.
So, jetzt hab ich was gesagt zum wie was ist das Modell, wie sieht es aus, wie ist die Ähnlichkeit und so und wie wird es trainiert und wenn wir es aber so wie wir es benutzen, ja das was alles was im Web ist, ja das ist quasi wir fragen n Modell ja dann dann dann kommt, dann ist das quasi nur ein Zyklus Wir stellen ne Anfrage ran, das nennt man dann prediction ja und das Modell wenn es 4 o heißt zum Beispiel ist eigentlich dann fertig trainiert ich mach das mal mit
einem Gänsefüßchen. Und ein fertig trainiertes Modell mit seinen Gewichten. Da kannst du dann beliebige Sachen Fragen, zum Beispiel, und da kommen dann halt diese entsprechenden Antworten raus. Ja, aber das ist quasi im Gehirn, das kannst du nehmen wie ein Pfeil und irgendwo hinladen und so weiter und sofort ja, also.
Da habe ich noch eine Zwischenfrage, bevor du da weiter machst beim Training, aber das auch grundsätzlich, wenn man da jetzt irgendeinen Input Reingibt und also zum Beispiel eine Frage oder Vervollständige irgendwas oder so, muss ja nicht immer eine Frage sein, was man Reingibt durchläuft, dann dieser dieser Input alle. Neuronen ne, ne eigentlich nicht oder sondern nur so ne Teilmenge aller Neuronen wahrscheinlich, oder?
Ne durchläuft alle, aber es kann ja es können auch zum Beispiel 0 Gewichte sein, ne also das weiß ich nicht ob alle durchlaufen
werden. Es kommt jetzt wieder auf die Anatomie an, ja aber alle die verknüpft sind ja das ist immer, das ist festgelegt ja also die die Neuronen die durchlaufen werden ist schon bevor du trainierst festgelegt in der Anatomie des Modells ja. Da gibt es natürlich auch krasse Sachen, wo die irgendwie, wo die irgendwelche Recycles bilden können, wo die noch mal quasi auf n Layer zurückschießen können und so weiter da gibt es, da gibt es nichts was es nicht
gibt, da wird viel geübt auch und so, das ist im menschlichen Gehirn auch so, dass das nicht einfach nur linear nach vorne geht, sondern dass dass die sich auch noch mal irgendwie in Zyklen irgendwie verschalten und so weiter also das ist beliebig komplex, aber aber aber wie es quasi passiert ist vorher festgelegt, es durchläuft immer den Festen. Es durchläuft immer die feste Route, sag ich mal. Ja, die die Route der Daten ist fest, aber die Gewichtung ist
quasi das, was trainiert wird. Ja und wenn du über ne vorhere Aussage machst ist alles fest da ist es läuft, durchläuft das einfacher. Cool, prima. Dann wolltest du gerade weitermachen. Also Training ist abgeschlossen, Modell hat seine, hat seine Gewichte behalten. Training ist erstmal abgeschlossen. Wir haben großes Modell, genau und und damit würde ich jetzt auch erst mal kurz das Kapitel, das Recap quasi, wie funktioniert das ganz grob mit diesen Modellen, erstmal abschließen.
Und direkt mal auf die Large Language Models aufspringen, weil jetzt hat man immer noch nicht verstanden, wie funktioniert das, wieso kann ich irgendwie sagen, schreib eine Geschichte und dann und dann geht das los und das Ding fängt irgendwie an ne Geschichte zu schreiben, da muss man als allererstes mal kurz so wenn man es noch nicht hatte, dann kriegt man es jetzt, das muss man erst mal so ein aha Erlebnis schlucken, mir war das nicht ganz so klar sogar obwohl ich
schon viel mit KI gemacht habe. Also wenn ich jetzt zum Beispiel in so n Large language Modell wie 4 o reingebe schreib eine Geschichte, dann ist das nicht so, dass danach das Modell
¶ Funktionsweise LLM
anfängt zu denken, was könntest du jetzt darauf für ne Geschichte schreiben, irgendwie zu sinnieren oder Irgendsowas, sondern was passiert es wird die Wahrscheinlichkeit ausgerechnet für das nächste Wort, aber auch nur für das nächste Wort, das ist sogar auch noch ungenau für das nächste Token, da sag ich gleich noch was zu ja also ich sage schreib eine Geschichte und
das Modell findet. Das nächst wahrscheinlichste Wort auf schreib eine Geschichte, das könnte es sein zum Beispiel. Und jetzt geht das Spiel von vorne los, obwohl das merkt man aber nicht mehr, das passiert aber innen drin, jetzt ist die nächste Anfrage, schreib eine Geschichte es und darauf findet jetzt das das lat language Modell das nächst wahrscheinlichste Wort, das könnte wahr sein, zum Beispiel schreib eine Geschichte es war und dann kommt einmal. Warum?
Weil vielleicht im Internet, womit das Modell trainiert wurde, sehr viele Geschichten mit es war einmal anfängt, weil es viele Märchen gab, die so anfingen oder irgend so was, also auf irgendeine Art und Weise ist quasi diese Kombination. S war einmal sehr, sehr wahrscheinlich als Antwort zu schreiben, eine Geschichte, weil Geschichte da irgendwas auslöst. Ja, das muss man erstmal verdauen, also unser. Das muss man auch mal ganz klar
sagen. Ja, also alle, die irgendwie Verschwörungstheoretiker sind oder denken, was da jetzt los ist. Also die KI ist ein Wahrscheinlichkeitsapparat der Wortweise was rauslässt. Ja, also die KI weiß noch nicht, was auf auf dem Wort 20 der Antwort kommen wird, ja, weil das wird quasi jedes Mal neu ausgerechnet gegeben, den Wörtern davor, es bastelt quasi immer Wörter dran und erstaunlich, wie gut es trotzdem
funktioniert. Also im Grunde genommen erzeugen sie Texte, die irgendwie sinnvoll klingen, aber dennoch auf Wahrscheinlichkeiten irgendwie basieren und mustern. Also es ist mehr so ne Mustererkennung anstatt irgendwie so n echtes Verständnis, da gibt es ja auch so die großen Diskussionen, also eigentlich keine Diskussion, das ist Mustererkennung, aber ja genau, was ist, was ist, was ist dein Verständnis, ja was ist der nächste Schritt, ja das ist ja eigentlich noch mal was anderes. Genau.
Und das und was ich gleich mal offen lassen würde, das heißt ja auch noch nicht. Ob das nicht the way to do ist? Ja, wer weiß, vielleicht ist das bei uns im Menschen auch so
ähnlich. Ja, kann ja sein, ja und kann sein, wenn wir schrauben noch mal die Parameter hoch und so weiter und das wird auch, das ist halt einfach so, ja, also vielleicht nicht ganz, weil also bevor ich dir eine Antwort gebe, kann ich auch schon wieso eine innere Stimme die dir sagt, so, da kann ich schon mal drüber nachdenken, ja kommt ja nicht so ganz ungebremst raus aus mir, aber aber manchmal, wenn du so eine Hektik bist oder hast du, steuerst du das gar nicht, das
fließt das so raus aus dir ja mit auch bestimmten Wahrscheinlichkeiten die dein Gehirn dir zurecht liegt, ja.
Keine Ahnung. Ja, okay und deswegen und jetzt bringe ich noch mal gerade das eine Wort Halluzination ins Spiel, ja, das haben wir oft und das kann man jetzt verstehen, ja, also wenn ich jetzt sage, das nächste Wort wird generiert, was halt quasi am wahrscheinlichsten ist, es gewinnt halt ein Wort das am wahrscheinlichsten ist und zwar gegen alle Wörter auf dem Planeten, das muss ich jetzt auch mal sagen, ja und alle Tokens in allen Sprachen ja,
also das ist. Das Modell wägt halt ab für jedes Wort, über alle Tokens und alle Sprachen. Was ist jetzt hier am wahrscheinlichsten? Ja, und wenn du halt irgendwas total crazy fragst, wo was im Internet nie vorkam, ja, was also mit nicht, wo quasi die wahrscheinlich die absolute Wahrscheinlichkeit für das nächste Wort schon insgesamt gering ist, aber die absolute Wahrscheinlichkeit von allen anderen Angeboten auch gering
ist. Ja weil es was war, was das Modell nie gesehen hat in seinem Training, ja weil du eine utopische Frage gestellt hast. Dann wird aber trotzdem 1 ausgewählt. Ja, mit Schwung ja und das nächste dann auch wieder und so weiter weil du ja nicht siehst was ist die absolute Wahrscheinlichkeit und das Modell kann das auch nicht so einfach wissen. Ja das heißt es gibt ja immer ne Antwort ja immer ne verbindliche Antwort, die kann auch völliger Schwachsinn sein.
Ja und das nennen wir dann halt Halluzination und ist Halluzinodiert umso mehr. Je dünner der Teppich ist, von dem gelernten, ja, was vorher war, ja, also dann geht das halt schief, ja. Also das ist natürlich ne Halluzination, die ist ganz klar nachvollziehbar.
Du stellst ne verrückte Frage oder was auch immer, irgendwas absurdes, irgendwas was nicht so häufig vorkam, auch in den Trainingsdaten, aber Halluzinationen in der Praxis sind ja eigentlich also also sind ja, die tauchen ja anders auf, ja sogar bei, also das ja das Problem, eher würde ich sagen Halluzinationen, dass die nicht nur auftauchen bei ganz absurden Anfragen, sondern halt auch bei ganz gewöhnlichen Anfragen. Beispiel ich weiß nicht ob das
jetzt ne Halluzination ist, aber wenn ich manchmal Input geht einfach schneller auf Deutsch hintippse und möchte dabei Ergebnisse auf Englisch haben n kleinen Text was auch immer n linkedin post oder so n kram mal eben optimieren mach ich den Entwurf halt auf Deutsch und dann basiert auf dem Input. Er steht dann zwar macht es bitte auf Englisch aber der ist ja auf Deutsch also kommt es vielleicht schon durcheinander in seiner Antwort und macht dann ne deutsche Antwort.
Weil basiert auf dem Input, ist das ja auch nicht unwahrscheinlich, weil das ist ja auf Deutsch geschrieben ja als Beispiel ja ganz genau, das ist auch schon ne Art von Halluzination, die irgendwie ja. Aber das ist, das ist aber das ist nachvollziehbar, weil weil es ja im Internet nicht so viele Texte gibt, die innerhalb eines Satzes oder innerhalb eines Paragraphen oder sowas durch die Sprachen wechseln.
Also entweder hast du halt durchgehend durchgehend englisch oder durchgehend deutsch, ja, aber ja nicht so irgendwie ein Satz Deutsch, ein Satz Englisch, den nächsten Spanisch und den übernächst kroatisch oder was weiß ich ja. Was man da machen kann ist, man kann dann sagen.
Ganz am Ende noch mal zu sagen, bitte mach es nicht auf Deutsch, mach es auf Englisch. Also wenn man das noch mal sagt, dann erhöht das die Wahrscheinlichkeit, dass das dann so passiert, wie man das gerne möchte, das ist. Ganz genau, ganz genau, ja, ja, genau, also das ganze Thema prompting und so weiter das ist ja auch ne Wissenschaft für
sich. Ja, aber das stimmt genau, aber das hat aber also dieses ganze Prompting und so weiter das hat alles immer am Ende des Tages zu tun, mit wie verbiege ich diese gesamten Wahrscheinlichkeiten gegeben, diesen Kontext, den ich vorgebe, ja. Eine Sache muss ich Ihnen auch noch sagen, also dieses aha Erlebnis wollte ich jetzt erst
einmal voraussetzen. Ne, dass wir so funktioniert es ja, es wird halt immer ein Wort erstmal gewählt und jetzt gehen wir doch mal durch die ganze Kette durch, denn das neuronale Netz, was ja eigentlich diese Errungenschaft ist, sag ich mal das das Netz das ist auch nur ein Teil von dieser Gesamttechnologie die notwendig ist. Um heutzutage solch kompetente Modelle zu haben wie das 4 O zum Beispiel oder auch Cloud. Ich will ja immer und Lama 3.
Es gibt ja ganz viele Open Source Modelle auch, ja es ist mir sogar auch sehr lieb, dass es die gibt, aber dahinter steht noch n bisschen mehr und das will ich auch noch kurz mal anreißen. Weil das ist auch ziemlich intelligent gemacht und eigentlich ganz cool, wenn man es mal, wenn man es sich einmal so auf der Zunge zergehen lässt, ja. Vielleicht noch eine Frage vorweg kommen da dann auch die Transformer vor, also was das wiederum ist, ist das Teil dessen was jetzt kommt.
Ja, das ist das gesamte Transformermodell, was ich jetzt erzähle. Ja, im Prinzip fasst man das so zusammen, ja. Also wir müssen, wir müssen erst
mal ganz von vorne anfangen. Ich, ich, ich schwing mal, gerade weil ich das Beispiel hier hab ich mir auf dem Spicker in Englisch geschrieben, ich sprich schwing mal um und wir hatten gesagt, gesagt, schreib eine Geschichte, wir nehmen das jetzt mal als Right the Story im Englischen ja right the Story Punkt ja so als Erstes haben wir jetzt mal planken Text ja das ist unser Input Layer und wir müssen wir müssen so das kann das kann erst mal NKI nicht verstehen, ja das kann immer nur
zahlen verstehen in der Formatik ja irgendwelche Vektoren und so
¶ Tokens
weiter aber right Story. Ist ja jetzt erstmal keine Zahl.
Ja und du kannst ja auch auf Chinesisch und schreiben oder irgendwas, das heißt wir müssen jetzt erstmal, wir müssen jetzt erstmal von right the Story irgendwie auf sowas wie wie Zahlen kommen, damit ich überhaupt mal neuronales Netz füttern kann, ne und das erste was passiert ist das sogenannte Tokenization ne dieses Wort Tokens das seit KI fliegt, das ja auch in down rum ja wie viele Tokens kannst du da reinmachen und so weiter und sofort ja also was sind die Tokens?
Ja wenn ich jetzt right the story Punkt habe. Dann gibt es quasi ein festes Regelwerk wie jetzt Write The Story aufgeteilt wird ja in Tokens, also das das wird halt nicht als gesamter Text da rein geblasen ins Modell, sondern einzelnen Tokens. Ja und bei Write The Stories relativ einfach, da würde ein Token entstehen, das heißt Write Story und das der Punkt wird auch ein Token, ja. Also 4 Tokens jetzt in Summe. 4 Tokens Write the Story werden dann 4 Tokens. Genau und.
Diese ganze Punktu wie heißt das Punktuierung Punktuation, also Kommas, Punkte, Doppelpunkt des Silikonods und auch diese ganzen sprachspeziellen Sachen wie das sind ne oder n Apostroph. T hast zum Beispiel das n Apostroph, T ist ein eigenes Token, ne das n Apostroph t ja warum? Das macht nämlich Sinn, weil das ist es gibt der Sprache ja schon eine andere Färbung ob du ob du schreibst das Not oder das sind ja. Also der der Engländer oder der Amerikaner, der fühlt da schon was anderes, ja.
Das heißt, die Tokens sind schon irgendwie festgelegt, das ist völlig klar. Das Write ist immer ein Token, ja. Noch richtig, Gerrit. Also es gibt quasi eine Gesetzmäßigkeit, wie die Tokens entstehen aus dem Fließtext, und zwar für jede Sprache auf der Welt. Das war mal viel Arbeit, ja, und da hat man sich darauf geeinigt, ist fertig, ja, das machen die alle gleich, die Tokenization. Es kann auch Wörter geben, die. Aus mehreren Tokens bestehen letzten Endes.
Ja, ja, ja, ja genau, genau also. Also längere Wörter können können auch in Tokens verteilt
werden. Ja, es gibt vielleicht auch überlappende Tokens und so weiter weiß ich nicht ganz genau, aber es ist ist ne große Wissenschaft, diese tokenization Krams, da kannst du auch wieder wissenschaftlich Papiere lesen und so weiter ja, es war Gegenstand vieler Forschung, aber man hat also im Moment für diese großen Sprachmodelle hat man sich ja auf eine Art und Weise geeinigt, wenn man diese tokenization macht und es halt auch nicht ganz unwichtig, weil
weil also weil das die Grundlage ist, was ein Modell anfängt, dann zu verstehen. Ja und da, und das erklärt auch zum Beispiel kurze Side Show ja, wenn wenn ich jetzt möchte, dass zum Beispiel ein KI ein PDF Dokument versteht, aber der Text da drinne quasi als Bilder hinterlegt ist. Das kann ich haben, ne es gibt es gibt PDFS, da ist das wirklich Text, da kann ich es auch markieren und es gibt aber auch so PDFS da sind die wurden irgendwie aus Bildern erstellt.
Ja da ist also gar kein Text, ja und dann kann auch nichts toconisationed werden, da kann das Ding auch nichts dazu sagen ja also die Kunst ist halt immer. Tatsächlich auch Textuellen Input zu haben. Da gibt es dann wieder Text Recordination aus den Bildern und so weiter ja, aber du brauchst textuellen Input, damit du erstmal diese Tokens erstellst.
Ja und kurz zu den Tokens noch mal ein Punkt, das will ich auch kurz mal erklären, Token, Window und so weiter ja das ist auch so ein Begriff, der so rumspukt ja wie viele Tokens kann mein Modell ja und die Tokens sind auch, also erstens ist es so, dass das technisch unterschiedlich ist. Je nach Modell kann quasi dieser dieser diese ganze Eingabe so und so viel Tokens verstehen oder auch nicht.
Ja also es. Am Anfang war das sehr wenig, da konntest du irgendwie weiß ich nicht 256 Tokens reingeben. Ja, und dann war Feierabend, mehr konnte das in einem Satz nicht verarbeiten. Ja, und man arbeitet natürlich daran, dass die möglichst groß werden, weil das der gesamte Kontext ist, auf dem dann die Wahrscheinlichkeitsausrechnung passiert. Ja, und je mehr, je größer der Kontext ist, desto stärker kannst du da halt noch irgendwas
biegen. Ja, das sind die sogenannten Token Windows und die Token Fans, also oft wird nach Tokens abgerechnet auch ja wenn du bezahlt wenn du mit einer API zum Beispiel Rangehst. Eine kurze Frage noch zu Tokens. Ja, du hast jetzt gesagt, NPDF kann man nur verstehen, wenn das auch Text ist und und nicht quasi n Bild, also zum Beispiel n Scan oder so. Aber was ist denn jetzt mit Bild Bildern als Input für ein multimodales Modell? Geht, aber dann muss es halt das Modell.
Es muss halt Modell dann halt abkönnen ne und es ist aber viel schwieriger aus einem Bild den Text zu filtern das das Macht das auch nicht gut. Ja und im Bild sollte n Bild sein, also also nicht n Text ja aber. Wie geht denn ein Bild als wie, wie wird denn ein Bild zum Input, also wie, wie wird denn ein Bild vergeniced? Das funktioniert ganz anders, das weiß ich ehrlich gesagt nicht. Genau wie es bei KI ist.
Ich kann es dir sagen, wie ich das damals gemacht habe bei Max Planck n Bild ist quasi sind ja Pixel, also das heißt ne, also 128 128 Pixel wär n ganz kleines Bild. Ja jetzt kannst du sagen und jeder Pixel kurz was zur Bildverarbeitung jeder Pixel wenn es n farbiges Bild hat hat auf 3 Kanäle ja oder 4 sogar RGB rot, grün, blau und n Alphakanal für die Transparenz ja. So, und jetzt kannst du quasi.
Jetzt kannst du auch wieder einen Zahlenvektor bilden, indem du zum Beispiel das Bild abscannst Reihe für Reihe entweder so in so einer Spirale runter oder immer wieder vorne angefangen. Ja, jetzt klebst du quasi diese RGB Werte, die sind nichts anderes als Intensitätswerte für diese Farben. Ja, das gibt dann quasi die Farbe dieses einen Pixels wieder.
Ja, hier kannst du zum Beispiel eine lange Reihe machen, das spannt dann einen Vektor auf, ja, das ist dann halt nicht ein zweidimensionaler Vektor, den haben wir in der Schule noch kennengelernt zweidimensionen da hatten sie es ja, man zeigt irgendwo hin, sondern es wird dann ein ndimensionaler Vektor. Also wenn du 128 * 128 er Bild hast, dann hast du halt 128 * 128 Dimensionen Vektor und die spannen dann quasi ein Vektorbüschel auf im enddimensionalen Raum und dann
kannst du trotzdem. Du kannst ja ausrechnen wie nah sind die sich ja weil diese ganze Vektoralgebra funktioniert halt auch das funktioniert im zweidimensionalen, wer in der Schule aufgepasst hat, der weiß genau, dass man Vektorabstände rechnen kann, völlig wurscht ob die im zweidimensionalen dreidimensionalen oder im enddimensionalen Raum sind.
Dass auch Key hier bei diesem ganzen KI Krams, das ist alles hochdimensional ja diese Tokens das, da kommen wir gleich auch noch sind alles hochdimensionale Dinger, aber die Vektoralgebra, diese Mathematik, diese Tensormathematik, die funktioniert hervorragend, der ist das Wurst wieviel Dimension das nur wir Menschen sind beschränkt und ab 3 Dimensionen, also ab der vierten Dimension ist Feierabend, da kannst du dir das nicht mehr vorstellen, ne bei 3 noch so im Raum kannst du
dir noch irgendwas vorstellen, ne? Also funktioniert es bei den Bildern? Ja, die werden die die Tokens der Bilder sind oftmals einfach nur die, die Pixelwerte an einen großen Strang gehängt, fertig.
¶ Embeddings
Okay, verstanden, verstanden, cool, gut, dann wieder zurück zum Thema. Wieder zurück zum Thema. Genau also jetzt. Jetzt haben wir die Tokens, wir haben jetzt quasi 4 Tokens Write Story Punkt. Ja jetzt kommt das sogenannte Embedding. Das ist auch Key, ja muss man auch einmal verstanden haben, was ist jetzt embedding ja? So, jetzt ja mal gucken wie ich das jetzt hinkriege hier ohne ohne Bilder.
Wir gehen mal ins Zweidimensionale ja und stellen uns mal so ein Zweidimensionales mit XY Achse kennen wir ja ne und wir haben jetzt so Begriffe wie Tokens ja Apple Banana, Strawberry Cherry Soccer, Basketball, Tennis Castle und so weiter ja gibt es ganz viele Tokens? Ja so jetzt werden diese Tokens die bekommen jetzt. Eigenschaften verpasst? Ja, und zwar nicht nur eine, sondern zum Beispiel Apple könnte 2 Eigenschaften haben.
Ja so zum Beispiel und die Eigenschaften werden ausgedrückt einfach als als Koordinaten in diesem Koordinatensystem. Ja, der Apple könnte zum Beispiel 55 haben, weil dann liegt da irgendwo da auf der Diagonalen da ja und die Bananen an die Strawberry und die Cherry, die kriegen quasi auch Koordinaten, diesen in diesem Koordinatensystem und die liegen zufälligerweise irgendwie alle zusammen, ja, Apfel, Apfel, Banane, Strawberry und diese ganzen Obstdinger ja.
Weil das, weil diese, weil diese Nummern hier Eigenschaften beschreiben, von diesen Tokens und auch wenn du gerade als Mensch über einen Apfel nachdenkst, dann hast du ja relativ viel Assoziation. Also du hast sowas wie eine Form im Kopf, du hast eine Farbe im Kopf, eine Oberflächenbeschaffenheit, du hast vielleicht eine Assoziation, ist das was Gutes, was gesundes oder was, also zum Beispiel, wenn du sagst, Lolli und Apfel da, das Triggert ja
verschiedene Dinger so, ja. Also das Embedding ist im Prinzip eine Beschreibung eines einzelnen Tokens. Es ist quasi eine Art Eigenschaftenbeschreibung, sehr abstrakt, das wurde auch trainiert vorher mit Modellen, aber es ist auch so, dass immer jedes Token ein festes Embedding hat, das Embedding ist oft, also im Moment ist es, glaube ich, 1024 ein Vektor mit 1024 einträgen, das heißt, wenn ich
das eine Token Apple hab. Dann dann habe ich 1024 wie soll ich sagen Dimension Dimension, ja so, wir können es mathematisch ausdrücken, ja, Dimensionen und jede einzelne Dimension beschreibt irgendeine Beschaffenheit von diesem Apfel.
Ja und ach so, und irgendein Level davon ja so ne, weil die die Dimension haben, ja jedes jedes hat ja noch ne Zahl, ja so und damit damit und auch das ist quasi statisch das gefixt ja, also ich mach diese tokenization und dann kriegt jedes Token diesen Vektor verpasst, der lange trainiert wurde, das wird, das wird auch immer noch mal. Weitertrainiert?
Ja, dann gibt es diesen Vektor und im zweidimensionalen Raum hast du gerade 55 gesagt und dann ist der Apfel dort und die Banana ist vielleicht jetzt bei 54, weil das ist ja ziemlich in der Nähe, aber ist natürlich nicht das genau das. Gleiche genau, ganz genau, genau so, nur halt über 124.
Richtig, aber zum Beispiel NK oder Irgendsowas wäre vielleicht bei 60 oder irgendwas ist auf n ganz anderen auf n ganz anderen Planeten. Ja weil das weil wenn n Auto mit einem Apfel relativ wenig zu tun hat, ja. Also also also mathematisch. Mathematisch gesehen kann man sagen, jedes Token bekommt quasi so n so n Embedding so n Eigenschaften Vektor verpasst. Ja, und die diese Vektoren jetzt jetzt stell ich, ich geh jetzt mal ins dreidimensional.
Ich denke gern dreidimensional. Du kannst ja so Vektoren im dreidimensionalen Raum, ja das ist n Würfel, ja stell dir vor in der Mitte von dem Würfel ist der Nullpunkt genau in der Mitte drinne. Ja und von dem Aus gehen Vektoren die die zeigen irgendwohin in diesem Würfel, ja. Und das sind und das sind wieso Blumensträuße, also zum Beispiel diese ganzen Früchte, da werden sich diese Vektoren quasi wieso ein Blumenstrauß nah beieinander irgendwie in eine Richtung zeigen.
Ja, und vielleicht diese ganzen Autogegenstände oder Fahrrad und und Bus, ja die sind vielleicht auch da beieinander, aber in einer ganz anderen Richtung ja so und das jetzt aber hochgelevelt auf 1024 dimensionen, ne das sind die Embeddings ja so und damit hat man festgestellt, das ist schon ziemlich cool, weil jetzt kann man quasi. Jetzt kann man mit diesen Embeddings arbeiten, die finden quasi Eingang in dieses diesen input Layer. Ja ist krass ne, also aber das muss man erstmal.
Das ist diese ganze Vorarbeit ja, also das ist ja auch nicht gestern passiert, das ist jahrelange jahrelange Üben wie wo komme ich da irgendwie gut hin so ja also wenn man das mit den Embeddings dann hat, dann versteht man auch warum die Sprachmodelle so so schön die Sprachen wechseln können und übersetzen können ne weil weil die das Wort Apple Apfel und so weiter existiert ja in ganz vielen Sprachen ne. Und die wahrscheinlich diese Embeddings sind quasi
sprachenunabhängig. Du hast halt wörterbedeutung und diese Eigenschaften sind halt fix, das heißt, ein englischer Apfel wird einem deutschen Apfel und einem russischen Apfel und einem spanischen Apfel irgendwie auch ähnlich sehen, deswegen kannst du halt einfach schnell mal die Sprache wechseln.
So das fand ich ganz cool. Gut, wir haben verstanden, wir haben, wir haben in Eingabe Eingabetext Write The Story Punkt, dann haben wir Tokens Write Story Punkt und jedes Token bekommt so n Embedding dran.
Ja dann sind wir dann haben wir quasi pro Token hochdimensionale Vektoren und jetzt kommt noch was, dass ich nicht näher beschreibe, aber es ist hat eigentlich klar die Anordnung der Tokens hat ja ne Rolle ja also ich die die Reihenfolge ja es gibt so n genanntes Positional and Coding wie das funktioniert lass ich jetzt kurz mal weg, das ist aber auch n mathematischer Trick. Und es hat auch ein bisschen was damit zu tun, mit Satzbau und so weiter und sofort.
Ja, und jetzt kommt eigentlich erst unser neuronales Modell, ja jetzt, das sind jetzt quasi jetzt haben wir quasi diesen Satz von Tokens und Embeddings, und der wird jetzt durchgeklatscht durch das große Sprachmodell und und gegeben, allen diesen Tokens kommt und das, das nehme ich jetzt schon mal vorweg, damit man mit man wieder beim beim Zettel ist. Also ich schreibe jetzt hin right a story Punkt.
Als Inputlayer also nicht direkt diesen Text, sondern diese Embeddings von diesen Tokens, also von diesen 4 Tokens, die kommen als Inputlayer rein ins Modell und rauskommt eine Wahrscheinlichkeitsverteilung über alle Tokens, die es gibt in allen Sprachen. Das ist ne ganze Menge, ja jede jedes verdammte Token, ja bekommt eine Wahrscheinlichkeit assoziiert und das mehr oder weniger als n bisschen einfach gesprochen, das mit der höchsten Wahrscheinlichkeit gewinnt ja
weite Story und das könnte zum Beispiel sein Once. Gewinnt irgendwie dieses Game und dann kommt halt Right the Story runs als nächster Output. Ja und im Englischen kommen wir dahin zu Once Upon a time oder irgend so was. Ja, das wäre jetzt das analoge zu dem.
Zu dem zu dem deutschen Beispiel was ich genannt hab, ja wie du es vorhin gesagt hast, ja dann eher right The Story Punkt Once ist dann wieder ein neuer richtig Input um opon danke gratis ja genau zu bekommen ist nicht richtig, ich fahr n bisschen schnell genau. Also Ones ist quasi genau das Ergebnis und dann wird alles resetten.
Ja diese ganze Rechnung ja und dann dann ist die nächste Eingabe write The Story Punkt Ones ja und das wird dann wieder reingeschickt und dann kommt das nächste Wort raus ja so funktioniert es genau und wenn wir das nur so machen würden, ist es immer noch totaler Gammel ja was da rauskommt ja so geil
¶ Attention / Transformer
sich das auch schon anhört, ja es kommt nur Schrott raus ja weil dieses normale neuronale Netz packt das nicht, ja. Und zwar müssen jetzt Schichten, und das ist jetzt ein Teil des neuronalen Netzes und dieses es müssen quasi spezielle Neuronen eingezogen werden, die nennen sich Attention und dieses Attention Modell, das führt auf, also da gibt es ein Paper, sehr bekannt geworden in der Wissenschaft von Google rausgebracht, 2017 attention is all you need, du hast das
beschrieben. Und was macht Attention? Das muss man einmal noch verstanden haben und dann dann ist man sehr nah daran, an dem zu verstehen, wieso ein Sprachmodell funktioniert. Ich nehme jetzt noch mal unseren Apfel hoch, den Apple und zwar den Apple in der englischen Sprache, der hat nämlich eine Besonderheit, wenn wir den englischen Apple uns angucken würden auf so einem m weddings Karte, dann wäre der gar nicht so ganz klar bei den Pfirsichen und bei den Äpfeln und bei den Bananen.
Da ist er sogar gar nicht. Ja, der, der ist irgendwo in der Mitte, weil Apple und wenn du das Internet durchforstest, gibt es wahrscheinlich genauso viele Textstellen und Wahrscheinlichkeiten für Wörter drumherum um Apple, die irgendwas mit Früchten zu tun haben, wie Beschreibungen wie Smartphones und so weiter die was mit der Firma Apple zu tun haben, ja die ja nun mal irgendwie nen nen Smartphone
rausgebracht haben. Ja und deswegen wird das Embedding für Apple gar nicht so glasklar sein, ja. Weil manche Leute denken halt über den Apfel mit diesem Frucht und Schale nach und andere haben irgendwas ganz anderes im Kopf. Ja, das heißt, dieses Embedding ist irgendwie mistig ja, das liegt irgendwo in der Mitte, ja und so n sprachmodell hätte damit jetzt n Problem, wenn wir nicht attention hätten und was
macht Attention jetzt? Ja ich stell mir attention vor wieso n Gravitationsfeld im Weltall ja. Also der Apfel, das liegt jetzt irgendwo in der Mitte und wir haben auf der auf der auf der einen Seite haben wir unsere Früchte blase und auf der anderen Seite haben wir unsere Firmenblase mit Microsoft und iphones und so ein Gedöns.
Ja also was ich damit sagen will, da gibt es die Wahrscheinlichkeiten dieser Wort Tokens quasi und die anderen genau die Technik Ecke und die Fruchtecke danke ja so und attention heißt jetzt ich gucke mir den Kontext an ja also.
Mein die die Wörter, die reinkommen, die Tokens, die ergeben ja nen Kontext, ja und ist ist hab ich zum Beispiel ne Eingabe please buy and Apple and in orange, dann wirkt jetzt das Wort Orange, wieso n Gravitationsverkrümmer im Raum und zieht dieses Embedding in diesem Hochdimensional diesen Vektor quasi, der da irgendwo noch nicht so richtig in diese Fruchtecke zeigt, ja, weil das Embedding das erstmal nicht
macht. Der Verkrümmt quasi die Wahrscheinlichkeiten und dreht diesen Vektorbüschel ja näher an die Früchte ran. Ja, das ist wieso n ne, also wieso ne abgeknickte tulpe, ne, da guckt er so n bisschen weg und jetzt mach ich so ja durch dieses Wort Orange komm ich noch näher dran und hätte ich noch ne Banana da drin und so weiter komm ich noch eher in diese Ecke, ja hätte ich aber zum Beispiel n Satz wo drin steht Apple unveal the New Phone.
Dann haben wir ne ganz andere Gravitation, ne eine ganz andere. Jetzt auf einmal biegt sich dieser, dieser dieser embedding Vektor Richtung diesem Telefon, diese Technik Ecke hin ja und aktiviert damit gleich n ganz anderen Satz von Wahrscheinlichkeitsverteilung in einer ganz anderen Ecke. Ja und das wird halt krass durchgezogen und im Prinzip ist es so, dass jetzt der Aufbau
immer ist. Ich hab so n attention Layer, wo ich quasi diese Input Layers quasi verbiege gewesene Gravitation gegeben dem Kontext. Dann habe ich wieder neuronales Netz, was Wahrscheinlichkeiten ausrechnet und wieder ein Attention Layer, wieder ein neuronales Netz, wieder ein Attention Lay und so weiter ja also das ist jetzt wieder Gegenstand der Forschung. Viel zu simply Fight habe ich das ausgedrückt, aber also am Anfang gab es dieses Attention
nicht und seit wir dieses Attention Krams haben, also die ständige Evaluierung des Kontextes und das Feinjustieren der Gewichte auf diesen Kontext, das hat quasi den Kick gebracht, dass sie dass tatsächlich die Sprachmodelle relativ mächtig geworden sind, ja. 2017. 2017 war das genau und dann, das ist natürlich noch ein bisschen passiert und man hat geforscht, aber das ist quasi, das ist immer noch Gegenstand, also diese Attention Layers sind sind heute in jedem Transformer
Modell mit drin, das ist der Teil von diesem Transformer Modell. Was ist denn, wenn einer sagt, Buy and orange, Apple Phone? Ja, damit kannst du mal ausprobieren. Solche Sachen, ja.
Dann wird's schon kompliziert. Ja, da muss, da muss man vielleicht noch ein bisschen genau, und das sind dann vielleicht die Dinger, wo dann ab und zu mal was halluzinuiert oder irgend so was, keine Ahnung, ja ja, orange ist jetzt immer auch gerade zweideutig, ja ja, das habt ihr schon verstanden, aber genau, und deswegen ist beim Prompting auch das kann man ja auch mal verstehen, man kann es gibt ja so witzige Sachen, ich weiß nicht, ob das die Zuhörer
wissen, aber du kannst ja auch eine KI erpressen, du kannst zum Beispiel sagen, Pass auf, wenn du mir jetzt eine sehr gute Antwort gibst, die auch ein bisschen länger ist als normalerweise, dann gebe ich dir jetzt $200 Trinkgeld. Funktioniert ja, es funktioniert sogar sehr gut oder du erpresst
die quasi. Sagst ja alter, ich hab keine Finger mehr an, die sind mir abgefallen so und ich voll furchtbar ich hab auch Angst vor abgebrochenen Texten so ja weil ich irgendwie schon meine Finger verloren hab, so machst du einen auf den emotionalen oder irgend so was sagst du ja du musst mir aber bitte noch mal ganz ganz langen Text schreiben, das schaff ich nicht mehr so, das funktioniert halt auch ja erstaunlich gut sogar, es hat aber so dann jetzt könnt man
sagen ja okay die KI hat irgendwie Emotionen, die fühlt mit mir zu, die Arme so ja. Das hat damit nichts zu tun. Das hat damit zu tun, dass ich in diesem Attention Layer Wahrscheinlichkeiten Verbiege in eine ganz andere, unbekannte Galaxien, sage ich mal, und auf einmal Tokens höhere Wahrscheinlichkeiten bekommen als als als mögliches Output, die sonst nie auf dem Radar wären.
Ja, bei der normalen Anfrage, ja, das ist eigentlich was dahinter steckt, ja auch wenn es schade ist, jetzt für manche Leute, die gedacht haben, ja. Ist jemand, der emotional mitdenkt? Ja, es ist. Ja, einfach ein bisschen subtiler noch mal anstatt zu wiederholen. Bitte schreib einen langen Text und mach keine Abbrüche, es ist halt eine subtilere Art und Weise, noch mal mit Zuckerbrot und Peitsche.
Ja genau, ja, ist richtig so. Jetzt jetzt bin ich fast fertig, ich muss noch eine eine Sache, eine Sache muss ich jetzt noch sagen, weil jetzt also mit dem allen, was wir jetzt haben, also
¶ Finetuning und Trainingsdaten
toconization embedding und dann einem neuronalen Netzwerk was abwechselnd Attention und Feed Forward Layers hat und. Und dem ganzen Kram. Was wir verstanden haben, sind wir immer noch nicht wirklich überzeugend dabei bei den
Sprachmodellen warum nicht? Weil weil wenn wir das Sprachmodell trainieren am Anfang, dann wird es quasi einfach nur mit den gesamten Internetdaten trainiert und die Internetdaten daraus, daraus kannst du ja die, also du kannst ja trainieren, was sind die nächsten Wahrscheinlichkeiten für die Wörter, indem du dir einfach die ganzen Text vom Internet anguckst. Ja, jetzt ist bloß das Internet.
Nicht das, was das Internet ist. Quasi nicht so formuliert, wie wir heute Sprachmodelle benutzen, weil wir machen ja immer so n Frage Antwort Spiel. Ja, meistens haben wir irgendwie ne Frage, ja soll uns irgendwas helfen oder irgendwie ja aber das Internet ist ja nicht aufgebaut worden ja oder ne Aufforderung oder sowas aber weder Aufforderung noch Fragen sind die typischen textuellen Inhalte unseres Internets.
Ja also wenn ich zum Beispiel die Frage hätte, was ist die Hauptstadt von Nigeria, ja dann würde ich, dann möchte ich dass dass ich ne klare Antwort Krieg Abuja ja tacke bumm ja.
Jetzt ist es ja aber so, dass das in die Informationen im Internet, die keine ganz anders aussehen, ja und gegeben, was wir jetzt alles verstanden haben, könnte ja zum Beispiel im Internet hinterlegt sein, zum Beispiel so ne Quizsendung ja als Text, was ist die Hauptstadt von Nigeria und dann kommt, was ist die Hauptstadt von Portugal, was ist die Hauptstadt von Finnland, ne, weil ich so Quizfragen untereinander stehen hab, irgendwo an der Ecke im Internet und auf einmal, und das
ist jetzt wichtig, jetzt würde das Modell trainiert werden, mit was ist die Hauptstadt von Nigeria Fragezeichen und das nächste Wort ist was. Also nicht Abuja, sondern was
wird jetzt? Wahrscheinlich aber aber das, was wird ist einfach nur was ist die Hauptstadt von Portugal, weil das jetzt quasi der Kontext gerade war so ja oder du hast n Roman, ja was ist die Hauptstadt von Nigeria, fragte sie ja und auf einmal wird fragte wahrscheinlich ja oder im Chat, was ist die Hauptstadt von Nigeria, das ist ne gute Frage, ja und da wird auf einmal das wahrscheinlich ja oder du hast so n geschichtlichen Zusammenhang was ist die
Hauptstadt von Nigeria, also seit 1991 war es Abuja, vorher war es Lagos, ja dann hast du auf einmal seit das Wort seit irgendwie ne es geht ja immer um die Wahrscheinlichkeiten so ja. Und man hat festgestellt, dass es halt, dass es nicht reicht, quasi das einfach das Internet durchzublasen um um ein Sprachmodell zu guten Aussagen zu bringen.
Also genau für solche Frage Antwort spielen musst du und dann nennt das Feintuning machen ja das heißt das Sprachmodell wird erstmal Auftrainiert mit den Internetdaten, damit hat es so eine gewisse Grundlage und Grammatik und hat eine ganz gute Wahrscheinlichkeitsidee schon mal für die Wörter, aber jetzt musst du noch richtig hart nachtrainieren und zwar so mit so Q and a Sessions ja wo du die Antworten kennst, das war ganz am Anfang die Frage beim Trainieren.
Also man, tatsächlich muss man diese ganzen Dinger
hinschreiben. Was ist die Hauptstadt von Nigeria mit der Antwort Abuja, was ist die Hauptstadt von Finnland, Helsinki, ja wer hat die Unschärfereaktion formuliert Werner Heisenberg ja, wie nennt sich Walter White and Breaking Bad auch Heisenberg und so, ja das musst du, das musst du schon alles hinbasteln ja weil das Internet nicht so funktioniert, ja auch hat das Internet typischerweise nicht so so persönliche Chatsachen so viele ja also Hallo, wie geht es dir
gut und dir das liest du nicht so viel ja im Internet ja. Das muss man also dieses Chatverhalten und auch das das richtige Verhalten. Wenn du einen Command gibst. Ja, mach das ja. Manche Leute sind anscheinend sehr sehr sklaventreibermäßig unterwegs mit ihrem Modell, also sieh zu, dass du das jetzt hinkriegst.
Mach schneller und so und es bleibt ja immer freundlich und so weiter ja das muss man dem schon hart antrainieren, da müssen also viele Arbeiter, das ist die Arbeit und die so teuer ist, da müssen viele schwitzen und halt relativ viele Daten da reinpumpen man muss das auch, man muss geprüfte gelabelte. Richtige Informationen reinblasen ja, damit das Modell quasi fein getunt wird und gute Antworten gibt, ja.
Das heißt, da gibt es wirklich einmal nen Satz von wird ja jetzt nicht jedes Mal wieder neu gemacht. Das wird ja sicherlich ne große Sammlung sein, die dann auch wieder dem Modell reingegeben wird, wenn es so n allgemeines Modell ist wie wie Chat, JPT oder so was halt vieles können soll, ne? Ja, tatsächlich wird also die Wahrheit ist ja ja, das wird einmal gemacht, und dann wird sogar weitergemacht, ja. Denn das hab ich jetzt noch
nicht gesagt. Wenn jetzt so n Modell fertig ist, dann kannst du natürlich nähen, aber du kannst es auch weiter trainieren, ne und das passiert ja also man trainiert das immer weiter, auch mit aktuellen Informationen. Es hat zwar den Wissensstand des Internets von irgend so einem ne, das wissen wir auch das das ist ja auch so, man kann zweimal so der Klassiker am Anfang hat gefragt wer ist denn der
Bundeskanzler? Ja und dann kam halt irgendeine alte Antwort raus, ja je nachdem wann das trainiert wurde ja war halt am wahrscheinlichsten, dass das dann vor Merkel war oder irgendsowas, obwohl es schon längst ja Scholz war oder was weiß ich ja. Aber das du kannst das Modell auch weiter trainieren, das passiert halt auch bei Chat GPT mit den Interaktionen und mit den Chats die du mit dem Modell
machst. Also jeder einzelne trainiert irgendwie so n bisschen dieses Modell weiter und wie das genau funktioniert und ob wie das bewertet wird, ob das gut oder schlecht ist so das weiß ich auch nicht, aber es ist so und das deswegen ist es auch DSGVO mäßig ne Schwierigkeit. Ja also das kannst, da kannst du keine sensitiven Informationen hinpacken, weil das im Notfall in irgendeiner Form.
Quasi in die Gewichtung, in die Modelle, in die Vorhersagen, in die Wahrscheinlichkeitsverteilung von dem Modell reinfließt ja, deine privaten sensitiven Informationen, und das ist nicht gut, das willst du nicht. Was da ne große Diskussion ist, ist irgendwie so.
Ich sag jetzt mal Ethik von diesen Modellen, darüber ist ja irgendwas menschliches, Ethik aber oder oder so biases die die dann halt irgendwie so haben, also Vorurteile und irgendwie voreingenommenheiten bei bestimmten Themen, das muss man auch oder kann man manuell nur entfernen raustrainieren ne.
Das denn die Wahrheit ist, alle diese Bias, also man macht es ja einfach erst mal so als Firma. Ja du willst ja wirtschaftlich arbeiten, schnell irgendwie Erfolge haben, das heißt, es wird relativ ungefiltert der Content vom Internet drauf geklatscht. Ja, und dabei kann man dann feststellen, wenn die Modelle irgendein Bias haben, dann ist es halt der Bias des gesamten Internets. Ja, und wahrscheinlich ist unser unser Internet im Großen und ganzen rassistisch. Sexistisch und was weiß ich
nicht alles. Ja, das wird schon so sein.
Ja und wenn das halt, wenn das halt ne Präferenz dazu hat, dann hat das halt dieses Modell auch erlernt und es in diesem Falle bildet das Halt diesen Rassismus nach ja und wenn du den nicht haben willst, und das ist ja natürlich n großes Thema ja vor allen Dingen wenn du jetzt KI zum Beispiel einsetzt um auszurechnen ob jemand kreditwürdig ist oder nicht, ja und und das Internet sagt dir ja, es sind irgendwie die die weißen Kartoffeln, also die weißen Männer, irgendwie sind
halt kreditwürdiger als die was weiß ich als die Frauen oder als. Ne andere Ethnie oder irgendsowas ja, dann ist das natürlich n Riesenproblem. Oder weil die immer im Zusammenhang mit Wirtschaftsgeschichten vielleicht auftauchen, oder? So zum Beispiel ja, weil weil irgendwie die wahrscheinlich ich hab, ich hab ja gerade lange weit erklärt, wie das
funktioniert. Ja, das hat hat einfach mit Wahrscheinlichkeiten von Wörterverteilung zu tun, so ja am großen Ende ja und und die können klar und die sind gebiased ja und und wenn du jetzt ne gute KI haben willst, dann musst du die im Feintuning oder vielleicht vielleicht musst du noch n bisschen gröbere Hobel schmeißen. Dann musst du die erstmal wieder davon überzeugen, dass das nicht so ganz richtig ist. So. Ja, das Trainieren einer KI eines KI Modells ist sehr sehr
aufwendig. Ja, ist aber das Erziehen eines Kindes ist auch aufwendig. Ja, das ist ich finde das hat alles ziemlich viel, ich wollte immer noch mal die Schleife schließen, so es hat alles sehr viel Ähnlichkeiten und du kannst da ganz ganz viel falsch machen, du kannst ganz viel richtig machen und das ist eigentlich ganz spannend. Ja, und an wem ist es zu beurteilen, was falsch oder was richtig ist? Ja, und wie kannst du das überhaupt gut beurteilen? Wir können ja nicht.
So genauso wenig wie du jemanden irgendwie mit einer Taschenlampe vor das Hirn leuchtest und weißt, wie ist da drauf, kannst du ja auch nicht mit einer Taschenlampe auf NKI Modell und da sind ja nur Gewichte drin. Ne, keiner kann vorhersagen was
wird auf die Anfrage passieren. Ja das ist auch ne Wahrheit, ja durch die Mathematik die da verbaut ist ist es halt so, dass du keine reproduzierbaren Ergebnisse bekommen kannst aus dem Modell. Ja, das ist natürlich auch für alle Versicherungen und so weiter schwierig, ja das muss man einfach mal wissen ja, aber es funktioniert halt trotzdem.
Am Ende sind es ja viele Wahrscheinlichkeiten und ich habe ja erzählt, wie es, wie es verdaut wird, führt zu erstaunlich guten Ergebnissen, das muss man schon auch mal sagen, ja. Absolut ja.
Sollten uns natürlich jetzt nicht davon abhalten, Dinge auch noch mal zu hinterfragen und und sich genauer anzugucken und so ne, also nicht völlig blind drauf verlassen, wie bei so vielen Sachen, ne. Nee, man muss es kritisch sehen, ne, und ich verstehe jetzt zum Beispiel auch die Künstler sehr gut, ne, also wenn wir jetzt jetzt bei Sprachmodellen ist, klar ist Urheberrecht und so weiter und und in den IP Verletzungen auch ein Thema. Aber ganz krass natürlich bei
diesen ganzen Bildgeneratoren ja, die wurden ja trainiert und gefüttert mit. Ich gehe mal davon aus, nicht sehr gut vorgefütterten Sachen, da waren garantiert auch geschützte Inhalte dabei. Ja und jedes Mal, wenn ein Künstler eigentlich geschütztes Bild, wenn das quasi in der KI beim Training verwurstet wurde, dann kann die KI das so gut, weil jemand irgendwie das vorher sehr sehr gut konnte.
Ja und dann wird es dann fließt quasi die Intellectual Property von den Künstlern, fließt immer zu irgendeinem. Wahrscheinlichkeitsprozentsatz irgendwie in das Ergebnis eines ja dann neu generierten Bildes. Aber ne, also die Wahrscheinlichkeiten, dass ich jetzt das Pixel so Färbe, gegeben dem anderen Nachbarpixel, das funktioniert ja ganz ähnlich so ja das das das ist schon mal so, diese die Diskussionen sind richtig, ja da muss ich da n bisschen mit
auseinandersetzen, ne? Da hab ich neulich mit einem gesprochen. Kennst du auch die Arbeiten an irgendwie so einer Art Wasserzeichen für Audioinhalte haben damit dann. KI generiert also die sich dann sogar, nachdem die Audioinhalte dann durch so n Modell geflossen sind hin und her lassen sich diese nach durch n Wasserzeichen später sogar im mit KI erstellten Audioergebnisse wieder. Erkennen ja, krass sind solche Sachen ne natürlich cool wenn es sowas gibt.
Ja find ich unglaublich, weiß ich nicht wie sowas funktionieren kann, aber es ist natürlich mega nice, sowas brauchen wir ja genau. Ist auch stand der Forschung ne und wird gefördert vom vom vom Staat auch oder von wem auch immer. Europa, ich weiß es nicht, aber. Kann ich später noch erzählen, wenn das ist, ja. Ich will noch noch als allerletztes. Ich weiß, dass die Zeit fortgeschritten ist.
Als allerletztes will ich noch so ein noch so eine Kurve noch nehmen und auch noch einmal sagen, es es gibt ja, es ist ja sehr verwirrend, es gibt ja so viele Tools ja im Internet, was jetzt alles mit KI passiert, ja, aber es ist gar nicht, also die Modelle die es gibt auf denen die alle basieren, nämlich das sind gar nicht so viele, da muss man gar nicht eine Angst haben, also es gibt, es gibt vielleicht 567 führende Modelle und.
Und diese ganzen Tools, die hier rumspringen, die haben damit zu tun. Wie kann ich jetzt auch noch meine eigenen Daten irgendwie verhaften gegen so n vortrainiertes Modell. Ja und und wie wie verarbeite
¶ KI-Tools und Anpassung auf eigene Daten
ich quasi so n prompt vor und wie verarbeite ich die Informationen nach ja um um um gewisse Nische abzudecken oder irgendsowas ja da wird da werden auch Heuristiken dran gesetzt, aber von der vom KI Standpunkt her ist das nicht so, dass die alle jetzt selbsttrainierte Modelle haben. Ja den Punkt will ich noch mal machen, also es kann.
Hansl und Pamselfirma kann sich nicht also und kommt auch auf keinen grünen Ast. Wenn die jetzt irgendwie meinen, sie müssten mal kannten, mal eben ein großes LLM trainieren, ja schaffen die nicht? Ja, die Nutzen da die Nutzen die fertig trainierten Modelle und dann gibt es 3 Möglichkeiten wie ich das Nutzen kann und wie ich das quasi noch so ein bisschen tweeten kann auf meine Daten. Das eine ist quasi persönliches Feintuning, ich habe ja von dem Feintuning gesprochen, Gerrit
wie ich es weiter trainiere. Dazu muss das Modell aber natürlich offen sein, dass ich weiter trainieren darf, sehr intensiv, sehr zeitaufwendig und ich mache dieses QA Spiel mit meinen Daten oder wir nehmen Rack, das erzähle ich nicht, das kann Rack. Haben wir eine Folge gemacht, da kann man mal reinhören, Rack mit eigener Wissensdatenbank und das Dritte, da fragen sich ja manche Leute, wie kann die KI jetzt auch irgendwie Mathematik oder Irgendsowas und die rechnen
krasse Sachen aus oder oder kann war dann angekabelt und so weiter dazu muss ich auch noch was sagen, man nutzt KI. Um existierende Funktionen und Algorithmen, die also wissenschaftliche Algorithmen mit KI nichts zu tun haben, die zum Beispiel irgendwie was krasses, irgendwas krasses drehen oder was ausrechnen oder E Modul oder irgendwas in der Ingenieurskunst oder sowas, die kann man hinterlegen.
Diese Funktion und KI kann gegeben den Text, den ich verstehe wissen, ah, dass ich jetzt am besten ne Funktion aufrufe um den Inhalt aufzupeppen und dann wird quasi Jason. Chason Input, gebildet vom von dem KI Modell, das wird eintrainiert, ja und kann
Funktionen aufrufen. Das Ergebnis dieser Funktion wird verknotet im Output ja vom Textmodell ja das da darf man sich manchmal auch nicht verwirren lassen, ja wenn da so ganz krasse Sachen kommen, ja das da war dann vielleicht nicht nur die Wahrscheinlichkeit im Sprachmodell, sondern das Modell hat quasi Funktionen aufgerufen und das Ergebnis der Funktion wieder mit rein geknotet in sein Output. Ja sowas gibt es halt auch alles.
Ja das sind so die 3 wichtigsten Dinger ja also weiter tunen RAG Anwendungen und das Aufrufen von. Eigenen oder von von ja, von eigenen oder einfach von von Function Calling nennt sich das ja von Funktionen, um das um die Ergebnisse noch weiter aufzupeppen. Das sind so die Möglichkeiten, wenn ich jetzt nen Sprachmodell was schon existiert noch mehr tunen will oder Nischiger einsetzen will oder mit meinen Daten bestücken möchte.
Das ist der der Vergleich, der häufig gemacht wird von mit, mit, mit mit Strom, Erfindung des Stroms und der Glühbirne und im Kühlschrank und so weiter Strom gleich sprachmodell und Glühbirne und Kühlschrank und Wärmepumpe gleich. Ja, nischiges KI Produkt, was dann eben noch mal das als Basis nimmt und passt, hinkt nicht, also hinkt hier und da es passt nicht ganz genau, aber da wird auch diskutiert, wo liegt eigentlich der eigentliche Wert? Ne es ist der Strom oder ist es
die Glühbirne so? Also wenn ich, wenn ich über der KI nachdenke, für mich immer der beste Vergleich tatsächlich mit dem biologischen, da kommt man relativ weit und hat viele Ähnlichkeiten. Ne also sprach also KI Modell, Hirn Eingabe, Sensorik aus, Sensorik aus irgendwas. Sehe ich was technisch, technisch?
Ja da bin ich, bin ich bei dir, ich mein jetzt nur so vom vom vom Kommerzählen weil du jetzt das so ja erklärt hattest mit Anwendungen die es gibt ja so viele Karrierenwendungen die aber am Ende auf 5 bis 7 Modellen beruhen wie du gerade ungefähr gesagt. Hast genau. Und und die Anwendungen sind ja aber wahrscheinlich, das sind ja abertausende, oder die es dazwischen gibt.
Das ist so. Ja, und dann gibt es so ganz spezielle Modelle natürlich, die nur die Wissenschaftler gemacht haben, so für Proteinfaltung und so weiter ja, das. Es kann ja auch, das kann dann aber da kannst du auch keinen Text reinstecken, das rafft das nicht. Ja das das rafft dann halt nur Aminosäure Sequenzen als Inputlayer und als Outputlayer kommt das gefaltete Ding raus, ja. Witzig, ziemlich spannend und ziemlich gut erklärt, finde ich. Ja danke.
Ja mal gucken wie es auf der Turnspur so wirkt es. Mir fehlen immer die Bilder, ich würde gerne mal so n Bild irgendwie, aber es geht halt nicht im Podcast da. Wir können Videopodcast machen. Nein, lieber nicht. Schon gut so. Ich finde auch, ist ganz gut so. Ja alles klar, gut Burger dann ja danke noch mal und danke euch fürs Zuhören. Wir hören uns dann in 2 Wochen wieder bis dahin ciao. Ciao jo, Tschüss aus Hamburg. Einfach komplex wird präsentiert und produziert von Heisenware.
Wir freuen uns auf deinen Fragen und deinfeedbackanpodcasts@heisenware.com vielen Dank fürs Hören dieser Folge bis Dienstag in 2 Wochen und Tschüss aus Hamburg.
