Hallo und herzlich willkommen zu einer neuen Folge vom Podcast Software Testing. Ich bin euer Host Regi und habe wieder eine Folge von QS-Tag 2024 mit dabei. Heute bei mir zu Gast Christoph Pötsch vom TÜV AI Lab. Er und seine Kollegen beschäftigen sich ganz mit dem Thema KI-Testen und -Zertifizierung. Wie kann eine KI geprüft werden? Welche Kriterien müssen angesetzt werden? Und wie kann man damit eine praxisnahe Matrix schaffen, mit der man sich
einfach mit seinem KI-System einordnen kann, was wie getestet werden soll? Da steckt also viel Futter drin und jetzt viel Spaß bei der Folge. Hallo Chris, schön, dass du da bist. Hallo Regi, vielen Dank für die Einladung. Ich freue mich sehr, hier zu sein. Ja, ich freue mich auch. Das ist ja dein erster QS-Tag, habe ich gehört. Ja, finde ich toll, dass du hier bist. Zwei Tage sind schon fast rum hier. Du hast deinen Vortrag auch schon
gehabt, von dem ich viel Gutes, Positives gehört habe. Deswegen freue ich mich jetzt auch, dass du hier in der Folge bist. Und ja, QS-Tag ist ein toller Partner für den Podcast und ich bin auch immer wieder gerne da. Und du hast ja ein spannendes... Werden wir definitiv merken. Auf jeden Fall, es ist ja wieder gekommen. Ja, und du hast ja ein spannendes Thema mitgebracht, und zwar geht es um das ganze Thema KI und Regulierung und wie kommt man da eigentlich mal zu einer
praktischen Sicht drauf oder so. Vielleicht magst du mal kurz deinen Kontext erzählen. Genau, ich kann das Thema, was ich hier vorgestellt habe, ein systematisches Grundlagenthema, nämlich die Frage, wie können wir dieses Feld KI-Prüfung, KI-Zertifizierung,
wie können wir da eine systematische Struktur reinbekommen. Und wir haben da vom TÜV-Airlab aus ein Framework entwickelt, eine AI-Assessment-Matrix, die jetzt versucht, da ein bisschen eine Struktur reinzubekommen und dann aber versucht, letztlich Testressourcen, also alles, was irgendwie an Prüfmethoden, Metriken, Benchmarkdaten setzen, also alles, was ich als Prüfung nutzen kann, dafür praktisch eine Ordnungsstruktur zu schaffen. Und das ist
letztlich aufgebaut als eine zweidimensionale bzw. dreidimensionale Matrix und die versucht gleichzeitig auch eine systematische Ordnung in dieses große Feld der KI-Prüfdimension reinzukriegen. Das mögen wir alle gerne, also Ordnung. Ordnung schaffen ist gut. Aber sag mal, warum braucht man das eigentlich? Wenn wir ganz vorne anfangen, wir haben natürlich jetzt hier irgendwie die große neue Technologie, die irgendwie sehr potent ist, aber alles, was sehr potent ist, kann natürlich in beide
Richtungen, es kann zum Guten wie zum Schlechten verwendet werden. Also ich denke sicherlich, KI ist eine der großen Neuerungen des 21. Jahrhunderts und ist vermutlich auch erstmal da, um zu bleiben. Also ich glaube, dieser Gedanke, das wird schon wieder weggehen. Ich meine, sicherlich gibt es immer so die Diskussion, gibt es so einen momentanen Hype, aber ich glaube schon, das ist eine relativ, eine Grundlagentechnologie, die erstmal bleiben wird. Also dieser Gedanke,
das geht mal wieder weg, ich glaube, die Option gibt es nicht. Jetzt haben wir eine sehr potente Technologie und dann haben wir natürlich die Frage, wie kriegen wir es hin, dass wir irgendwie Sicherheit und Innovation zusammenbringen. Das ist auch so ein Gedanke hinter dieser KI-Verordnung, Innovation und Sicherheit als USP in Deutschland zusammenzubringen, in Europa zusammenzubringen, ist auch vom AI-Lab her unsere Mission, daran mitzuarbeiten.
Und dann haben wir natürlich irgendwie das Punkt, wir haben diese neue Technologie und wir haben natürlich dann auch eine Gesellschaft, eine gesellschaftliche Verantwortung, auch bestimmte Werte, die uns irgendwie in Europa wichtig sind. Auch da ist, glaube ich, wenn
man es im globalen Verhältnis sieht, durchaus wichtig, das zu betrachten. Und dann müssen wir halt überlegen, wenn wir eine vertrauenswürdige KI haben wollen, wenn wir auch Rückhalt in der Gesellschaft dafür haben wollen, dann müssen wir uns angucken, was an diesen Dingern müssen wir uns eigentlich genau angucken, was müssen wir prüfen, wie sollen die beschaffen sein, damit sie bestimmte Dinge nicht tun. Und das, glaube ich, muss eine bewusste Entscheidung
sein. Und das muss man, glaube ich, strukturiert angehen. Also ich meine, gerade beim Testen, der Grundgedanke ist ja eigentlich auch, am liebsten würde man es von allen möglichen Seiten angucken und von A bis Z und mit jedem Detail dazwischen. Genau, und das ist, dass man sozusagen die Innovation behält, aber auf der anderen Seite vor den negativen Folgen der Technologien schützt, das ist so das TÜV-Kredo, seit er noch TÜV hieß und Dampfkessel,
organisierte Dampfkessel des 21. Jahrhunderts, das ist dann KI, würde ich sagen.
Ich finde, das ist ja total schön, darauf mal ein bisschen eine Antwort zu bekommen, weil, ich sage mal, als das Ganze mit KI kam und so aus der Tester-Sicht, man ist ja immer so gewohnt, man hat seine Schritte und sein erwartetes Ergebnis und freut sich, dass das irgendwie alles auch sehr, sehr klar ist und so, dann kommt auf einmal die KI, die so irgendwas macht, da war ja im ersten Moment schon so eine Schockstarre auch da, wie soll man das
Zeug eigentlich testen und prüfen? Und in dem Thema habt ihr euch jetzt einmal intensiver
angenommen. Genau, dem haben wir uns angenommen, aber der Fokus ist natürlich breit, auch insofern, als wir gucken müssen und das war jetzt das, was ich hier am QS-Tag auch vorgestellt habe, um dieses Feld bewusst in den Blick zu kriegen, das systematisch zu strukturieren und dann bewusst zu sehen, okay, wo liegen da eigentlich die Kernanforderungen seitens der Regulierung, also KI-Verordnung vor allem, wo liegen möglicherweise
Punkte, die man zusätzlich in den Blick nehmen will, aber dass man eben bewusst weiß, wo geht man hin und dann das ganze Feld in dem Sinne fortzustrukturieren, weil wenn man sagt, man will das alles von vorne bis hinten, das ist eine große Aufgabe vor allem vor dem Hintergrund, dass sich diese Technologie in einer Geschwindigkeit weiterentwickelt, die es wirklich schwierig macht. Aber wir sind da auf einem sehr guten Weg und wir haben
ein sehr spannendes Team, sehr multidisziplinär. Also ich glaube, das ist auch etwas Spannendes, dass diese, weil wir da natürlich jetzt mit KI, wenn KI, immer die Frage, wie man das definiert, aber wenn man so in die Richtung geht, dass es irgendwie doch mit menschlichen, kognitiven Fähigkeiten und menschlichen Aktionen, also wie so ein Quasi-Akteur, das ist ja Russel Novik aus diesem Standardwerk, also es ist so eine Art Quasi-Akteur, dann kann
die KI Dinge tun, die auch Menschen tun und dann sind wir natürlich nicht mehr nur in diesem reinen Bereich funktionaler Sicherheit, das ist so ein klassischer Fall fürs Testen, sondern dass wir halt plötzlich auch in Bereiche reinkommen, die sonst menschliche Entscheidungen, menschliche Urteilskraft erfüllen, also dieser klassische KI im HR-System zum Beispiel und so weiter, wo wir dann wissen, okay, da müssen wir jetzt plötzlich andere Dinge
in den Blick nehmen und dann gehen wir sozusagen von diesem rein technischen weg, aber wir müssen es natürlich am Ende auch wieder technisch prüfen können. Also wir können nicht jemanden, sozusagen eine Person zwei Jahre lang hinsetzen, die sich sozusagen mit der KI unterhält und dann sagt, ist gut oder ist schlecht. Genau, das sind so Teile der Punkte, die da mit reinkommen. Du hast jetzt angesprochen, ihr habt quasi drei Dimensionen
rausgearbeitet, wollen wir da mal so ein bisschen rein? Können wir gerne machen, genau. Also ganz grob ist der Gedanke, wie gesagt, die dritte Dimension, so hatte ich es hier auf dem Quest auch vorgestellt, da sind wir noch ein bisschen am Arbeiten, das Ganze ist ein Work in Progress, wir werden da auch zeitnah, je nachdem wann die Folge gesendet wird, ist es schon da, können wir mal so rum sagen, auch dazu Dinge ins Ökosystem zu spielen,
also wir sehen uns tatsächlich, da kurzer Ausläufer in die Richtung, sehen uns auch als ein Player, der versucht, da Dinge mit ins Ökosystem zu spielen, also gerade auch in der Vermittlung zwischen Unternehmen und Regulatorik, wir sind nicht die Regulatorik von unserer Seite, sondern wir stehen da zwischendrin eigentlich und haben zum Beispiel den AI Risk Navigator als Tool mit ins Ökosystem gespielt, kann man kostenlos nutzen zur Risikoklassifizierung
und das ist sozusagen ein Baustein und der zweite Baustein, den wir da jetzt entwickelt haben und dann auch zeitnah publizieren werden, ist eben diese Matrix und die hat erst mal zwei große Dimensionen, die einerseits auf der X-Achse die Prüfdimensionen anschaut und ordnet und strukturiert, das ist glaube ich auch so einer der wesentlichen Neuerungen, können wir gleich noch ein bisschen eingehen, das ist praktisch die unterschiedlichen Dinge,
die ich an dem Ding messen will, an dem KI-System messen will, also wenn man so will, die unterschiedlichen Sensoren, die ich da dran halte, also ein Sensor, der irgendwie für Farbe oder für Größe oder für Gewicht, wenn man es jetzt ins Physische übertragen würde, sensitiv ist und dann hat man auf der Y-Achse, hat man quasi die Prüfbereiche, die Prüfgegenstände und dann haben wir gesagt, okay, da gehen wir im Grunde relativ klassisch vor, einfach
den Software-Lifecycle durchzugehen, also von der Inception-Phase bis zum Retirement, natürlich gedoppelt oder also für die beiden Wege, einmal Data-Lifecycle und Model-Lifecycle, die sind natürlich beide aufgenommen, das ist glaube ich ein bisschen, ist natürlich letztlich ein Unterschied, weil die Notwendigkeit der Daten im Entwicklungsprozess, das ist sicher ein Unterschied zur klassischen Softwareentwicklung und das heißt, dann haben wir praktisch
eine zweidimensionale Matrix erstmal und können dann hier die einzelnen Prüfdimensionen, die einzelnen Kriterien in einer Maximal-Kombinatorik auf die einzelnen Prüfbereiche praktisch mappen.
Das ist bewusst ein Maximalfeld und es ist nicht der Gedanke, dieses Maximalfeld jetzt im Gießkannenprinzip aufzufüllen praktisch mit Prüfressourcen, sondern eben bewusst zu wissen, kriegen wir da so etwas hin wie einen vollständigen Überblick, indem wir dann wieder sagen, jetzt gehen wir wieder runter und konzentrieren uns auf bestimmte Aspekte und bestimmte Kombinationen sind natürlich weniger sinnvoll, andere sind sehr, sehr wichtig.
Also wenn ich mir, was weiß ich, wir haben dann während der Operations-Phase den Output und wir haben zum Beispiel als Prüfkriterium Performance, wie es jetzt im EREGT auch definiert wird, klar, das ist eine unglaublich wichtige Sache, die muss man sich sehr im Detail angucken.
Oder zum Beispiel, wenn man bestimmte Dinge hat, wie die Frage nach Bias, das ist natürlich gerade in der Datenphase, also bei dem Data-Lifecycle extrem wichtig, da muss man viel wissen, viel angucken, wie man das im Einzelnen anschaut.
Genau, das sind so die ersten beiden Dimensionen und dann ist die dritte Dimension noch der Versuch, dass man tatsächlich auch die Prüfformen ein Stück weit unterscheidet, weil das eine ist natürlich sozusagen, deswegen ihr auch hier heute, wir sind hier, wirklich das konkrete eigene Testen, also ich habe das Produkt quasi auf dem Prüfstand, der Typ würde sagen, wenn ein Auto auf dem Prüfstand steht, das ist die konkrete Produktprüfung, was muss
ich da machen, also wie muss ich mein Messwerkzeug anlegen, welche Grenzwerte sind da wichtig zum Beispiel und das zweite ist aber dann auch eine Prüfung anhand von Dokumentation, also dass man sozusagen eine zweite Ebene hat, wo man sich stärker das anguckt, weil EIEC zieht an vielen Stellen vor, dass eine technische Dokumentation überprüft wird, also dass dritte diesen Test durchgeführt hat, also der Anbieter hat seine Performance-Accuracy-Tests
durchgeführt und dann ist es eigentlich nur noch die Evaluierung dieser Dokumentation, ist dieser Accuracy-Wert gut, aber ich muss natürlich, um sowas an der Dokumentation bewerten zu können, muss ich natürlich das Verständnis des Testens trotzdem haben, also ich muss ja trotzdem, hat der den richtigen Test angewendet, sind die Werte, die da rauskommen, sind die plausibel, passt das alles zusammen, passt die Interpretation, die da anschließt möglicherweise
oder nicht, das heißt, ich muss die Dinge im Kern verstehen und die dritte Ebene, die wir da ansetzen werden, beziehungsweise die eventuell auch ein bisschen anders gelagert sein wird, deswegen Work in Progress, ist diese ganze Frage natürlich auch der Prozesse, die geprüft werden, also die ganze Frage Prozessprüfung, Personenprüfung und so weiter, das spielt natürlich im Zweifelsfall auch, also Risk Management, Quality Management spielt sowieso
eine große Rolle, aber dann im Zweifelsfall auch Personen, also wir haben diese KI-Kompetenz im Artikel 4, KI-Verordnung, aber auch so bei Human Oversight, also das ist auch eine Dimension im EREGT und auch in dieser Prüfmatrix, das ist natürlich eine Sache, da kommen sehr, sehr schnell menschliche Kompetenzen, da kommen auch Personenprüfungen mit rein, das heißt, okay, die ist ja ganz, ganz klar auch in Artikel 26 gesagt, die Betreiber müssen sicherstellen,
dass die Personen, die Human Oversight haben, beziehungsweise das KI-System nutzen, im Zweifelsfall auch eben die entsprechende Expertise haben und das heißt plus minus, muss eigentlich dann, auch wenn die Betreiber jetzt nicht direkt einer Konformitätsbewertung unterliegen, aber das heißt plus minus eigentlich auch, dass man gucken muss, ja, welche Kriterien sind denn eigentlich wichtig, wie prüft man die menschliche Kompetenz, also auch das ist
sozusagen eine Ebene, aber der Kern liegt erstmal sozusagen auf der X- und Y-Achse, prüft Dimensionen gegen den Lifecycle und gerade bei der X-Achse, da können wir vielleicht noch ein bisschen mehr drüber reden, ist sozusagen da, da liegt das Herzstück. Genau, da würde ich gerne noch mal ein bisschen rein, hast du da so ein paar noch Beispiele, was sich da so aufspannt? Ich glaube, das ist etwas, wo wir gerade aus Testqualitätssicht auf einmal so ein bisschen andocken können auch.
Ja, gerne, ja genau, also der Gedanke dort ist, wenn man so ein bisschen rumschaut, gibt natürlich viele, gab viele Diskussionen, gibt viele Diskussionen, diese Frage "Trustworthy AI, KI-Qualität" und nach unserer Wahrnehmung kriegt man dann häufig so einen Strauß an Prüfdimensionen, so "Ja, das muss robust sein, das muss fair sein, die Performance muss stimmen, das muss sustainable sein" oder so, da kommt so ein Strauß und wir haben uns
ein bisschen gefragt, das sind sicher alles wichtige Aspekte, aber in welcher Verbindung stehen die zueinander, sind das alle, warum genau die zum Beispiel und haben dann eben nach einem Weg gesucht, das Ganze ein bisschen zu strukturieren und dann eine systematische Ordnung reinzukriegen und die Idee ist letztlich wieder ausgehen von Russell Norwick von diesem Akteursbegriff, wir gehen sagen, okay, wir haben letztlich zwei Arten von Akteuren, wir
haben menschliche Akteure, also wie du und ich, menschliche Individuen und dann haben wir KI-Systeme, die jetzt auch so eine Art quasi Akteursstatus bekommen, wir tun jetzt mal so, als wären das eigene Akteure und dann ist der Gedanke, ich nehme ein einzelnes KI-System, das ich mir betrachte und versuche dann immer weiter raus zu zoomen, bis ich letztlich auf einer globalen Skala bin, ich werde es gleich noch ein bisschen detaillieren
und versuche auf dem Weg dieses Herauszoomens, versuche ich sozusagen zu gucken, welche Prüfkriterien, welche Testdimensionen kommen da eigentlich in den Blick und das fängt wirklich ganz bewusst auch sozusagen im Innersten des KI-Systems an mit Sachen, die wir heute nicht primär in den Blick nehmen werden und sollten, also die Fragen, ist das echt spontan, also ist das echt autonom wie ein Mensch oder hat das irgendwie ein bewusstes Innenleben,
das könnte man theoretisch abfragen, aber das ist sozusagen, da sind wir bewusst schon in dem Bereich, den wir nicht angucken, aber das wäre so das Innerste und dann gehen wir langsam nach draußen und schauen uns an, wenn dieses KI-System eben nach außen wirkt, dann kommen so Sachen wie Performance, also das System erstmal, wie es nach außen seine Funktionen bringt, ich gucke mir diese klassische Safety-Frage an, also wie weit ist das System ungefährlich
in seiner Wirkung nach außen erstmal und dann gehe ich ein Stückchen weiter raus und gucke mir das System von außen erstmal an, wenn es um Einwirkung auf das KI-System selbst von außen geht und dann sind solche Sachen spannend wie Robustness, also unintentionale, zufällige Einflüsse, das typische Beispiel, schlechtes Wetter oder irgendwie verschmutztes Straßenschild und so weiter oder aber auch Dinge, die wirklich ganz bewusst, also maliziös,
die ganze Frage von Security, Cybersecurity, also wenn jemand wirklich versucht von außen, also wie prüfe ich dann Cybersecurity, ist ja klassische Anforderung, also klassisch, Anfang August ist es mobilisiert, aber Cybersecurity als eine der wichtigsten Kriterien in Artikel 15 und so geht man ein Stück weiter, als nächstes, zooms eins weiter raus und sagt, jetzt nehmen wir mal ein menschliches Individuum dazu, dann können wir uns überlegen, was
ist eigentlich in der Konstellation wichtig, also das heißt, ich habe jetzt das menschliche Individuum und das können wir jetzt mal gucken, wenn das von außen, was kann denn das zum Beispiel wissen von dem KI-System, da kommen wir in diesen ganzen epistemischen Bereich von Explainability, Transparency und all diese Fragen ein, also wie weit kann und da können wir dann unterscheiden, eher zwischen Expertinnen und Experten und zwischen Laien, also was kann
der Otto-Normal-Nutzer, was kann der verstehen oder was kann ein Experte, eine Expertin verstehen, also den ganzen Bereich und dann können wir wieder in die andere Richtung gehen, jetzt wirkt sich das KI-System wieder auf dieses einzelne Individuum auf und dann sind solche Fragen wie Privacy eine große Rolle oder Nudging, also dieses KI-System und so ein bisschen unbewusst, ja zum Teil auch nicht dürfen nach Artikel 5, aber da gibt es ja
graue Weisen, auch das kann man sich zum Beispiel angucken und dann gehen wir wieder weiter raus, dann haben wir zwei Individuum, ein paar Individuum und dann kommen diese ganzen ethischen Fragen rein, Fairness, Nichtdiskriminierung, Bias, also KI-System unterscheidet zwischen zwei Individuum und sagt, kriegst du den Job oder kriegst du den Job zum Beispiel, ja oder wird Individuum A viel viel besser behandelt als Individuum B, obwohl die sich eigentlich
gleich sind, also gerade wenn man die als zwei Test-Individuum quasi begreifen würde.
So und dann kann man immer weiter rausgehen, dann noch auf ein gesellschaftliches Level und zum Schluss global, das geht dann ein bisschen weiter weg, je nachdem was man sich anschaut auf Fragen, wenn es im gesellschaftlichen Kontext der Fall ist, so Fragen der Accountability, also Verantwortlichkeiten, das sind dann eher juristische Fragen, aber sozusagen um das Feld im Ganzen zu kriegen und dann auf der globalen Skala letztlich sozusagen das Menschliche,
die globale Menschheit und das natürliche Ökosystem, wo man sich ja ganz viele Fragen stellen kann, die so in Richtung zum Beispiel, also wenn man sich Menschen anguckt, Lieferkettenverantwortung, also wie sieht es zum Beispiel, dann wären wir wieder in der Trainingsphase oder in dem Bereich Training, wie sieht es mit Arbeitsbedingungen bei Data Labeling beispielsweise aus oder dann im ökologischen Bereich auf der Skala, wie sieht es mit dem Energie- und Ressourcenverbrauch
im Hardware-Software-Bereich bei diesem System aus. Genau, so ist das praktisch aufgespannt.
Wir können jetzt natürlich, also jemand wie Nick Bostrom spielt ja noch damit, dass die KI auch irgendwie interplanetar unterwegs ist, das machen wir weg, aber das ist sozusagen der Gedanke vom kleinsten KI-System bis auf die planetare Skala und da ist der Versuch, die dort zu ordnen und aufzureihen und wie gesagt, das ist erstmal nur der Versuch, an ein Maximalsystem, das ist nicht der Gedanke, wir können das jetzt mit der Gießkanne alles
gleichzeitig auswählen, aber einfach mal zu wissen, okay, damit können wir das ordnen und dann können wir uns bewusst entscheiden, hier, das ist wichtig oder wir sehen, da sind bestimmte Flecken, das ist ganz wichtig, wir haben dann auch, sind dabei die Anforderungen des AI-Acts, soweit sie direkt ans KI-System sich richten, da rein zu mappen und dann sieht man eigentlich ganz schön, so in welchen Bereichen fordert der AI-Act eigentlich was
und das ist auch ein Learning für uns, als wir das jetzt gemacht haben, so dieses "Es ist alles reguliert, es ist alles", nein, also das ist einfach nicht der Fall, man sieht bestimmte Bereiche, gerade zum Beispiel dieser Bereich, wo es um die Erklärbarkeit geht, da gibt es so ein paar Andeutungen, aber da gäbe es sozusagen auch noch viel mehr, was man fragen könnte, was man zum Teil technisch auch noch nicht kann, das ist natürlich auch
noch der Punkt, ich glaube, das ist auch so ein bisschen der Hintergrund, warum das in der KI-Forderung, glaube ich, ganz klug, dass man nichts gefordert hat, wo man im Moment sagt, wir wissen nicht, was kommt. Wir wissen nicht, was kommt und wir wissen, um mal ehrlich zu sein, wissen wir auch noch nicht hundertprozentig, wie es geht und ob es geht, ich meine, da werden ja gute Fortschritte gemacht, aber dass man da nichts einfordert, was man dann tatsächlich einfach nicht machen kann.
Genau, das ist so der Versuch, dieses ganze Feld systematisch zu strukturieren und das ist ein Vorschlag, wir haben hier schon viele am Quest-Tag schöne Diskussionen gehabt und natürlich ist dann immer der Punkt, ja, vielleicht könnte man das eine woanders reinbringen und so weiter, das ist klar, aber einfach mal der Versuch, eine systematische Struktur reinzubringen und auch tatsächlich ein vollständiges Set an Definitionen zu haben, das ist, glaube ich, ganz wichtig.
Also es gibt sozusagen zu jeder der Prüfdimensionen schlagen wir eine Definition vor, die wir versuchen, soweit das geht, mit dem, was sozusagen gerade auch an internationaler Normung, KI-Verordnung und so weiter da ist, aber um ein komplettes Set einfach zu haben, das in sich erstmal stimmig ist, weil das nach unserer Wahrnehmung doch entscheidend ist, dass man klar macht, was prüft man, was wollen wir uns ganz genau angucken und nicht nur dieses Schlagwort hat,
gerade zum Beispiel der Unterschied zwischen Fairness und Nichtdiskriminierung, AIH spricht in den Artikeln nur von Nichtdiskriminierung einmal in Artikel 10, Fairness ist nur ein Erwägungsgründen und da sind schon bestimmte Feinheiten drin, die man eventuell auch anders nennen kann dann, aber wo man einfach sagen muss, was meint man jeweils damit, also meine ich zum Beispiel das, was gesetzlich vorgeschrieben ist über AGG oder dann über die EU-Charta
an Nichtdiskriminierungsvorschriften oder meine ich, das ist je nachdem, wen man fragt, in diesem Fairness-Begriff dann involviert, dass man unterschiedliche Fairness-Konzepte von einzelnen Menschen, Gruppen und so weiter versucht abzuprüfen und die sozusagen über das, was im Gesetz geht, hinausgehen, möglicherweise sogar mit dem in Spannung stehen und auch mit wechselseitigen Spannungen stehen und da ist natürlich klar, dass man sehr genau
klar macht, was gucke ich mir jetzt gerade an, weil also spätestens in dem Moment, wo Vorstellungen widersprüchlich sind, ist klar, dass ich nicht auf beides, dann kann ich kein System haben, was ich auf beides testen kann, erfolgreich testen kann. Ja und gerade mit Fairness ist es ja so, das ist ja auch, wir hatten ja schon eine Podcast-Folge dazu auch in der Vergangenheit über faire KI, das ist ja gar nicht so einfach, weil allein schon was heißt fair?
Genau, genau und ich glaube, auch da muss man unterscheiden, dass man sagt, wir können schon definieren, plus minus vermutlich, was wir mit Fairness meinen, aber welches Fairness-Konzept jetzt das Richtige oder ein Richtigeres wie das Andere ist, das ist nochmal eine ganz andere Frage. Ich meine, das sind, am Ende des Tages diskutieren wir da gerade wieder wie in so einem Brennglas Fragen, das sind sehr, sehr alte Fragen. Ja klar, das sind alte Fragen, der Gerechtigkeitsbegriff und so weiter.
Sehr spannend, ich finde es gut, seine Perspektive auch, die ist ein bisschen geschiftet quasi von den klassischen Qualitätskriterien oder Prüfkriterien hin zu diesen, was du mit diesem Raussummen meinst, wo es auch um die Interaktion geht, um den Kontext, das von der Seite zu betrachten, das spannt für mich ein total logisches Muster auf, das man dann nutzen kann. Lass uns nochmal kurz, diese Y-Achse ist dann quasi der, wo im Prozess ich mir das zum Beispiel anschauen kann, oder?
Genau, also in welchen Bereichen des Lifecycles das besonders relevant wird. Ist aber ganz wichtig, das meint nicht den Zeitpunkt des Testens, sondern es meint den Fokus des Testens. Also setzt natürlich dann im Zweifelsfall voraus, dass es irgendwie dokumentiert worden ist.
Also ich kann mir zum Beispiel sagen, naja, ich gucke mir jetzt die Prüfdimension Robustness an und will mir gucken, ist da irgendwie in der Systemarchitektur, sind da entsprechende Vorkehrungen getroffen worden in den Designentscheidungen, die das entsprechend begünstigen oder da mögliche Schwachstellen hinlegen.
Dann kann ich natürlich sagen, okay, da wäre die Prüfressur wahrscheinlich eher so eine Frage, Form von Checkliste oder irgendwas, dass ich mal abfrage, ist das und das passiert oder das und das nicht passiert. Und das setzt natürlich aber, wenn ich das prüfen will, wiederum voraus, dass sie damals in der Designphase das einigermaßen gut dokumentiert haben. Aber das ist ganz wichtig, dass das nicht den Zeitpunkt des Testens, des Prüfens meint, sondern den Fokuspunkt.
Oder wenn ich einen Trainingsdatensatz habe, dass der natürlich irgendwo noch da sein muss, damit ich noch prüfen kann. Das ist sehr spannend. Ich kann einen Punkt noch kurz ergänzen zu dem, was wir auf der X-Axis gesagt haben. Ich glaube, es ist relativ interessant, dann auch diese technischen und ethischen, man sagt ja immer so die technischen und ethischen Kriterien, die mal so ein bisschen auf eine Skala zu bringen und sich dann auch aber klar zu machen, worauf man sich fokussieren will.
Also ich meine, man kann es dann wahrscheinlich nicht alles und vielleicht auch nicht alles im gleichen Maße prüfen. Also dass man es aber einfach mal zusammen hat und dann sich wieder bewusst entscheiden kann. Das ist eigentlich die Grundidee. Ja, das ist eine schöne Analogie, finde ich, auch zu den, wie ich auch gerne Testkonzepte mache. Ich sage, okay, wir haben alle Qualitätskriterien, alle Teststufen und dann habe ich immer den Maximalausbau und dann überlege ich, wo macht es denn Sinn.
Wo gehe ich rein und wo mache ich etwas damit? Dass man sich bewusst entscheidet. Sehr spannend. Was sind denn so die Next Steps oder die großen Meilensteine, die ihr jetzt mit dem, was ihr da noch vor euch habt? Naja, wir haben, da sind ich zum Teil, aber auch verschiedene Kolleginnen und Kollegen im Team, wir haben ja wie gesagt diesen großen Vorteil, dass wir eine Multiperspektivität haben, also was die Disziplin angeht.
Und jetzt ist sozusagen der Next Step, das ist mehr so ein Top-Down-Gedanke erstmal, allgemein und wir müssen das natürlich runter konkretisieren, weil natürlich die Robustheit von einem System in Operation, prüfst du nicht für alle Systeme gleich, sondern da muss man jetzt genau gucken und da ist diese große Challenge der richtigen Flughöhe, dass man die Dinge so allgemein wie möglich natürlich versucht zu formulieren, zu fassen, aber gleichzeitig
so konkret wie nötig, dass du es auch wirklich testen kannst. Deswegen sind wir jetzt so der Next Step, das Ganze Bottom-Up und das sozusagen auch mit weiteren Aspekten unseres Frameworks, das wir entwickeln, sozusagen zu verschrauben. Ja, das sehen wir dann vielleicht beim nächsten Q&A-Tag oder so. Schauen wir mal. Ich habe abschließend noch eine ganz andere Frage.
Ich weiß ja, dass dein Hintergrund die Philosophie ist und da würde ich gerne wissen, was sagt denn so der Christ der Philosoph, wenn er so auf dieses ganze Thema KI schaut? Was ist da so deine Assoziation, dein Gedanke? Unglaublich spannend.
Also das war wirklich, ich habe Informatik, meine zweite Leidenschaft, so seit 11/12 irgendwie angefangen mit C++, selber so ein bisschen Spieleprogrammierung gemacht, viel und lange übers Internet in die damals noch kleine deutsche Community in dem Bereich und das war super spannend und deswegen das habe ich immer mitverfolgt und dann war so 2016 dieser Alpha Go Moment war so einer, wo es, okay, da ist mehr dahinter, glaube ich. Das ist wirklich spannend.
Ich habe mich damals mit einem Mathematiker auf einer Tagung unterhalten und da sind wir wirklich den ganzen Abend diskutiert und habe dann immer stärker natürlich immer mit dieser Doppelperspektive das Technische zu durchdringen und aber auch das Begriffliche und habe dann irgendwann gemerkt, dass es wirklich das Hochspannende ist, dass da, wie ich vorhin sagte, in dieser KI-Frage sich ganz viele Fragen, die wir uns seit tatsächlich zweieinhalb oder je nachdem,
wenn wir in den indischen Kontext gehen, ja noch viel, viel länger beschäftigen als Menschen, dass wir uns das jetzt in diesem Spiegelbild KI, die irgendwie doch auch sowas wie kognitive Kapazitäten ausbildet, da ganz, ganz viele Fragen total pointiert nochmal betrachten können.
Also das ist, das ist sozusagen auch aus der philosophischen Perspektive, ist das ein unglaublich interessantes Gespräch, also ein interessanter Gesprächspartner, wenn man so möchte, dieses Thema, weil es ganz, ganz viele Fragen nochmal zuspitzt, nochmal auch durch die Skalierung und all das, was da technisch dahinter ist, zusammenbringt. Also das ist, da können die beiden Felder viel voneinander lernen.
Von der einen Seite, glaube ich, wird manchmal so bestimmte Begriffe, wenn man so ein bisschen schnell, ja das ist ja klar, da gibt es im philosophisch-systematisch-ethischen Bereich lange viele Diskussionen, also auch viel Forschung und auf der anderen Seite ist manchmal so ein bisschen schnell, oh das ist ja Blackbox und fertig, so einfach ist es auch nicht, was da genau Blackbox ist, was in dem Modell, ist denn da eigentlich Blackbox, weil wir
im Grunde haben alle Informationen über ein neuronales Netz, wir wissen nur nicht, warum diese ganzen Informationen das machen, was sie tun, aber es ist im strengsten Sinne ist es keine Blackbox, wir haben alle Infos, da ist nicht irgendwo ein Informationsverlust in dem Sinne und dass man das wirklich von beiden Seiten her mit der entsprechenden Tiefe und Stringenz und da bin ich, da hat unsere Geschäftsführerin, die Franziska Weindauer,
wirklich ein tolles Team zusammengestellt, dass wir wirklich die Möglichkeit haben, das aus den unterschiedlichen Perspektiven so in den Blick zu nehmen. Ich glaube, das ist total wertvoll. Das ist unglaublich, also das macht jeden Tag riesig Spaß und tolles Team, was wir da zusammen haben und dann kann man da wirklich das immer von beiden Seiten oder so vielen Seiten gleichzeitig sehen, also lohnendes Feld.
Chris, vielen Dank, dass du hier Rede und Antwort gestanden hast, das war total informativ, hat mir noch mal ein spannendes Bild jetzt auch gegeben, eine Struktur mag ich auch gerne, muss ich da mal ein bisschen reinführen, ich bin gespannt, das weiter zu verfolgen, was ihr da so schafft und auch dann quasi weiterentwickelt. Ich danke dir sehr, dass du da warst, es geht so bald in die Endkino, aber du musst dann glaube ich auch bald los. Ich muss auch gleich los.
Ja, genau, also dann wenden wir hier, vielen Dank und bis bald. Danke dir. Ciao. [Musik]