Hallo und herzlich willkommen zu einer neuen Folge vom Podcast Software Testing. Ich bin euer Host Ritschi und habe wieder eine Folge von den Software Quality Days 2024 aus Wien mitgebracht. Bei mir zu Gast war Valentin Dallmayr. Mit ihm habe ich über Barrierefreiheitstests gesprochen und wie künstliche Intelligenz da unterstützen kann. Aber auch generell, wie er mit seinem Unternehmen an die Produktentwicklung rangeht, was ich auch sehr spannend fand. Und jetzt viel Spaß bei der Folge.
Hallo Valentin, schön, dass du da bist. Hallo, grüß dich. Ja, Software Quality Days, Tag 2, es geht langsam dem Ende zu. Und wir machen jetzt noch eine schöne Podcast-Folge zum Thema. Ich habe gar nicht gewusst, dass wir diese Folge machen, weil ich habe so in der Speaker-Liste, in der App-Stack-Liste, da gab es einen Slot Barrierefreiheitstests irgendwas mit KI und da war kein Speaker genannt. Und ich dachte,
na gut, aber den will ich bei mir im Podcast haben, wer das auch immer ist. Und dann kam erst später raus, dass du das machst. Ja, genau. Das liegt vielleicht so ein bisschen daran, dass wir, also die Damen, die das hier organisieren, die müssen immer sehr leiden darunter, dass ich mit meinen Zulieferungen immer recht spät bin. Irgendwann mal sagen die, jetzt bist du echt, also sorry, wir haben es jetzt mal als Thema zumindest draufgesetzt,
du hast mir noch keinen Speaker genannt. Ja, ja, okay. Ja, schön. Also es war ein bisschen ein Überraschungsei für mich, aber umso mehr freue ich mich. Und die Schokolade hat schon mal geschmeckt und jetzt schauen wir mal, was wir draus machen. Du hast ja auch diesen Vortrag dazu jetzt schon gehabt, Barrierefreiheitstest mit KI. Das ist natürlich doppelt spannend, weil zum einen Barrierefreiheit ja gerade, sagen wir mal, das Damoklesschwert über viele
Unternehmen hängt auch. Nächstes Jahr, im Juni oder so, ist ja der Stichtag. Und zum anderen KI, eh ein Thema, was gerade viele bewegt. Und ja, ich würde sagen, ich übergebe dir einfach mal das Wort, wie bist du da zu dem Thema gekommen oder was hast du denn in dem Bereich, wie geht es denn da voran?
Also, wir sind ja eigentlich schon seit zehn Jahren als Firma unterwegs, immer mit dem Anspruch, dass wir halt, was das Thema Testen angeht, versuchen wir halt über Technologie halt Lösungen zu schaffen, um den Menschen die Arbeit irgendwie letzten Endes zu erleichtern, um besser testen zu können. Und wir hatten tatsächlich schon, also wir haben immer so ein bisschen rumgemacht mit, was kann man denn so aus so einer Webanwendung raus analysieren,
extrahieren an Daten, Layout-Daten und so. Und wir hatten tatsächlich schon vor vier Jahren hatten wir eine Bachelorarbeit, die sich mal so ein bisschen mit dem Thema befasst hat, was kann man denn eigentlich so an Barrierefreiheitsinformationen auch aus so einer Webseite rausziehen. Von daher war das Thema jetzt nicht so ganz neu für uns. Und wir sind ja in diesem ganzen Bereich jetzt auch schon ein bisschen länger mit unserem Produkt unterwegs. Wir stellen so Testinfrastruktur zur
Verfügung für unsere Kunden. Und für die armen Menschen, die wie wir irgendwie schon lange unterwegs sind, auch so ein Testing-Tool verkaufen müssen, wollen, das ist schon so ein zähes Geschäft. Und dann haben wir irgendwann mal unsere Fühler ausgestreckt und haben so gesehen, da ist so die Regulatorik am Horizont. Und dann haben wir uns die nochmal ein bisschen näher angeschaut und es ist ja schon so, dass es dadurch auch Konsequenzen gibt, wenn man gegen diese Regeln
verstößt. Und da haben wir gesagt, also A, denken wir, das ist ein Thema, wo wir was machen können und B, denken wir, es ist anders als so viele Testing-Sachen. Das hat schon so einen verpflichtenden Charakter. Und lass uns da mal einfach auch was machen gehen. Das heißt, das Thema war uns vertraut.
Ich komme auch, ich habe vom Hintergrund her, also diese ganzen Regulatoriken, die im Testing-Bereich oder generell im IT-Bereich jetzt rollen, die DORA kommt ja auch noch dann jetzt an, was ja auch so das nächste Thema ist und so. Und ich rede immer viel mit Banken und Versicherungen und das ist ein großes Thema einfach seit Jahren immer. Von daher habe ich auch gemerkt, die wissen auch, dass es jetzt seit
20, also 2025 wird es für die auch verpflichtend. Im öffentlichen Bereich ist es ja auch schon verpflichtend und da merkt man dann halt auch, wenn man auf die Ausschreibungsportale schaut, da waren ja in der jüngeren Vergangenheit auch einfach Testing-Aufträge in Größenordnungen an PT. Das ist ja schon einfach beeindruckend, wie viel da zu tun ist. Also es ist einfach viel.
Da geht viel. Also spannendes Thema. Wir denken, wir können was machen. Also haben wir gesagt, okay, wir versuchen in diesem Bereich mal zu verstehen, wie läuft das überhaupt so ab, wenn man so einen Barrierefreiheitstest macht und wie kann man den dann halt einfach, wie kann man den verbessern. Und jetzt ist es so, also von der ganzen Regulatorik, die da so am Start ist, da gibt es Länderverordnungen, da gibt es EU-Recht und da gibt es eigentlich auch so
internationale Normen, die WCAG. Und die hat eigentlich einen sehr gut definierten Kriterienkatalog auch, was alles gelten muss, damit eine Webseite barrierefreier ist. Und das haben wir uns mal angeschaut und diesen ganzen langen Kriterienkatalog mal auch da eingehend durchforstet. Was kann man denn, für welche Kriterien kann man denn eigentlich überhaupt sich vorstellen, dass dort eine
Automatisierung denkbar ist. Und da gibt es durchaus einiges, also so ungefähr, also so viel ist es jetzt aber auch nicht, es sind so über 80 Kriterien und aktuell geht man davon aus, dass so um die 20, 25 sind jetzt so mit Standardwerkzeugen, also gibt es durchaus auch Open-Source-Tools, die da ganz gut sind, die so von den meisten jetzt auch eingebunden werden.
Die können da schon einiges. Aber so richtig so das, was in den letzten anderthalb, zwei Jahren auch als KI durch die Presse gegangen ist, diese ganzen Transformer-Sachen, da hat man dort noch nichts gefunden. Und da war dann so der Gedanke, okay, wenn man jetzt das nehmen kann, was man offensichtlich irgendwie so durch Datenextraktion, also man kann sich zum Beispiel so Kontrastwerte
irgendwie dann aus dem Rendering rausziehen, was man damit irgendwie automatisieren kann. Und was kann man denn zusätzlich dazu durch den Einsatz von, ich sage jetzt einfach mal GPT, weil es die allermeisten ja auch einsetzen aktuell, weil es auch immer noch für uns tatsächlich jetzt in unseren Experimenten leider noch der Goldstandard ist. Was kann man damit noch erreichen? Und das
sind also so, wenn man auf den Titel des Vortrags schaut, sind es so die zwei Elemente. Also einerseits die Idee, den Barrierefreiheitstesten helfen zu wollen und andererseits auch zu schauen, was kann man denn sinnhaft dort zusätzlich zu dem, was an I-Kriterien automatisiert testbar ist, was kann man noch mit KI machen. Und das haben wir dann auch durchaus jetzt, da haben wir auch einen Forschungsantrag eingereicht, der dann auch genehmigt worden ist, was uns sehr gefreut hat auch,
weil es ja auch ein relevantes Thema ist. Barrierefreiheit im Sinne einer Inklusion ist auch eine wichtige Sache. Und das hat uns dann auch, gerade was diese KI-Themen gibt, hat eigentlich auch schon einen relativ guten Fahrplan auch vorgegeben, was wir da alles auch dann an Themen abklappern, ausprobieren können. Das Gute ist, man hat dann auch Ressourcen, die wir dann auch einfach eingesetzt haben, um im Rahmen dieses Projektes dann auch verschiedene Dinge auszuprobieren.
Und so von der Reise her, das haben wir also das letzte Jahr sehr, sehr intensiv auch betrieben, dass wir gesagt haben, erstens, wir gehen mit Menschen reden, deren tägliches Geschäft es auch ist, auf die diese Riesenmenge an Arbeit auch zugerollt ist, die drinstecken, die wissen auch, was wäre denn eigentlich so die Anforderung an so ein Werkzeug überhaupt, mit dem sie arbeiten
wollen würden. Mit denen haben wir viel gesprochen und im Hintergrund dann halt auch geschaut, mit dem, was wir schon seit langer Zeit auch irgendwie tun, wie man Informationen aus so einer Webseite auch extrahieren kann. Ja, was können wir da vielleicht sinnhaft einfach dann noch in so ein LLM irgendwie auch reintransferieren, was kann man dem für Aufgaben geben, was auch so
funktioniert. Genau, das war mal so die große Reise und was jetzt in meinem Vortag eigentlich auch so rausgekommen ist, wir haben dadurch, dass so ein Barrierefreiheitsaudit, da gibt es dann auch, also es gibt nicht nur die Norm, die irgendwie so beschreibt, was man alles an Kriterien erfüllen muss, sondern es gibt mittlerweile so als Addendum, es ist auch schon älter, gibt es so ein Vorgehensmodell
auch, wie macht man eigentlich so ein Audit. Das sind so grob beschrieben so ein paar Schritte, man muss mal erstmal identifizieren, wie sieht so diese Webseite aus, dann muss man schauen, welche Technologien werden denn auf dieser Webseite eingesetzt, was gibt es vielleicht
für verschiedene Arten von Seiten innerhalb dieser Webseite. Wählt sich dann die Repräsentanten aus, nimmt dann typischerweise auch so eine Stichprobe, dass man sagt, okay, ich muss jetzt irgendwie schlau gucken, weil alle 10.000 Seiten kann ich jetzt wahrscheinlich nicht testen, aber ich weiß von dem, was ich da so gesehen habe, es gibt eigentlich so 20 Arten an Seiten und dort suche ich mir dann schlau einfach auch die Repräsentanten aus, schreibe das auch alles auf, die ganzen
Entscheidungen, die ich getroffen habe, damit das hinterher auch nachvollziehbar ist und dann in dem nächsten Schritt prüfe ich für jeden dieser Repräsentanten diesen Kriterienkatalog durch. Der letzte Schritt ist dann eigentlich nur, jetzt schreibe ich das Ganze auf. Also eigentlich
jetzt auch nichts Magisches. Abgeleitet auch aus diesem Vorgehensmodell, das wir eigentlich ganz spannend und transparent und klar fanden, haben wir dann jetzt auch angefangen, das mal so ein bisschen zu skizzieren, wie könnte denn so ein User-Interface, wie könnten so Abläufe in so
einer Anwendung auch ausschauen. Und das war tatsächlich ein super spannender Prozess, jetzt wirklich gar nichts mit diesem zweiten Teil KI zu tun hatte, aber wir haben gemerkt auch, so wie heute, also wie heutzutage diese Barrierefreiheitstests gemacht werden, das ist ein unglaublicher Wust an Werkzeugen, die da zum Einsatz kommen. Da gibt es also, man schreibt die Sachen in Word auf, man hat vielleicht Excel-Tabellen, wo man Seitenlisten
irgendwie so hat. Man braucht später, um Kriterien zu überprüfen, so einen Screenreader. Man hat vielleicht Excel, also das Standard-Open-Source-Werkzeug irgendwie im Einsatz. Das muss man dann auch wieder im Browser aufrufen. Browser braucht man natürlich auch. Da muss man Screenshots machen und einfügen und kopieren. Und da war so unser Learning oder das, was wir abgeleitet haben, das ist eine Riesenmenge und das ist super unangenehm, dort zu arbeiten.
Dann haben wir uns gedacht, ne, würde ich jetzt wirklich nicht wollen. Also gerade noch, wenn es so viele Seiten sind, das macht einfach keine Freude. Also, wie ist das eigentlich bei den Entwicklern? Weil, wenn man mal Entwickler ist, da hat man eigentlich eine ähnliche Herausforderung. Du schreibst einen Code, du hast einen Compiler irgendwie mit dabei. Du hast auch durchaus Tests mit dabei, Test-Frameworks. Du brauchst Ausführungsmöglichkeiten, du hast
vielleicht so eine Datenbank. Wenn du willst wissen, was ist in deiner Datenbank los, dann hast du auch integriert in deiner Entwicklungsumgebung ein Werkzeug für Datenbanken mit dabei. Und wenn man sich auch die modernen IDEs anguckt, die haben auch alle so Plug-in-Architekturen und deren Kerndings ist ja irgendwie, die bringen halt alles zusammen. Eine Anwendung, natürlich
Dark Mode, eine Anwendung und keine Medienbrüche. Alles integriert. Und da haben wir gesagt, an diesem Beispiel Barrierefreiheitstesten eigentlich wäre so eine integrierte Testerumgebung, das wäre eigentlich das, was man haben möchte. Weil dann ist dem Tester wirklich auch geholfen, diese ganzen Medienbrüche sind weg. Man hat eine Anwendung, mit der man arbeitet. Alles geht
schneller, die kann man verlinken miteinander. Man kann Werkzeuge dazukombinieren, wenn neue Dinge dazukommen, ohne dass man irgendwie seinen Arbeitskontext verlassen muss. Ich könnte mal fast sagen, ihr habt Barrierefreiheit umgesetzt. Ja, das stimmt. Also habe ich noch gar nicht darüber nachgedacht, das stimmt. Wir haben Barrieren in der Arbeit mit diesem Modell, mit diesen Werkzeugen dann abgebaut. Genau.
Und das ist jetzt so in der Umsetzung, das habe ich mal gezeigt in meinem Vortrag. Das waren schöne, bunte Folien auch. Nicht an allen Stellen, wo man so Screenshots von so einer Anwendung gesehen hat, waren die tatsächlich auch schon so gebaut, weil wir gesagt haben, das ist eigentlich so eine große, starke Idee, die wollen wir jetzt erstmal so ein bisschen vertesten gehen. Und deswegen war das
eins der Ziele, die ich im Vortrag hatte. Zeigt das mal und dann sagt zu den Leuten, hier ist eure ITI, eure Integrated Testing Environment und dann lassen wir irgendwie drüber reden, über diese Idee auch. Und das hat eigentlich ganz gut funktioniert. Also A, kann man diese Idee gut erklären. B, hat das auf jeden Fall auch Appeal bei den Menschen, die verstehen das. Und C, es hat einen Dark Mode. Das ist ja ein No-Brainer, ne? Das will man
natürlich dann haben. Das war schön. Und das zweite Ziel, einfach auch nochmal zu zeigen in dem Bereich KI, KI-Werkzeuge auch, was geht da sinnhaft? Weil wir haben ja gerade vorhin auch schon ein bisschen drüber gesprochen. Also KI als Halbthema, KI vielleicht als das All-High-Metal, das sehe ich mittlerweile nicht mehr. Also ich bin schuldig im Sinne, dass ich auch letztes Jahr so eine Testautomatisierung mit AI-Vortrag gehalten habe. Habe ich auch gemacht. Wo ja aber insgesamt
aus meiner Sicht an vielen Stellen auch durchaus. Ich glaube, ich habe nicht so viel versprochen. Ich habe ein Beispiel drin gehabt, was durchaus auch beeindruckend war, wo man halt sieht, in der Domäne Sprache, da sind diese Werkzeuge einfach schon ganz gut. Und mit diesem Mindset sind wir dann auch dran gegangen, wie können wir jetzt KI bei Barrierefreiheit einsetzen? Und das haben wir dann so gemacht, dass wir alle sprachlichen Dinge, alle Kriterien, die wirklich
mit Sprachverständnis zu tun haben, dass wir dort den Fokus drauf gesetzt haben. Und zum Beispiel jetzt auch so was machen, wie dass wir den, es gibt zum Beispiel ein Kriterium, dass eine Überschrift zum Text passen muss. Was ja glaube ich auch so für einen menschlichen Tester, das ist wirklich, das ist keine leichte Aufgabe und glaube ich auch keine eindeutige Aufgabe. Da gibt es durchaus so einen Interpretationsspielraum. Aber das haben wir jetzt zum Beispiel auch gemacht.
Das heißt, wir haben ein Werkzeug bei uns, das für so eine gegebene Seite, die man analysieren möchte, Überschriften und dazugehörige Textbausteine identifiziert, extrahiert und mit einem entsprechenden Prompt dann auch an JetGPT im Hintergrund schickt. Und die Ergebnisse, die dort rauskommen, sind wirklich eigentlich durchweg gut. Dass man sagt, wenn man JetGPT bittet, das zu
scoren, zu sagen, wie gut passt denn das? Das ist eigentlich so, das würde ich produktiv irgendwie durchwinken wollen von dem, was wir da an Beispielen jetzt auch in unseren Evaluationen hatten. Das ist ganz gut. Und das finde ich ein ganz vernünftiges Vorgehen irgendwo auch an der Stelle. Wir machen im Hintergrund dann auch noch so andere Sachen. Mit visuellen Modellen haben wir
experimentiert. Das hat jetzt im ersten Schritt nicht so gut geklappt. Also wir hatten zum Beispiel auch so ein kleines Experimentchen am Laufen, wo wir einfach nur über so ein KRJ-Modell rausfinden wollten. Hier ist ein Screenshot von der Seite. Sag mir mal, ob der kaputt ist. Ist da irgendwie so ein, was auch immer alles schief gehen kann, so vielleicht ungebrochen oder so oder was auch
immer. Und das war so als, das muss man erst trainieren, dieses Modell. Und da hatten wir auch für unsere Kunden, hatten wir dann so, ja auch über vier Wochen, glaube ich, so eine kleine Webanwendung offen, wo wir künstlich kaputtgemachte Seiten auch unseren Kunden gezeigt haben und gesagt haben, sieht das für dich kaputt aus oder nicht. Also dieser Labeling-Schritt, den haben wir dann so ein bisschen auch als Wettbewerb für unsere Kunden gemacht. Dann haben wir auch was verlost.
Und mit diesen Trainingsdaten haben wir dann versucht zum Beispiel auch diesen Machine Learner auch mal zu trainieren und dann hinterher evaluiert, wie gut klappt das jetzt irgendwie, wie ist also die Erkennungsgenauigkeit. Und das hat jetzt im ersten Schritt, war das noch nicht so richtig gut. Unser Ziel war so ein bisschen, wir wollten oder was wir spannend fanden, war so die Idee, dadurch, dass super viele automatisierte Tests bei uns auf der Plattform ausgeführt werden.
Wäre es eigentlich schön, wenn man für, ohne dass man irgendwas machen muss, noch so einen Sensor irgendwie hätte, der im Hintergrund mitläuft und bemerkt, dass was auch immer gerade an Webanwendung getestet wird, dass das kaputt ist. Und der Test an und für sich prüft das vielleicht gar nicht, weil wenige automatisierte Tests prüfen so nicht funktionale Sachen halt großflächig ab. Aber der Agent im Hintergrund sagt, oha. Und das war so das Ziel. Das hat jetzt
im ersten Schritt nicht geklappt. Das haben wir auch so ein bisschen im Rahmen dieses Projektes dann ausprobiert. Das sind dann auch Dinge, die halt dann nicht funktionieren. Ja, was mir da einfällt, ist auf meiner Website, ich habe mal so ein Plugin genutzt, das mir für Bilder auf meiner Website diese Alternativtexte erstellt, quasi versucht mit KI herauszuhören, was da drauf und schreibt dann Texte. Da kam aber so viel Grütze raus.
Aber das wäre ja umgekehrt ja auch eine Prüfung, die vielleicht möglich ist, diese Texte zu prüfen gegen den Bildinhalt. Das stimmt. Ich weiß gar nicht, ob wir das gemacht haben bisher, aber so als Idee zu schauen, ist die Rückrichtung auch, funktioniert das auch. Kannst ja gleich ins Backlog aufnehmen. Genau. Schenk ich euch die Idee. Dankeschön. Nehme ich mit. Was habt ihr denn sonst so für Ideen oder Ansätze ausprobiert mit KI in dem Umfeld?
Habt ihr da noch mehr probiert oder Ideen, was ihr noch machen wollt auch? Ja, einiges. So viel, dass wir halt priorisieren müssen, weil diese Experimente, die sind schon immer sehr aufwendig. Da geht viel Zeit rein. Eine Sache, die auch schon aktuell im Werkzeug eingebaut ist, ist, es gibt in so einem Barrierefreiheits-Audit gibt es so den Schritt, ich muss mir erst mal die ganze Web-Anwendung anschauen, erschließen. Ich muss rausfinden, was gibt es denn alles für Seiten. Und auch dieser
Schritt ist ja schon viel Arbeit. Da kann man sich vorstellen, wie so eine Landkarte ja dann eigentlich machen. Wenn man das manuell machen muss, ist schon aufwendig. Deswegen haben wir da so einen intelligenten Crawler auch gebaut, also der so automatisiert ausgehend von einer oder mehreren Statuen ist, sich dann so durch die Anwendung so ein bisschen durchfräst, um diese Landkarte zu erstellen. Crawler sind jetzt irgendwie nichts Neues.
Die haben wir jetzt nicht erfunden. Wir haben bestimmt auch nicht den besten oder so jetzt irgendwie gebaut. Da hat man auch verschiedene Probleme. Wann merkst du, dass du eigentlich irgendwie wieder an derselben Seite vorbeigekommen bist? Eigentlich genau das gleiche Ding. Es ist nur irgendwie oben hat sich ein Datum oder eine Uhrzeit geändert oder es ist eine andere Werbung eingeblendet oder so. Also diese Frage der Zustandsabstraktion ist so ein wichtiges
Ding. Und natürlich dann auch, wenn es an Formulare, an Formulardaten geht. Wie geht man eigentlich so damit um? Das sind aber jetzt keine neuen Probleme, sondern es hat immer so eine Art Herausforderung. Ich habe vor zehn Jahren auch schon Crawler gebaut und das funktioniert immer mehr oder weniger gut. Aber was wir dann gemacht haben auch ist, wir haben einen Crawler gebaut und dann haben wir den jetzt nicht so mega flau gemacht, sondern wir haben
eigentlich gesagt, du rennst jetzt mal los. Und dann haben wir Clustering-Algorithmen auch eingesetzt als Machine Learning Technik und dann halt auf Basis verschiedener Attribute, die jetzt aus Barrierefreiheitssicht wichtig sind, dann diese Seiten zu clustern und rauszufinden, was sind denn irgendwie so sinnvolle Repräsentanten, die wir dann später
untersuchen gehen wollen. Also wo lohnt es sich dann irgendwie auch nicht zehn Seiten abzutesten, weil die eigentlich relativ ähnlich sind, sondern was sind so die, wie wählt man da irgendwie schlau was aus, weil zum Beispiel diese Seite irgendwie ein PDF mit dabei hat oder ein Video.
Das sind die Attribute, die ihr dann quasi zum Clustern genutzt habt. Genau. Und das hat eigentlich so in dieser Kombination, das funktioniert ziemlich gut und spart eine Menge Arbeit auch dadurch, dass man halt dann insbesondere, dass man halt schon viel Information gesammelt hat, die man dann auch dem User einfach präsentieren kann. Also hier sind dann alle Seiten mit PDFs und mit Video und so. Immer mit dem Gedanken im Hinterkopf, wir werden wahrscheinlich nie alle
von diesen 80 WCAG-Kriterien automatisieren können. Also es wird immer manuelle Arbeit auch sein. Und da immer zu versuchen, möglichst viel schon für den User aufzubereiten, ist in dieser Phase, wo wir crawlen und clustern, ist das Sammeln auch dann so eine wichtige Aufgabe. Genau. Also da
kommt ein Clustering zum Einsatz. Und ja, dann gibt es noch verschiedene andere Kriterien, wo wir überlegen, was wir dort noch machen können, wo noch so ein bisschen die Idee fehlt, was eigentlich so die Basis ist, was eigentlich so das sprachliche Modell wäre, mit dem man dann überhaupt arbeiten würde. Genau. Und so vom Projektstatus her ist es so, dass wir diese zwei
Teile einerseits so, was kann man mit KI noch automatisieren? Andererseits so diese UI-Idee, dass wir die momentan zusammenbringen, zusammenbundeln und erstmal irgendwie diese aktuellen Ausbaustufe erstmal soweit fertig kriegen, dass wir sagen, hier ist mal ein Satz an Werkzeugen, der funktioniert. Diese vier, fünf Kriterien, die kann man auch zusätzlich zu dem, was bisher schon geht, auch automatisiert abtesten und dann lieber User, Schemer,
bitte damit arbeiten und sag uns, wie es sich anfühlt. Und alles andere, was man dann noch automatisieren kann, was an Werkzeugen dazukommen kann, das kann dann Schritt für Schritt kommt es dann so dazu. Ja, das ist ein super iteratives Vorgehen, so wie man es ja gerne hat und vor allem auch mit dem Feedback. Also ich finde jetzt sogar auf einer Metaebene, wie ihr das Vorgehen, das ihr wählt, um das eigene Tool weiterzuentwickeln, total charmant, weil das einfach total nahe ist,
auch an den Problemstellungen und an dem Feedback von den Anwendern, die da sind. Und gerade bei KI haben wir ja auch gerade vorher gesprochen, häufig, das ist dann halt die große Keule, die geschwungen wird, aber sich mal Gedanken zu machen, was will ich denn eigentlich für ein Problem lösen oder gibt es ein Problem, was ich damit gerade lösen kann? Die Frage wird ja manchmal gerade gar nicht gestellt und das höre ich daraus, dass ihr euch da sehr
Gedanken auch dazu macht. Genau, das war uns wichtig und so versuchen wir das halt einfach auch zu kommunizieren. Also zumindest meine Wahrnehmung ist so ein bisschen, man macht sich schon so ein bisschen verdächtig jetzt mittlerweile aktuell, wenn man KI irgendwo drauf schreibt oder so, weil es halt einfach zu sehr gehypt ist, mit zu hohen Erwartungen häufig auch daherkommt. Jetzt fragen wir uns ja, wie kombinieren wir das eigentlich? Wissen wir das?
Also an welchen Stellen muss man das irgendwo auch sagen? Wie transparent muss man das dem User machen? Oder freut er sich einfach, wenn er einen Button hat, wo draufsteht Analyze? Und dann kommen halt so verschiedene Kriterien einfach dann schon raus. Was eine spannende Erfahrung auch war, wo wir auch viel ausprobiert haben, jetzt im ersten Schritt, ist, ich habe vorhin schon kurz gesagt, wir haben als Sprachmodell aktuell OpenAI angebunden, weil es einfach gerade mit
diesen sprachlichen Aufgaben bisher wirklich am allerbesten zurechtkommt. Wir sind nicht so happy mit dem, wie stabil OpenAI, die API-Anbindung momentan ist. Also wirklich, wirklich häufig so, dass da die Status-Webseite immer so ein bisschen rot wird und dann haben wir halt Probleme bei uns in der Anwendung. Deswegen haben wir auch relativ früh gesagt, weil wir denken, das wird relativ schnell kommen, dass unsere Kunden sagen, wo schickt ihr denn diese Daten
da eigentlich irgendwo hin? Wo wir sonst sehr, sehr auf deutschen Datenraum beschränkt sind, gibt es halt da momentan Prototypen, gibt es diese Anbindung. Deswegen haben wir gesagt, was kann man lokal machen? Wir haben da auch lokale Sprachmodelle genommen, Lama an dieser Stelle dann auch und das entsprechend erstmal leichtgewichtig trainiert. Das hat aber jetzt noch nicht so gut funktioniert. Also da muss man sagen, es ist einfach OpenAI noch richtig weit
vorne. Es ist ja relativ viel Hoffnung auch auf diesem Thema, dass man sagt, man nimmt eigentlich so ein generell trainiertes, Open-Source-verfügbares, allgemeineres Sprachmodell und trainiert das dann auf den speziellen Use-Case noch hin. Ich glaube, das ist auf jeden Fall ein wichtiges Element für die Zukunft, auch aus Datenschutzgründen. Wir haben es im ersten Schritt noch nicht so richtig gut hingekriegt. Na gut, da ist noch ein bisschen Raum für Verbesserungen dann auch.
Ja, super. Valentin, vielen Dank für diesen Einblick. Das fand ich ganz schön auf verschiedensten Ebenen. Zum einen dieses Integrated Test Environment, IT. Spannendes Konzept. Dark Mode ist natürlich ein Must. Also ich bin jetzt schon Fan. Und auch wie ihr euren Prozess gestaltet, das auch umzusetzen, finde ich granios. Und wie ihr euch da Gedanken macht, wie ihr da unterstützen könnt, dass der Anwender es im Endeffekt einfacher hat,
finde ich einen ganz tollen Ansatz. Vielen Dank, dass du hier warst im Podcast. Ich wünsche dir noch einen schönen Ausklang der Konferenz. Super. Und eine gute Heimreise. Danke, dir auch und vielen, vielen Dank. Danke.