Age of Agents

Shownotes

In dieser Folge nehmen wir euch mit auf eine Reise durch die neue Ära der KI-Agenten. Wir diskutieren, wie klassische Chat-Oberflächen an ihre Grenzen stoßen und warum inspirierende Ansätze aus der Gaming-Welt der Schlüssel zur Kontrolle und zum Verständnis komplexer Agenten-Systeme sein könnten. Mit einer Prise Humor und jeder Menge Praxisbeispiele zeigen wir, wie visuelle Interfaces und orchestrierte KI-Agenten das Arbeiten und Entscheiden neu definieren. Wir sprechen über aktuelle Entwicklungen, ethische Fragen und warum die Skills von Strategiespielern plötzlich im Business gefragt sind. Hört rein, wenn ihr wissen wollt, wie die Zukunft der Mensch-Maschine-Interaktion wirklich aussieht und wie Trust zur größten Challenge wird.

https://x.com/tom_doerr/status/2027791060873711658?s=46

https://x.com/alexfinn/status/2024169334344679783?s=46

https://github.com/pablodelucca/pixel-agents

https://x.com/idosal1/status/2021661865588535599?s=46

Transkript anzeigen

Jens: Hallo willkommen zurück zu einer neuen Folge vom Think Different Think AI. Heute mit dem allseits bekannten und auch immer anwesenden Mark Zimmermann und meiner Person Jens Schanecki. Ich freue mich wie Bolle, dass wir heute eine richtig coole Folge machen, die ich mir schon lange gewünscht habe unter dem Titel Age of Agents.

Mark Zimmermann: Weißt was ich toll finde? Ich glaube, haben zum ersten Mal unseren Vor- und Nachnamen genannt. Wahnsinn! Wahrscheinlich legen jetzt Leute auf und sagen, ach die sind das? Nee, da höre ich nicht zu.

Jens: Verrückt, dass ich auch beides behalten habe und beides richtig aussehen kann. Da will ich nicht zuhöriger die beiden verrückten. Nein, ja, keine Ahnung, warum habe ich einfach ist mir ist mir so abrückwürdig. Ich dachte mal, wir machen mal einen vollen. Ja, H auf Agenz ist natürlich eine kleine Anspielung an Agenz und andere Spiele. Ist auch schon so eine kleine Andeutung in Richtung, wo wir heute darüber reden werden. Es wird in dieser Folge vornehmlich Ulbar. Gestaltung von Oberflächen, Nutzer, Oberflächen, UIs, User Interfaces, wie auch immer man das jetzt alles bezeichnen möchte, gehen in die sehr ähnlich wie in Spielen funktionieren, größere Mengen von Agents zu kontrollieren. Bevor wir das aber machen, gehen wir so ein bisschen auf mal wieder aktuelle Themen ein, was so in den letzten Tagen, Wochen, Fosnach-Check

Mark Zimmermann: Ach, ich dachte Fusselcheck, aber wir haben keine Fussel.

Jens: Fotocheck brauchen wir nicht. Wir haben uns ja selten vertan in den letzten Wochen und Monaten. Also da, wir sind, ist perfekt. Aber ja, es gibt auch eine fast perfekte Vorhersage, die in den letzten Tagen passiert ist. Da wolltest du was von erzählen.

Mark Zimmermann: Die einfach zu gut.

Mark Zimmermann: Man, man, man.

Mark Zimmermann: Also ist jetzt in dem Sinn nicht humoristisch, aber nichtsdestotrotz, ich sag mal beeindruckend, dass Croc, wir kennen es ja, die Lieblings-KI von Elon, den Angriff auf den Iran sehr genau vorhergesagt hat, was den Zeitpunkt angeht. Ich konnte es mir dann nicht verkneifen und einen Post zu schreiben, wo drin stand Croc hat den Zeitpunkt

Jens: Nein.

Mark Zimmermann: gut vorhergesagt, aber was das passiert halt, wenn das Pentagon Croc einsetzt und den Schalter, unsere Daten dürfen nicht zum Training des Modells genutzt werden, vergießt umzulegen, ist wahrscheinlich alles nicht richtig, aber ich fand es trotzdem irgendwie eine Ironie, wenn das Kriegsministerium Croc einsetzt und für den normalsterblichen Croc eine ziemlich exakte Vorhersage über den Eintrittszeitpunkt der

Jens: Ja.

Jens: Ja, das ist schon interessant. Das ist wieder so das Thema.

Mark Zimmermann: kämpferischen Aktivitäten oder wie man das auch mal jetzt nennen möchte. Vorhersagt.

Jens: Das stimmt, ist, gesagt... Auch wenn diese Ereignisse jetzt wieder so schrecklich sind, sie sind, ne, aber das zeigt natürlich auch dieses Thema, was Sie auch schon mal angesprochen haben, Security hin oder her, jetzt auch dieser Gedanke, ob der Weg den Schalter vergessen haben zu legen oder nicht, was auch immer da passiert ist, sei jetzt auch dahingestellt. Aber das Department of War hat ja noch andere KI-Nachrichten in den letzten Wochen produziert. Da gab es noch einiges, was die KI-Zähne... Was haben wir? aufgeregt hat. Also zum einen gab es den Fall, dass letzte Woche bekannt gegeben worden ist oder viele in den Medien waren, dass Entrophic mit dem CEO, dem Dario gesagt hat, sie wollen nicht mit dem Defense Ministerium oder Department of War,

Mark Zimmermann: Department of War

Jens: zusammenarbeiten, weil ihnen nicht zusichert werden kann, die KI, wenn sie die Modelle auch offen an das Pentagon übergeben, dass die KI nicht dafür benutzt werden, eine massenhafte Überwachung durchzuführen, als auch nicht dafür benutzt werden, tatsächlich selbstständig quasi in Kriegseinsätzen Waffen abzuschießen und damit auch Menschen zu töten und etwas anderes.

Mark Zimmermann: Aktiv zu sein.

Jens: konnte nicht versprochen werden. so, ist dementsprechend hat er den Contract eben nicht unterschrieben, hat nicht gesagt, ich offenbare mich komplett und gebe mein Modell für euch komplett frei. Daraufhin ist er, glaube ich, aus allen Sachen rausgeflogen. Das ist, glaube ich, ein 200 Millionen Dollar Contract. Ich glaube, auch Trump und Co. haben sofort gepostet, dass man es auf gar keinen Fall mehr benutzen darf, dass kein Mitarbeiter mehr in Trophy benutzen darf, weil man das ist jetzt ein Teufelzeug und das ist auch, glaube ich, auf die Liste der ...

Mark Zimmermann: Echteten wollte ich schon sagen, ja, aber eigentlich...

Jens: Risiko, ja, ja, nee, der Risiko zu liefern oder sowas gesetzt worden. Das ist schon ein bisschen massiv, was da passiert. Auf der anderen Seite muss man wissen, dass... Genau, Steinbart. Und dann muss man auf der anderen Seite wissen, dass der Angriff auf Individuo ELA, der als Operation, ob man das jetzt gut heißt oder nicht, aber der relativ erfolgreich in dem Sinne.

Mark Zimmermann: sich für zielpressung nennen ich meine das ist ja also ist es mein wort ja ich darf nicht mehr in die starten einreisen danke

Jens: das Wort dafür, quasi gut durchgeführt ist dahingehend, dass Sachen smooth gelaufen sind aus der Sicht der Amerikaner und ihrer Idee, die sie dahinter hatten. Auch das wurde mit der Trophy vorbereitet. Also da die KI tatsächlich im Prinzip aus erordentlich geholfen anscheinend, was da bekannt geworden ist. Deshalb ist es noch bisschen erstaunlicher. Aber es gibt ja nicht nur einen KI-Anbieter auf dieser Welt. Ein anderer ist dann direkt in die Bresche reingesprungen, will ich mal sagen. Unser lieber Sam von OpenAI. Der hat dann kurze Zeit später verkündet, dass er den Vertrag mit dem Pentagon, mit dem Department of War unterschreibt und dass das auch gar kein Problem wäre. Sie würden sich ja daran halten, dass sie im Prinzip keine Massenüberwachung einsetzen. Wobei das natürlich Prinzip so bisschen witzig auch formuliert ist. Also der Tweet von Sam, ist irgendwie merkwürdig. Die Szene hat so bisschen komisch darauf reagiert. Ich weiß nicht, ob du das so mitbekommen hast. Ich hab mir so ein paar Sachen durchgelesen, ein Kommentare durchgelesen.

Mark Zimmermann: Ja.

Jens: Man ist nicht so ganz davon überzeugt, ob da nicht auch in der Art Weise, wie Sam das geschrieben hat in dem Tweet, eigentlich eher drinsteht, dass er nichts anderes sagt als, ja gut, das eigentliche Gesetz sagt ja aus, dass das nicht gemacht werden darf, dass es nicht eine massenhafte Überwachung durch das Militär geben darf und es darf auch keine autonomen Waffensysteme in dem Sinne geben, die selbstständig entscheiden. So wie er das ausgedrückt hat, ist das aber tatsächlich...

Mark Zimmermann: Mhm.

Jens: interpretierbar dahingehend, dass man sagt, gut, so wie Sam das sagt, dann darf natürlich dann trotzdem irgendein General einfach als Human in the Loop entscheiden, dass Abermillionen drohen jetzt einfach tatsächlich selbstständig entscheiden, ob sie jemand angreifen oder irgendwas anderes. Also das ist so bisschen das, gerade, glaube ich, ja, also wirklich ein bisschen wild. Und er hat es dann auch noch in seinem Tweet so dargestellt, dass das ja eine total coole Lösung ist. Dieser Vertrag, er gemacht hat, den jetzt auch allen anderen KI-Unternehmen so angeboten werden kann. Was dann irgendwie total wierd ist, weil...

Mark Zimmermann: Genau.

Mark Zimmermann: Warum heißt die Drohne Opus?

Jens: Das eine, dann Anthrophic mit Davido abgelehnt hat, ist dann angeblich, weil bei Sam dann einfach genau der gleiche Vertrag und der ist jetzt einfach gut, so dass es dann so ein bisschen so Thema, man sagen muss, das muss man beobachten, wie sich das weiter entwickelt. Was wir sehen in der Szene, ich weiß nicht, ob das bei allen so ist, aber was wir sehen in der Szene ist, dass sehr, viele Anwender seit dieser News quasi fröhlich von OpenAI. Also von JGPD wechseln zu Claude, zu Entrophic. Und da gibt es, glaube ich, auch sogar eine Funktionalität jetzt dafür, dass ich das, was im Prinzip vorher ein bisschen schwierig war, ich meine, wenn jemand mal jemals von seinem Spotify-Account zu einem Apple Music-Account oder andersrum gezogen ist, das Portieren von Playlisten ist durchaus manchmal schon ein wenig schwierig. Man braucht dann erstaunlicherweise manchmal eine KI für oder eine Software-Lösung oder so was.

Mark Zimmermann: Kaif, ja?

Jens: bei KI-Umzügen, da hatte ich auch schon immer drüber nachgedacht, ich habe jetzt schon sehr sehr viel Wissen quasi auch meiner Chatshakti offenbart, ja, jetzt damit umzuzählen, ich hatte schon Angst, ich müsste alle Fretts irgendwie kopieren und die rüber kopieren in andere KI, aber da gibt es ja glaube ich eine andere Lösung, da gibt es irgendwie so einen Export oder so, das mag das da eben was, ja.

Mark Zimmermann: Es gibt eigentlich zwei Lösungen mittlerweile. kannst ja sowohl bei Chatschip.it selbst sagen, ich möchte einen Abzug meiner Daten und dann kriegst du einen Hinweis nach dem Motto, wenn es fertig ist, kriegst du Mail und dann hast du eine Mail und hast einen Link und dann kannst du anklicken, kriegst du einen Zip. Kann man jedem mal empfehlen zu machen, egal ob er umziehen will oder nicht, weil dann siehst du erst mal, was die eigentlich tatsächlich alles so von dir aufgehoben haben, was nicht so wenig ist. Wenn du die Funktion so nicht nimmst, weil da ist halt wirklich dann alles drin, was du in deinem gechattet, Dateien und Chats und was weiß ich nicht alles. Wenn du das ein bisschen komprimierter haben willst, bietet dir Claude eine Umzugsfunktion an. Nicht, du da einen Knopf drückst und dann redet er mit ChatGBT, sondern der gibt dir einen Prompt. ein Prompt, der das AI-System anweist, strukturierter Form Daten über dich preiszugeben. Und dann hast du quasi oben ein Promptfenster in ChatGPT. Da kopierst du dein Prompt raus, gehst in... nicht in ChatGPT, in Cloud, ne? Okay, in Cloud hast du einen Prompt. Den kannst du rauskopieren, gehst in ChatGPT, gibst den Prompt ein. Der Prompt weist ChatGPT an, seinem Wissen über dich das Ganze auszufüllen. Das Ergebnis nimmste, kopierste wieder in ChatGP. In Cloud zurück, man, zu viele Worte mit kopieren. Und da drückst Enter und dann aktualisiert er quasi seine Memory über dich. Aber man muss trotzdem sagen, wenn du das in ChatGPT bei OpenAI exportierst, über den Datenexport, das ist, wie gesagt, viel, viel größer, viel, viel mächtiger.

Jens: Alles gut, ganz ruhig.

Jens: Mhm.

Mark Zimmermann: Dafür hast du halt dann das Problem, wie spielst du denn das jetzt wieder ein, weil das passt definitiv nicht in das kleine Textfenster, das dir Claude eigentlich anbieten würde dafür. Aber das sind die beiden Wege, die gehen. Und ich muss jetzt hier mit sagen, der Chat-GPT-Moment fing bei mir an mit KI, aber im Moment habe ich kein aktives Abo bei Chat-GPT, weil ich finde tatsächlich die Modelle und in gebotene Funktionalität gerade nicht State of the Art, was sich allerdings auch wöchentlich ändert, was State of the Art ist.

Jens: Okay, also, aber das kann ja jeder für sich entscheiden, ob er eben politisch oder idealistisch motiviert oder aus technologischen Gründen, wie es wirklich die Gründe bei welchem Modell er ist. Es gibt auf jeden Fall Wege, zu übertragen. Ich finde es ein bisschen schade, wo du gerade geredet hast, dass das im Prinzip, ich weiß, dass das Thema Kontextfenster einfach schwierig ist für eine KI, dann zu viel Inhalt reinzukupieren. Aber jetzt ehrlich, jetzt wäre auch nicht das Schwärze zu sagen, selbst wenn ich jetzt da etwas bekomme, dass ich diese Datei.

Mark Zimmermann: Das kommen wir vielleicht so langsam zum Thema Orchestrierung und so ein Kram, aber was ich tatsächlich erstaunlich finde ist,

Jens: den Inhalt dann auch erst mal aufteilen. Also ich habe immer wieder häufig die Situation, ich kopiere irgendetwas rein und kriege immer noch heutzutage dann mal wieder so ein Fehlerfenster, der mir sagt, boah, das ist aber jetzt zu lang in dem Moment. Das finde ich eigentlich bisschen schade, dass da noch keine Lösung dafür zu sagen, okay, das schneide ich einfach den Teil ab und pack das in den zweiten Prompt automatisch ein. Das muss doch ich nicht als Mensch machen. Also das nervt mich schon wieder fast ein bisschen.

Mark Zimmermann: wie schnell auch die Art und Weise, wie schnell du sozusagen mal verwöhnt wirst. Also sowas wie Claude erzeugt schöne Excels, PowerPoints. Du kriegst Markdown-Dateien da gereicht. In Chatch.gbt fängst du an, das hatten wir gerade auch in der Vorbesprechung, dann fängst du in diesem komischen HTML-Ding da an und versuchst das rauszukopieren und dann wird das unterbrochen und dann... Gemini reagiert dann auch irgendwie anders. Ich habe auch diesen Prompt an Gemini gegeben nach dem Motto, guck mal alles nach, was du vor mir hast. Gemini hat dann gemeint, was von dir? Von dir weiß ich gar nichts. Wo ich dann dachte, was ist denn das? Ich benutze dich seit einem halben Jahr, was ist denn hier los? Also du gewöhnst dich schon sehr dran und ich finde auch die Philosophien dahinter. Bei Gemini heißt es Gems, während das ist das letzte Mal. Bei OpenAR heißt es dann Skills und bei JetGPT heißt das keine Ahnung was. Am Arsch die Räuber, ist schon irgendwie alles sehr unterschiedlich. Und dazwischen kommt dann Croc, der beantwortet zwar sehr schön Chemiefragen und Fragen des US-amerikanischen Angriffs oder Fragen zu X und Reddit, aber ansonsten ist der schon so ein bisschen, ich sag mal, naja, weiß jetzt auch nicht. Also Supercroc und Heavycroc hat mich jetzt bis jetzt noch nicht so überzeugt.

Jens: Mhm.

Jens: Ja, und deshalb ist es ja noch mal wichtiger, dass wir im Prinzip, sagen wir mal, ich hatte das auch mal wieder kurz zum Lesen und dann können wir gut zum Thema überleiten. Also die Modelle werden immer mehr zur Commodity, also zu dem Thema, was eigentlich gar nicht mehr so wichtig ist und austauschbar in dem Moment ist, sondern eher die Kombination von Modellen wird das spannende sein. Wie kann ich das orchestrieren, mit verschiedenen Agents, das haben wir ja immer wieder, sozusagen.

Mark Zimmermann: Mhm.

Jens: Es ist gar nicht mehr so das Modell, sind die Skills drum herum, die vielleicht wichtig sind. Was ich lokal mache, was ich vielleicht in der Cloud mache. Also diese Kombination aus Themen, das wird immer wichtiger werden und die Usability dessen wird wichtiger werden. Und da kommen wir jetzt langsam zu dem Thema der heutigen Sendung, weil eigentlich, wir hatten es jetzt Age of Agents genannt, dass wir sagen, wir hatten so lange Zeit gedacht, dass wir im Prinzip die Main-Interaktion mit KIs, ob ich jetzt Vibecode oder irgendwas anderes oder einfach nur Frage, wie meine nächste Reise ist, das Chat Fenster ist und der reine Chat. Aber irgendwie hat sich das überholt. Seitdem im Prinzip eine KI nicht nur noch ein Prompt und eine Antwort ist, also mein Prompt und die Antwort ist, sondern dass sie eigentlich persistent ist, dass sie Aktionen durchführt. Ja, das ist eine gewisse API Aktion. Ob ich das jetzt mit einem Workflow System habe, was du ja auch manchmal gerne benutzt. Da sind halt. Toolcalls mit vorhanden, Packings werden aufgerufen, Skills müssen abgedeckt werden, Memory Files müssen irgendwo reingeschrieben werden, API Aktionen, die auch tatsächlich Geld kosten werden im Hintergrund durchgeführt, also es gibt einen Budgetverbrauch, diese Themen sind da, ich hab gegebenenfalls eine KI, die oder ein Agent, der sich vielleicht als Chef der anderen Agents platziert, da überredet, was sie so zu tun haben und solche Sachen. All das ist im Prinzip jetzt da und führt dazu, dass man es eigentlich nicht mehr über ein simples Chat Fenster lösen kann, sondern etwas anderes brauchen, andere Schichtbrauch, das bearbeiten zu können, uns Menschen dann noch so bisschen im Loop zu halten, wenn man so möchte. Das heißt, Chat geht gut für ich brauche etwas und kriege eine Antwort. Für eine Orchestrierung ist ein Chat eher mäßig geeignet, ehrlich gesagt.

Mark Zimmermann: Ich würde bevor du abtauchst mit uns allen in diese neuen Oberflächen vielleicht ganz kurz noch mal so ein Überblenden, ein Abbinder machen zu was passiert aktuell ist und was gibt es da mit Orchestrierung vielleicht gerade weil ich würde ganz kurz sagen Perplexity hat hier was rausgebracht Perplexity Computer

Jens: Ja.

Mark Zimmermann: wo du quasi wieder in so einer Textwelt zwar bist, aber das System ist ja nicht nur so, dass es versucht so ein bisschen OpenClaw nachzumachen nach dem Motto ich löse Aufgaben und installiere mir Dinge und mache und tu, sondern die mischen ja auch tatsächlich zwischen Kimi und Gemini und OpenAI und Claught locker flocke ich durch und starten da, ich sag mal, verschiedene Aktivitäten, je nachdem welches Modell am besten helfen kann. Croc hat ja auch sowas gemacht, dass sie hier so Agentswarm und mit Agenten, die sie separat voneinander anstarten und orchestrieren, weil es einen Orchestrator Agent gibt, der seine Befehle gibt. Und weil wir es von Claude hatten, ich meine Claude hat jetzt auch, wann war das? Vorgestern, vorvergestern? Ich weiß es schon wieder nicht mehr. Haben sie angefangen, sowas zu machen wie, okay, du kannst jetzt Aufgaben planen, das heißt... Promts führen sich zu bestimmten Zeiten aus, damit sie dir Zusammenfassungen schicken, erstellen, irgendwas für dich auf Social Media posten, keine Ahnung was machen. Du kannst es jetzt auch entfernt bedienen, sei es, dass du eine Telegram Anbindung zum Beispiel bei Kimi gekriegt hast, dass du wie mit deinen Freunden halt über Telegram mit denen schreiben kannst oder bei Claude zum Beispiel dieses Remote Claude, dass du von deinem Handy mit deinem Rechner zu Hause chatten kannst. Also das machen gerade alle ganz viele Versuche, dich mit Orchestrierungsmöglichkeiten zu beglücken. Aber, und jetzt schließe ich diesen Kreis und gebe wieder zurück quasi ins Funkhaus, diese Orientierung in diesen, sei es in den langen Chatverläufen, in Telegram werden unübersichtlich, wenn du da fünf verschiedene Themen machst, dann das ist wie im Familienchat.

Jens: Mhm.

Mark Zimmermann: Dann schreibt der Opa auf einmal, wo seid ihr? Und bezieht sich auf die Nachricht, er vor drei Wochen bekommen hat. Das ist ja völliger Wahnsinn für in so KI-Zeiten. Und das andere ist, egal, ob es jetzt per Black Steel Computer ist oder wie auch immer die Interfaces sind, sobald links diese Projektliste hast, ich weiß nicht, wie es dir geht, aber ich finde das mega unübersichtlich. Wo warst du zuletzt drin? Wo wird gerade noch gearbeitet? Ist das eine alte Version? Ist das schon ein neuer Arbeitsstand? Das ist ja

Jens: Ja, definitiv. Gutes Beispiel.

Mark Zimmermann: Alt-Bug. Von der Seite freue ich mich, du dieses Thema aufgebracht hattest, dass andere Interfaces uns da andere Möglichkeiten geben.

Jens: Ja, ja, okay. Ja. Genau. Ja.

Jens: Ja, definitiv. Ich bin auch der Meinung, wir, egal wie wild die Zeiten gerade sind und wie wild die Möglichkeiten sind, die wir haben, die UIs, die wir momentan anbieten, diese Themen zu orchestrieren, sind wieder sehr textlastig, termin-lastig, entwicklungslastig. Man muss auch sagen, viele Sachen, die wir so in dieser Dennung besprechen. ist dann auch wieder nicht für alle zugreifbar. Jeder kann sich irgendwie Python installieren oder irgendwas anderes, dann irgendwelche Sachen laufen zu lassen. Kann GitHub-Account vorweisen, da Themen runterzuladen, hochzuladen oder irgendwelche anderen Themen. Das ist alles sehr, sehr, immer noch bisschen entwicklungslastig. Und ich glaube, da ist einfach so eine Lücke, die geschlossen werden muss. Gerade wenn ich in das Thema Orchestrierung reingehe, die halt in der Spielewelt, und da gibt es jetzt ein paar Ansätze, die das aufgreifen. schon lange Zeit geschlossen worden sind. Auf eine sehr spielerische Art und Weise. meine, wir, gerade die deutsche Entwickler-Szene ist immer sehr, sehr bekannt gewesen für Aufbausimulationsspiele. Also, ich würde jetzt mal Siegler als die große Serie nennen, auch Anno aus Deutschland herauskommt. Die Anno-Serie, die zig Varianten hat von Anno haste nicht gesehen, also Anno haste nicht gesehen. Wo es immer darum geht, eigentlich so als Manager eines gewissen Systems Für die Leute, sich zu spielen nicht auskennen. Da geht es dann häufig darum, im Mittelalter mein kleines Dorf aufzubauen, was anderes. Da muss ich Bäume fällen. Da muss ich natürlich auch einen Förster dazu packen, der die Bäume wieder auffrostet, so dass so ein System funktioniert. Da gibt es immer so einfache Regeln wie, in die Mine schicken oder so was. Oder ich brauche zwei, wenn ich zwei Baumfälle habe, dann brauche ich einen Förster, dann reicht das. Dann kann ich ein Sägewerk dazu packen und dann geht das. Und dann können meine Leute irgendwann daraus Häusern bauen und, und.

Mark Zimmermann: In die Mine schicken und... Ja.

Jens: eine komplexe Wuselei dann hinterher auf diesen Themen unterwegs. Also wie so ein Wimmelbild sehen dann häufig die jungen diese Oberflächen aus. Das wird dann in den moderneren Spielen, moderner ist gut, das sind dann auch, die sehen ein bisschen wie alte Spiele aus, so wie Factory oder sowas. Da geht es dann wirklich so die Orchestrierung riesiger Lieferketten, Fabriken, die ich dann baue, optimale Erzeugnisse zu produzieren. Die Lieferketten müssen auch optimiert werden, kurze Wegeketten, die dann von den Spielern quasi in dem Spiel simuliert werden. Das ist also, jetzt wieder zu dem Holzfäller, der muss natürlich auch nur ein paar Meter laufen zum Sägewerk, das ist dann schlau, es ist also blöd, wenn ich auf der einen Seite der Pixelmap das Sägewerk habe und auf anderen Seite der Pixelmap mein Holzfäller habe. Der Weg sollte relativ kurz drin sein. Also das sind hochkomplexe Managen-Spielchen, die uns ermöglichen, ein hochkomplexes System dann wirklich ablaufen zu lassen. Das heißt, wir managen da in diesen Spielen, so eine Art virtuelle Person, die etwas tut. Und diese Analogie wurde erkannt von dem einen oder anderen KI-Experten, der da draußen rumläuft, die viel mit Agent-Orchestrationen auch gearbeitet haben, wo sie verschiedene Agents eben zusammenpacken, Aufgaben zu lösen, ob das jetzt, jetzt mal im simpelsten Fall drei Coding-Agents sind, ein Research-Agent und ein Test-Agent, der im Prinzip sich einfach nur das Thema anguckt, was die Coding-Agents machen. habe ich vielleicht vier, fünf Agency da rumlaufen, die jetzt dann im Hintergrund über Terminal Fenster kann ich mir die anschauen, über Chat Fenster kann ich das kontrollieren, über die Projektordner, was sie da gerade programmieren, kann ich das kontrollieren. Ich kann auch auf einer anderen Webseite wieder die API-Kosten theoretisch sehen, diese produzieren oder die Token, sie in diesem Moment verbrennen. Ich könnte das aber genauso analog wie ich das gerade in den Spielen und würde den Spielen schon Jahrzehnte lang jetzt machen, eben darstellen und sagen, aha, da habe ich einfach fünf. virtuelle agenten die auf so einer oberfläche rumlaufen wo ich quasi vielleicht sehe ob die gerade aktiv sind oder die hängen im pausenraum ab in meinem virtuellen büro dass ich gebaut habe oder die verbrennen gerade geld oder die programmieren gerade die warten ja ja ja ja ja ja ja ja

Mark Zimmermann: Die verbrennen gerade Geld. Ich stell mir grad vor, wie die kleinen Agenten vor dem Ofen stehen und das virtuelle Geld reinschaufeln. das, was du sagst, ist natürlich geil, weil während du jetzt das so beschrieben hast, bleiben wir bei dem Beispiel. Du hattest, glaube ich, einfaches Beispiel über den drei Coding-Agents. Die bauen drei Apps. Ich hatte heute tatsächlich das Thema. Ja, ich hatte mich an drei Apps parallel. gesetzt und in so einer Welt, du dann mit Textfenstern arbeitest. Auch wenn ich von der IT komme, finde ich jetzt Textfenster nicht unbedingt, ich sag mal, die ansprechendste Darreichungsform. Und dann hast du da drei Fenster und ich habe dann gemerkt, jeder Agent hat auch die App dann gestartet und hat die App dann verprobt. Dann geht die App auf, dann fängst du da drin schon mal rum zu tippen. Dabei war der noch gar nicht fertig. Ja, also es ist per se durch die Überlagerung der Fenster unübersichtbar.

Jens: Mhm.

Mark Zimmermann: Wenn ich mir jetzt vorstelle, dass du das Ganze nicht in einer Textwüste und zusätzlichen Fenstern hast, sondern wirklich, wie es halt in diesen Spielen ist, dass du sagst, okay, du siehst jetzt da oben sind jetzt die drei Bergarbeiter oder die drei Programmierer, die dann da an ihrer virtuellen Tastatur klöppeln. Und wenn sie was haben, wo du vielleicht QS machen sollst oder irgendwas, dann diese typischen Symbole, wie man sie aus Spielen kennt. Ich habe ein Quest für dich. Du kannst dein Quest abgeben. Du kannst... deine Aufgabe abgeben, das Ergebnis anschauen, Ahnung, mit solchen Mechaniken auf dich aufmerksam macht, mit solchen Mechaniken Transparenz zeigen, weil ich glaube, so kleine Männchen, die über den Bildschirm laufen, ich denke immer an Lemminge und Vermehr, also ein ganz altes Spiel, ganz altes Spiel, wobei Lemminge, ist blöd, die haben sich unter Umständen alle in den Tod gestürzt. Aber dass das viel einfacher sein muss als dieses ganze

Jens: Mhm.

Jens: Ja ja, des is ja.

Jens: Natürlich, gar keine Frage.

Mark Zimmermann: Hier entzerlehe ich gerade was und hier leuchtet was blau und gelb und rot und grün, aber am Ende vom Tag ist trotzdem nur Text.

Jens: Genau, lasst uns ja mal rauslösen aus so einer Situation, in der wir vielleicht auch häufig alle als Wissensarbeiter stecken, dass wir auf so einem Monitor drauf gucken und da irgendwas machen. Wenn ich sage, wenn ich jetzt eine komplexe Fabrik alleine nähe, dass ich sage, ich habe eine Fabrikanlage, die chemische Verarbeitung, irgendwas anderes, da ist ja auch so. Also die Schaltwarte dieser Fabrik ist ja dann auch kein Terminal Fenster in dem Moment. Einzelne Schritte sind natürlich runter programmiert, die ganzen Softwarelösungen, die ganzen Das einzelne Lieferband, ist alles natürlich Programmcode, Programmierung. Die Orkestation dessen ist aber tatsächlich vielleicht wieder als eine Karte dargestellt, als eine Schaltkarte, ich irgendwo habe, wo rote Lämpchen leuchten, wenn irgendeine Produktionskette ausfällt, dann zu wissen, ich muss dahingucken, ob dahinter was dann da falsch gelaufen ist, ob die Software falsch ist oder irgendwas in das Lieferband reingefallen ist, was auch immer, ist ja egal. Aber diese Orkestation, ja, ja, hat sich im Endeffekt, genau, dass die Aufmerksamkeit da fehlt.

Mark Zimmermann: Egal ist es nicht, aber du hast eine Aufmerksamkeit bekommen.

Jens: Aber diese, ich glaube wir Menschen müssen halt abstrahieren. Das machen wir auch, wenn wir Sprache entwickeln, andere Sachen entwickeln. Wir abstrahieren im Prinzip natürlich und das ist auch genauso bei komplexen Situationen, müssen wir abstrahieren. Also ich würde jetzt auch nicht sagen, also ich bin froh, dass es im Prinzip eine visuelle Darstellung eines Radars gibt in einer, in einem Flughafentower und nicht irgendwie nur Programmkodzeilen untereinander stehen, die ich irgendwie ausrechnen muss oder durchlesen muss, welches Flugzeug jetzt gerade ist, sondern dass dann Leute visuell erkennen können, ui, da kommt ein Flieger von links und einer von rechts, das ist vielleicht eine schlechte Idee, dass sie jetzt beide auf dem gleichen Land beandern. Das heißt, wir Menschen sind das, also das ist nicht gewohnt, es ist unser präferiertes Mittel, in komplexen Systemen eben Sachen zu abstrahieren, anders darzustellen, möglichst visuell darzustellen, eben Zusammenhänge zu haben. Dementsprechend sehen wir natürlich visuelle Interfaces in kompletten Sachverhalten noch und nöcher überall. Und solche komplette Sachverhältnisse werden in Spielen halt wirklich extrem abgebildet. Da sind bis jetzt natürlich keine KIs im Hintergrund gewesen. Aber wenn du jetzt so ein Real-Time-Strategy-Game oder irgendwas anderes spielst wie StarCraft oder andere, was die großen Games, die es da alle gibt, da sind natürlich wirklich teilweise Tausende von Einheiten, die irgendwo produziert werden, in den Fabriken irgendwo. Da sind alles Lieferketten, Truppenbewegungen, Kampfhandlungen auf einer Map dargestellt, mit anderen Visualisierungen irgendwo dargestellt. Das ist ein sehr komplexes System, was es dann durch den Mensch, der davor sitzt, also der human envelope, vielleicht auch schon in diesem Fall envelope, da können wir vielleicht noch bisschen eingehen auf die beiden Begriffe, die auch so ein bisschen in der KI 10 gerade rumgehen, der im Prinzip dieser komplexen Sachverhalte in verschiedenen Zoom- oder Absatzionsstufen orchestrieren kann, weil es eben visuell dargestellt wird. Und das ist tatsächlich so ein bisschen das, was

Mark Zimmermann: Ja.

Jens: vielleicht die nächste nahe Zukunft ist, wenn wir darüber reden, inwiefern wir mit Agents und gerade mit der Orchestrierung von Agents uns beschäftigen werden, dass solche Game UIs vielleicht nach und nach immer mehr einzuhalten werden. Auch die Business-Anwendungen, wir haben. Weil ich kann mir das auch durchaus besser vorstellen, wie du es gerade selber beschrieben hast. Ob ich jetzt sage, jetzt habe ich da, ich kann die ganze Zeit so ein Coding-Fans da natürlich beobachten. warten, dass dann irgendwann eine Fehlermeldung bekommt. Aber ich kann natürlich auch genauso mal irgendwo mal einen Blick wieder in das virtuelle Office werfen und sehen, dass der einer von meinen Agents so ein Achtungsschild die ganze Zeit nach oben winkt und meine Aufmerksamkeit haben will, weil er vielleicht im Prinzip auf einen Input von mir wartet. Und das ist eine viel schnelle Variante, das zu erkennen, wenn ich das dann wieder, jetzt lass uns wieder abstrahieren, wenn ich sage, es sind vielleicht 1000 Agents, da programmieren und. 10 davon haben Probleme, dann sehe ich vielleicht an diesem einen Ort, der virtuelle Ort auf meiner Map, der Köln heißt, Düsseldorf heißt, Karlsruhe, was auch immer, Berlin, und dann sehe ich, die Programmierer in Berlin, haben gerade ein Problem, dann kann ich da vielleicht dranzoomen und dann erkenne ich, dass es nur der eine einzige ist, der Agent, und dann kann ich mir vielleicht dann Prinzip diesen Code nochmal angucken und gucken, warum dieser eine Agent hängen geblieben ist, ob der ein Budgetproblem hat oder ein technisches Problem hat oder irgendwas anderes.

Mark Zimmermann: Ich...

Jens: Wir brauchen sowas, ne? Und deshalb finde ich das super, dass wir solche Sachen gerade schon sehen. Die gehen halt tatsächlich, euch das zu erklären, da gibt es alle möglichen Sachen, da gibt es sowas wie Agentcraft, da kann ich wirklich tatsächlich, ähnlich wie in so einem, ja, Starcraft ähnlich, mit so Orks und sowas, die laufen da rum, das sind dann die Agents, da kann ich so, die bauen auch Gebäude und solche Sachen. Oder es gibt eben sehr, viele Anwendungen, eher in solche kleinen, ja, Wusel-Anwendungen, wo... KI-Agenten dann in so einer Bürosituation dargestellt werden. Dann kommt dann wirklich einer rein. Da ist dann der Programmierer, der andere ist dann der Researcher, der andere ist der Chef, das ist dann der Orchestrator. Dann gibt es den Tester, der dann herumläuft. Und dann treffen die sich auch manchmal in einer Kaffee-Ecke und unterhalten sich auch quasi in einer Kaffee-Ecke, weil sie gerade nichts zu tun haben. Dann kann ich einfach sagen, den delete ich jetzt mal und werfe ihn raus, weil dann verbraucht er keine Eideltime mehr oder irgendwie auch Geld von mir und so was. Also das sind solche Sachen, die quasi stattfinden.

Mark Zimmermann: In Baden-Württemberg nennt man das dann Lehrer in den Sommerferien. In Baden-Württemberg, glaube ich, die Lehrer immer in den Sommerferien entlassen und nach den Sommerferien wieder eingestellt. Aber das ist ein anderes Thema. Ich glaube, es war so, also

Jens: Ist das so? Okay. Okay.

Mark Zimmermann: Falls es anders ist, bitte kommentieren. Aber ich bin mir ziemlich sicher, dass das in Baden-Württemberg, ich weiß gar nicht, wie viele Bundesländer sonst noch, scheint irgendwie in dem einen oder anderen der Fall zu sein. Was ich dabei vielleicht ganz lustig finde, während du das erzählt hast, Probleme, vor denen ich wirklich auch die letzten Wochen auch immer wieder mal stand, nämlich, man kennt das vielleicht, viel hilft viel, wenn man einmal mit einem guten Modell gute Erfahrungen gemacht hat, bleibt man mit guten Modell. In meinem Fall bei Claude, das ist dann Opus.

Jens: Ja.

Mark Zimmermann: Aber eigentlich brauchst du Opus ja gar nicht immer. Es gibt ja auch, ich sag mal, Dinge, wo Opus vielleicht ein bisschen zu dicke Kanone für den Spatzen ist. Und man selbst hat, wenn du damit jetzt arbeitest, jetzt nicht unmittelbar ein Gefühl dafür, wie viele Ressourcen habe ich gerade eingesetzt, beziehungsweise ist das notwendig. Und für beides habe ich ein Beispiel, wo ich mir denke, dass dann so ein Interface uns in Zukunft wahrscheinlich helfen kann.

Jens: Mhm.

Mark Zimmermann: Das eine ist Thema, was ich eben sagte mit Ressourcen. Also wenn du vielleicht Zeit hast und der Fortschrittsbalken darf langsamer vorangehen, dann kannst du halt auch mal ein anderes Modell nehmen, weil vielleicht die ganzen anderen Lösungen auch noch bisschen brauchen. Es ist ja nicht so, dass du alles mit dir selbst ausmachst, sondern manchmal bist du ja vielleicht auf Zuarbeit angewiesen, auf andere Prozesse angewiesen. Und wenn das, sag mal, neun Uhr fertig sein muss. Dann muss das vielleicht jetzt nicht mit dem Ladies and Creators und Ich kann hier alles und überhaupt Reasoning und maximal und Hasse nicht gesehen, sondern da tut es vielleicht auch der kleine, schnelle Helferlein, wenn es darum geht, irgendwelche Texte zu formatieren. Das ist blödes Beispiel vielleicht, aber da kann man sich vielleicht trotzdem vorstellen. Und das andere ist, hatten, weil du von Tools gesprochen hast, wir hatten mit ein paar Tools gearbeitet, in dem Fall wieder in der Softwareentwicklung, wie man verschiedene Komponenten, also Aufgabenlisten, wo steht drin, was der Softwareentwickler tun muss oder andere Komponenten.

Jens: Mhm.

Mark Zimmermann: mit denen der Entwickler normalerweise zusammenarbeiten muss, haben wir alle über MCP, haben wir schon mal erklärt gehabt in einem Podcast, was das ist. Das ist die Möglichkeit, dass du Agenten die Chance gibst, mit Tools, Daten zu interagieren, die vom benachbarten System bereitgestellt werden. Und da hatten wir ein sehr schwaches KI-Modell genommen. Und das KI-Modell hat gesagt, ne, also diese MCP-Geschichte, das funktioniert nicht. Also, ne, ne, ne. Das ist der MCP-Server, kaputt. Dann haben wir ein bisschen stärkeres Modell genommen. hat gesagt, ne ne, super, MCP-Server läuft. Dann hat es bisschen gedauert und dann hast du im Chatverlauf gesehen, ja, ich habe vergessen, was ich wollte. Boah, ich glaube, und das war das Ziel und macht einfach weiter. Und wenn du das richtig gute Modell genommen hast, dann das, das lief das von vornherein durch. Also hat sowohl erkannt, dass MCP laufen muss, hat keinen Quatsch während der MCP-Kommunikation gemacht. Und so haben die sich unterschiedlich verhalten. Wenn ich das jetzt wieder auf so Spiele abbringe. Dann ist das ja so sinngemäß wie die einfache Figur, ich genommen habe, die kann dann quasi, ich sag mal, die trägt halt den Baum. Wenn die bisschen länger braucht, ist nicht schlimm, Baum tragen kann sie. Häuser bauen, nimmst halt einen Baumeister. Und wenn du wieder bei deinen Militärübungen bist, dann nimmst du halt auch den, der vielleicht ein Schwert hat und eine Keule und nicht den, der gerade den Baum in der Hand hat, weil der hat eventuell am Schlachtfeld wenig Chancen.

Jens: Hehe. Ja.

Jens: Genau, korrekt, genau. Und so kannst du natürlich auch schneller kontrollieren. dass du sagst, wenn du jetzt z.B. auch mal Zonen definieren würdest, die jetzt vielleicht in so einem tatsächlichen System dann gewisse Sicherheitszonen darstellen würde, wenn jetzt so ein Agent dann eben vielleicht die falschen Rechte hat, dann darf er auch gar nicht in diese andere Zone reinlaufen. Also auch da würdest du sehen, Ich hab vielleicht irgendwas mit der Security Einstellung dieses Agent, der gewisse Hutzugriffe einfach nicht haben darf. Der ist, hab ich was falsch gemacht, weil der läuft jetzt hier in der Gegend rum, wo der gar nichts zu suchen hat. Also auch sowas kann dann einfach helfen. Die Komplexität, die wir sonst im System vielleicht gar nicht sehen, die versteckt ist in den Promts, in den Zeilen des Codes, in den Skills, wir den Agents mitgeben, die können wir dann natürlich dann visualisieren, also abstrahieren. glaub, das ist einfach ein riesiger Vorteil, den wir von solchen Oberflächen haben, weil wie gesagt, wir Menschen sind auch visuell. Wir sind nicht nur auf Text bezogen, wir brauchen einen visuellen Input, deshalb sind wir auch, wenn wir auf Signale gucken, jetzt aus einer klassischen Signalgestaltung, da sind Schilder ja auch wichtig, weil sie nicht einfach nur lange Texte sind, sondern im Prinzip über Symbolik funktionieren. sie funktionieren, genau, so was. Symbolik hilft, also wir brauchen eben auch diese Abtraktionen, weil wir dann einfach

Mark Zimmermann: Vorfahrt achten Fußgänger so als Text super.

Jens: auch in Krisensituationen schneller reagieren können. so jetzt in so einem langen, also wenn ihr jetzt irgendwie promptet und ihr Ergebnisse bekommt, das ist ja häufig auch schon, das ist auch so ein Husewillig-Ding immer, dann haut die KI dir einfach so eine fünfseitige Antwort raus, die dann einfach an dir vorbei scrollt, wo du dann auch häufig schon so, boah, jetzt muss ich erst mal wieder hoch scrollen und so was. Wenn da jetzt versteckt die Gefahrenbotschaft drin ist, könnte es durchaus sein, dass ich die überlese. Also dementsprechend wünsche ich.

Mark Zimmermann: Also allein die Signalfarbe Rot wäre schon hilfreich.

Jens: Ja, ja, genau. Deshalb wünsche mir zum Beispiel in solchen Fallen quasi eine visuelle Andeutung einer Gefahr. Und das kannst du natürlich mit solchen Gaming-Oberflächen wunderbar lösen. Marc, ich wollte noch mal ganz kurz, bevor wir weitergehen, weil ich das gerade aufgerufen habe, will ganz kurz mal diese beiden Begriffe, die ich reingeworfen habe, human in the loop und on the loop noch mal tiefer legen. Magst du die mal kurz erklären, warum die gerade interessant sind?

Mark Zimmermann: Du hattest

Mark Zimmermann: Ich finde das total lustig, weil ich wollte auch gerade noch einen Satz sagen, bevor wir auf diese Begriffe kommen. Von der Seite nutze ich jetzt die Worterteilung und danach würde ich das auch gerne erklären. Ein anderer Punkt ist auch, finde ich, ist das Thema der Delegation. Jetzt ist ja nicht jeder im Berufsleben jemand, der Arbeit verteilt. Also manche Menschen haben ja einen Chef, der sagt ihnen, das brauche ich von dir.

Jens: Ja, Dann machen wir das. Dann machen wir das gerne.

Jens: Mhm.

Mark Zimmermann: je nachdem was du arbeitest, wie du arbeitest, ist das vielleicht auch, ich sag mal, ich sag standardisierter oder nicht, aber in langer Rede, kurzer Sinn, die Delikation von Arbeit, das Vertrauen darauf, dass das, was da gemacht wird, dass das gut ist und dass das richtig ist und das Vertrauen in den Menschen dahinter ist ja das eine. Aber Delegieren, das hört sich immer so leicht an, ist aber manchmal auch nicht immer so einfach. Und vor allen Dingen, wenn du neu in Positionen bist, wo du vielleicht in das Thema Delegieren kommst, ist es auch irgendwann mal befremdlich. Bisher war es immer nämlich gewohnt, das selbst zu machen. Jetzt macht es ein anderer. Also nicht gemäß der Definition, wofür das Wort Team toll, ein anderer macht es, nein, sondern dahingehend, dass du sagst, okay, gut, ich gebe das jetzt in Auftrag und wenn das zurückkommt, ja, da kann man vielleicht noch mal nachbessern, aber im Großen und Ganzen muss ich mit dem leben, was da ist und ich vertraue darauf, dass das gut ist. Und das ist schon auch eine Veränderung der Denke. Und ich glaube, auch da könnten solche Interfaces helfen. Jetzt hast du eben ... habe mich gebeten einzusteigen in das Thema Human in the Loop und was es da nicht noch so alles gibt. ich ganz kurz mal skizzieren. Also Human in the Loop, das charakterisiert Systeme, denen der Mensch aktiv in Entscheidungsprozessen eingebunden ist. Die KI bereitet vor, der Mensch prüft und entscheidet, gibt Freigaben, ist also quasi mittendrin statt nur dabei. Und bei Human on the Loop das beschreibt Systeme, denen die KI weitgehend autonom agiert. Der Mensch überwacht, kann eingreifen, aber eigentlich macht die KI, ich sag mal, er arbeitet die KI autonom und der Mensch trägt zwar die Verantwortung und der Mensch kann wie gesagt drauf gucken, aber die KI macht großteils die Sachen alleine. Jetzt möchte ich der Fairness halber aber sagen, Ich würde dann noch das ein oder andere zusätzlich kennen. Treue Hörer wissen auch, dass wir eigentlich nicht von human, sondern von Expert reden sollten. Grüße gehen raus. Trotzdem würde ich aber gern auch noch den ein oder anderen Begriff noch ergänzen. Da gibt es nämlich auch noch so was wie Human in Delete, das charakterisiert Systeme, bei denen der Mensch die volle Kontrolle und Führung behält, die KI aber analysen und Vorschläge.

Jens: Mhm.

Mark Zimmermann: unterbreitet, aber der Mensch quasi Hauptaktor ist. Es sind so immer so kleine, feine Unterschiede. Wir hatten mal als der René bei uns zu Gast war über solche Dinge ja auch nochmal gesprochen. Und wenn wir die vier Begriffswelten komplett machen, gibt es noch Human Out of the Loop. Das ist quasi komplett autonom. Da hat der Mensch höchstens noch Randthemen, die er sich kümmert. Aber die KI führt Routineprozesse komplett eigenständig.

Jens: Mhm.

Mark Zimmermann: Das kann man vielleicht so noch zum besten geben.

Jens: Mhm. das jetzt noch mal so bisschen in unsere gaming welt einzuordnen das heißt im prinzip des thema in volute wäre nachdem der holt die holz fällende k.i. quasi das holz gefällt hat und sie ist irgendwo hin liegt das vielleicht ist das noch so dass es das weitgehende autonom macht aber der nächste schritt ob sie das holz jetzt auch noch irgendwo einlagern soll oder zum holz zum holz werk bringt oder so was das wäre im prinzip dann da müsste ich eingreifen und sagen ja macht das bitte

Mark Zimmermann: Oder ein Haus baut.

Jens: Human Envelope, da sind wir dann schon bei diesen Gaming-Oberflächen. Dass ich sage, okay, ich gucke dann halt eher drauf, dass der Fluss richtig läuft, dass die Ressourcenkette in sich geschlossen ist, jetzt vielleicht erstmal nur für Holz benötigt wird für die Häuser oder dann vielleicht die zweite Produktionskette dazu kommt, die noch Steine liefert und dann gibt es auch noch Nahrung oder so, das die wir machen. Und dann wird es natürlich irgendwann dieses Human Envelope spannen, wann das so, glaube ich, in diese dritte oder vierte Stufe auch reinwechselt, wie du gerade beschrieben hast. Wann ist einzelnes Human-involved Loop in der Kombination, der Orchestration nicht schon vielleicht Human-involved nur noch im Prinzip, weil dann sehr, sehr viele autonome Systeme tatsächlich mir zwar noch zeigen, was passiert, aber an vielen, vielen Stellen sehr, sehr selbstständig eingreifen. Und da wird es eben noch mal extrem wichtiger, dass wir dann visuelle Lösungen finden. Interfaces finden, die weit über das normale Prompten, über das normale Coding-Anzeige, was wir so kennen, hinausgehen, die dann wichtig sind, dass ich das orchestrieren kann. Und was zum Beispiel, das hatte ich dann jetzt auch ein-, zweimal schon gelesen, total spannend ist, was auch dieses Thema hervorbringt, vielleicht die Gaming-Szene, die Leute, viel gespielt haben, die vielleicht die Skills mitbringen, die in Zukunft gebraucht werden. Weil derjenige, besonders...

Mark Zimmermann: Ich bin Experte! Weißt du... World of Warcraft!

Jens: Ja.

Mark Zimmermann: Über ein Jahr In-Game-Play-Time. Über ein Jahr. Mensch Leute, schnallt euch an. Schnallt euch an. Ich wusste es war gut.

Jens: Ja ja, sehr gut. ja. Vielleicht ist es gut. Natürlich steckt da so ein bisschen das Ding hinter. Also wenn du so wie gesagt tausend Wimmelkrieger oder Produktionsketten über mehrere Weltraumstationen was auch immer alles, also was es auch alles gibt, dann da koordinieren und orchestrieren kannst, das ist auch Human Invalid.

Mark Zimmermann: Hallo, ich war Hexenmeister.

Jens: Ja, und diese Orchestrationsfähigkeit, diese Optimierungsfähigkeit, dann eben auch im richtigen Moment runterzugehen und vielleicht wieder der Human Involved zu sein und nicht mehr der Human Onvolved zu sein und einzugreifen an gewissen Stellen, weil etwas reagiert, weil etwas nicht so gut funktioniert, ist eine Fähigkeit, die du, wenn du erfolgreich spielen willst, mitbringen musst oder erlernst. Ich glaube gar nicht, dass das so abwegig ist, was da so manche behaupten, dass diese Fähigkeit vielleicht gar nicht so eine der schlechtesten Fähigkeiten in diesem zukünftigen AI-Agent, in den wir jetzt gerade reingehen.

Mark Zimmermann: Das wird auch echt spannend zu sehen sein. Nicht, dass ich das jetzt abbinden will, aber ich hatte ja vorhin nochmal die Chance genutzt zu erzählen, wie gerade die aktuellen Interfaces für die Masse aussehen. Dass du jetzt von überall zeitgesteuert Automatismen anstarten kannst, Aktionen starten kannst, Sachen installieren lassen kannst, das von dir beschriebene wie richtig ich denn ein GitHub habe und wie richtig ich Python ein. Das musst du theoretisch alles gar nicht mehr wissen, weil wenn du dem Ding mittlerweile sagst, du, brauche das, dann installiert er halt auf deiner Kiste das Zeug und macht und tut. Und wenn du halt unterwegs bist, musst du halt schon unterwegs ein OK geben. Daher glaube ich schon, dass wenn diese Grundsteine gelegt sind, dass dann auch die großen Player anfangen und sagen, du, pass mal, obacht, wenn das jetzt wirklich Einzug hält.

Jens: Mhm.

Mark Zimmermann: Nicht, dass Oma Erna, nichts gegen Oma Erna, ja, simbildlich jetzt hier eine Persona für das Thema, ich schreibe jetzt mal ein Geburtsgesicht mit einer KI, das bedient, sondern das wirklich die ganzen Konzepte, die wir in den bisherigen Folgen hatten, MCP Toolanbindung, Skills, also Arbeitsanweisungen nach denen Systeme dann quasi Tätigkeiten verrichten, du auf einmal mit mehreren Agenten arbeitest, ne, wenn man auf linken Folgen dieses Beraterding was ich damals auf N8N hatte, was ich jetzt als so eine Skillsammlung mit Sub-Agents in Claude gebaut habe. Wenn das zunimmt, dann wirst du nicht dran vorbeikommen, dass die Oberfläche sich ändert. Aber diese Basis, du jetzt hast, dass sag mal jeden Morgen neun der Hahn kräht oder in unserem Fall halt ein Bericht generiert wird, dass irgendwie Dinge von überall gesteuert werden können, dass Dinge irgendwie orchestrieren, technologisch Sachen installieren, machen und tun.

Jens: Mhm.

Mark Zimmermann: dass der nächste logische Schritt bringe in was Grafisches, bringe mich in was Räumliches. Nach dem Motto, oben rechts im Eck, ist, ich sag mal, die Bibliotheksstadt und unten links ist die Entwicklerstadt und oben links ist der Ressourcenpool. Oder in deinem Fall jetzt die Kaffeeküche und das Klo und das Büro zum Arbeiten und keine Ahnung was. Weil man sich als Mensch in dieser Räumlichkeit zurechtfindet, in der visuellen Räumlichkeit zurechtfindet, dass man auch mit der Akustik, ja, du hörst ein Yippie, ja, das heißt dann so, oder gab es nicht irgendwelche Spiele, wenn du gesagt hast, fäll den Baum, die immer gesagt haben, AI-Server oder irgendwie sowas, ja, da gab es auch sowas, dass du also auf gut Deutsch deine Reize, akustisch, visuell, räumlich, dass du da in der Lage bist, dich schnell zu euch zu finden, schnell zu agieren, und dann musst du mal überlegen, ja, du als Person hast einen Sack voll Agenten mit unterschiedlichen Fähigkeiten, du hast einen Sack voll Budget.

Jens: Mhm, mhm, jaja.

Mark Zimmermann: Also Tokens mit denen du dann arbeitest. Aber neben dir sitzt ja auch jemand, der arbeitet in der selben Firma, am selben Thema, hat auch seine Agents. Ihr arbeitet zusammen mit all euren Truppen und Männchen und Agenten an Themen. Das ist schon krass. ich überlegte, gerade, während ich so quasi da vor mich hin schwatroniert habe, überlegt, vielleicht kriegen wir auch sowas wie diese Jamba Spar Abos wieder. Jamba Spar Abos, äh nicht Jamba Spar Abos, äh hier Klingelton. Jeder kann seinen eigenen Skin holen.

Jens: Mhm.

Mark Zimmermann: nach dem motto du hast dann deine orks skin und ich habe mein world of warcraft skin ja keine ahnung ja das wird also ich bin echt gespannt wann wir in der breiten masse und nicht abwertend gemeint ich meine github projekte werden schnell erfolgreich grüße gehen an peta einmal open claw gebaut und danach zum zweiten mal in seinem leben reich geworden dass das das wird garantiert auch ein punkt sein womit sich dann auch die großen spieler

Jens: Mhm.

Mark Zimmermann: dann wieder voneinander unterscheiden, wäre dieses Mysterium Bedienbarkeit und Beherrschbarkeit und Einfachheit, ja, dieses was Apple ja auch mal von sich so behauptet nach dem Motto 1000 mal nein sagen, bevor man einmal ja sagt. Ich glaube, sie hat in letzter Zeit öfters mal ja als nein gesagt, aber das ist ein anderes Thema. Vielleicht berappelt man sich da noch, aber allein diese Denke jetzt in diese Komplexität reinbringen, das wird nochmal

Jens: Ja.

Mark Zimmermann: einiges verändern, was Akzeptanz angeht, Bedienbarkeit angeht, Nutzbarkeit angeht, Fehler, Vermeidung angeht und wir hatten das Thema eben mit Ressourcen auch kosten sparen, damit du eben nicht anfängst und sagst ich habe da 500 Euro KI-Tokens verbrannt. Allein die ganzen KI-Firmen werden daran ein Interesse haben, weil denen brennen ja die Server im Keller das Wasser und den Strom weg, wenn dann die Anwender mal nicht immer das größte Modell auswählen, sondern vielleicht auch mal das kleine.

Jens: Das passende einfach. Ich glaube deshalb ist es so, man könnte dann so langsam sagen, jetzt auch so im Hinblick auf, dass wir die Sendung auch mal langsam wieder abschließen, das Thema so ein bisschen einmottenslos, falsch, weil das werden wir bestimmt noch mal aufgreifen. Ich glaube,

Mark Zimmermann: Ein Motten, das weißt du, das machst du, damit du es nie wieder rausholst.

Jens: Nein, wir holen das natürlich raus. Ich glaube, UX und UI-Konzepte werden die Nächsten vielleicht nicht mehr aus diesen klassischen Interface-Regeln, die wir jetzt bei Apps oder Webseiten haben, folgen, sondern sich an Strategy Games orientieren müssen. Weil vielleicht da tatsächlich mehr drin liegt und mehr lernen kann, als wenn man sich anguckt, wie die Webseiten die letzten 20 Jahre oder die Apps die letzten 10, 15 Jahre gestalten. worden sind, weil die sind tatsächlich nicht darauf ausgelegt, Themen zu orchestrieren, sondern die waren im Prinzip immer so Single Feature Applikationen, wir gebaut haben, Sachen sehr, einfach zu lösen in dem Moment an einfach Funktionalitäten, Wetter App oder irgendwas anderes, das Wetter zeigt oder so. Aber eben waren nicht auch ausgelegt, quasi Sachen zu orchestrieren. Ich glaube, da mussten sich Also alle Menschen, die sich jetzt gerade mit KI-Orchestration und wie man es eben auch darstellen kann, eben darum kümmern. Die sollten sich wahrscheinlich mal umgucken, wie sieht das dann in dieser Gaming-Branche aus. Wir werden auch wieder, wie immer, paar Links auch in den Show notes teilen. Also von den Sachen, die wir gerade erwähnt haben, wie das funktioniert, da könnt ihr euch mal bisschen drauf orientieren. Aber ich finde das ein total spannendes Feld. Du weißt ja, ich komme aus dem Gebiet heraus. Ich finde es mega spannend, kaum zu merken. Ich finde es mega spannend.

Mark Zimmermann: Kaum zu merken.

Jens: für diese menschliche Komponente. Aber ich finde es auch tatsächlich wild, nochmal, wenn man das Ding dann auch reingeht, dass man sagt, und die Agent interagieren ja auch in diesen Welten miteinander. Und haben dann eben auch Vorgaben. Und deshalb sage ich, wir werden das Thema bestimmt nicht einmoden, weil wir haben es auch schon mal erwähnt, dass es Experimente vom MIRT gab, wo sie KIs in so einer Minecraft-Welt miteinander spielen lassen, wo die dann auch angefangen haben, Kulturen zu bauen. Ne, miteinander geredet, haben Währung erfunden haben und so was, ne, dann miteinander zu handeln, eine Religion erfunden haben, als sie da umgespielt haben, ne. Und das ist nochmal so ein anderer Aspekt, den wir nie vergessen dürfen bei KI. Alles, was wir gerade beschrieben haben, hört sich alles so sehr linear und berechenbar an, ne. Du hattest gerade Open Claw schon genannt. Da sind so paar Sachen, die dann auch irgendwie überraschend sind, wenn ich mal dann so einen KI-Agenten ein bisschen freier laufen lasse, ne. Der macht dann auch Sachen dann, die man vorher gar nicht so gedacht hat, das haben wir in letzten Folgen ja ab und zu mal gesprochen. Und wenn ich mir jetzt so vorstelle, dass in so einer Wusel-Spielewelt dann eben die KI's mit dem Human Involve on the Loop dann zum einen agieren, aber auch andere KI's unterwegs sind, vielleicht auch fremde Spielwelten anfragen, fremde orchestrierte Agent-Systeme an, meinen Agent-System anlocken, quasi eine neue Welt, die wir entdecken, und da wird mit dahinter interagiert. Ich glaube, ist auch wieder Stoff für Folgen drin, das zu beobachten, was da...

Mark Zimmermann: ...dass dem

Jens: was da verbracht wird total wird total ja ja was mich zu dem thema überbringt wir haben auch immer noch nicht über wie hießen sie noch bionide wir hießen an diese kombination aus neuronalen also echten nervenzellen die wie neu russisch programmiert werden heißen bionide irgendwie sowas ja ja ja da habe ich nein ich will das auch gar nicht in der nächsten folge machen da müssen wir machen wir nicht

Mark Zimmermann: Ach, diese Hirnchips da, die aus Hirnmasse. Also nicht, dass wir jetzt schon wieder den Stoff der nächsten Folge vorhersagen. Ich glaube, lassen uns... Diesmal machen wir keine Vorhersage.

Jens: Nein, machen wir nicht. Aber wir werden da irgendwann eine Folge zu machen, weil ich hab da nicht Interesse. Das passt einfach zum Thema. Es gibt ja wirklich so ein Start-up, das die haben so Racks, dann im Prinzip diese Nervenzellen quasi in so Kühlregalen stehen und da auch schon gemietet werden kann. Du kannst das quasi so ein Cloud Service anfragen, dass du deine Rechenpower auf diesen Nervenzellen haben kannst. zu beweisen, wie mächtig die sind, hat das Internet da auch wieder aufgeschrien und gefordert. Lass ihn mal Doom spielen. und es ist so, diese künstlich gezüchteten Nervenzellen schaffen es dann auch, Runde Doom zu spielen, was irgendwie abgefahren ist, dass wir mittlerweile aus Nervenzellen bestehende neuronale Netze haben, die dann fähig sind, selbstständig Doom zu spielen. Wir leben in einer verrückten Zeit.

Mark Zimmermann: Bevor wir Schluss machen, eine kleine Anekdote aus meiner Jugend. Doom, das ist die Zeit, bei der ich mit einem Computer und damals gab es in meinem Computer noch kein Ethernet, also kein Netzwerk, sondern da musstest du mit einem seriellen Kabel, konntest du zwei Computer miteinander verbinden. Und da haben wir Doom gespielt. Und wer nicht weiß, was Doom ist, guckt mal in Google. War damals cool. Heute würdest du nicht für würfeln. Würfeln würde ich schon für unseren Podcast.

Jens: Ja.

Jens: Mhm.

Mark Zimmermann: Wir haben hoffentlich keinen Dinosaurier durch unsere SimCity Stadt gejagt. Das ist auch so ein Punkt, wenn dann hier die ganzen Agenten laufen. ist egal. Wenn euch die Folge gefallen hat, hinterlasst einen Like, einen Fünf-Sterne-Bewertung, einen Schreibt's eurem Nachbarn auf die Serviette mit einem kleinen Liebesgruß. Ich wäre durch. Ich würde mich verabschieden, wenn Jens noch einen Satz zum Besten geben möchte. Sehr gerne. Ich überlasse Ihnen das Wort. Ich bin schon mal raus. Ciao.

Jens: Mhm.

Jens: Immer. Danke, Marc, und danke auch für den letzten Satz. Den kann ich mir nicht nehmen lassen, weil der eine oder andere kennt mich, und Marc hat ja gerade auch nochmal gesagt, dass mir das Thema userale Darstellungen, User Interfaces sehr am Herzen liegt. Diese Interaktion zwischen Mensch und Maschine, so mein Hauptthema ist, und ich sag's ja immer wieder, dass in dieser Welt, in der wir uns jetzt gerade bewegen, das Thema Trust eigentlich wirklich diese finale UI-Challenge ist. Und jetzt auch mit dieser Folge heute. Wollte ich noch mal drauf eingehen, dass wir sagen, Vertrauen entsteht eigentlich nicht durch Kontrolle, diese Trust entsteht nicht durch Kontrolle, sondern dass wir in Zukunft diese Systemdynamik besser verstehen, dass die uns verstehbar gemacht wird. Und da kann, meiner Meinung nach, einfach, können Gaming-Oberflächen, da können wir eine Menge von lernen. Und dementsprechend ist dieser Satz noch wahrer als er vorher dieser Folge war. Trust bleibt die Final UI Challenge, gerade in dieser KI-Welt, in der wir sind. Lasst uns da durchzuhören, in unserem schönen, netten Podcast dran arbeiten. Marc und ich arbeiten dran, indem wir über die ganzen Themen diskutieren, über Nachdenken. Wir versuchen, in unsere private Welt, in unsere Arbeitswelt mit reinzunehmen. Das bleibt weiter spannend und macht super Spaß. Ich freue mich auf die nächste Folge. Euch eine schöne Woche und bis bald.

Shownotes

Transkript anzeigen

Neuer Kommentar