Viel Spaß beim Hören!

Alle Episoden

30.04.2026

AI Coding, Human Judgment, and the Future of Software with Karthik Rameshkumar - Episode #016

Zeige mehr Shownotes

In this first English-language episode of TobiHochZwei, Tobias Allweier and Tobias Wittenburg welcome Karthik Rameshkumar, Field CTO at GitHub, for a grounded conversation about AI coding, agentic development, and the skills that matter as software teams adapt to a faster pace of change.They talk about how AI is reshaping the software development lifecycle, why human judgment still matters, where deterministic tools are still the better choice, and how teams can experiment with AI agents without giving up governance, context, or responsibility. The episode is relevant for developers, engineering leaders, and anyone trying to understand how AI changes the way digital products are built.What we talked about:- What a GitHub Field CTO does and how customer feedback shapes product direction.- Why Asia has become a major center of global software development and engineering talent.- How to manage the pace of AI innovation without chasing every new model or tool.- How AI is moving beyond code generation into testing, validation, QA, and maintenance.- Why AI is better understood as a force multiplier than a simple replacement for human work.- Why human-in-the-loop, permissions, and governance matter when AI systems interact with real environments.- Why not every task needs AI, especially when deterministic tools already solve the problem well.- How GitHub is thinking about agents, model choice, intent detection, and the future of collaborative AI workflows.Our guest:Karthik Rameshkumar, Field CTO at GitHubhttps://www.linkedin.com/in/karthik-rameshkumar Chapters:(00:00) Intro and the first English episode(01:25) What a GitHub Field CTO actually does...(04:30) Why Asia matters in global software development(10:24) Managing the pace of AI innovation(17:08) How AI is changing the software development lifecycle(25:37) Is AI coming for our jobs?(39:50) Human judgment, risk, and non-deterministic systems(45:11) Why not every problem needs AI(49:55) Agents, A2A, and the pizza-ordering example(54:02) GitHub's view on agent governance and model choice and the human element in AI(1:03:30) What keeps the Tobias awake at night and what gives us optimism(1:12:43) OutroLinks from our episode:GitHub Octoverse:https://octoverse.github.com/Octoverse Metric:https://github.blog/news-insights/octoverse/octoverse-a-new-developer-joins-github-every-second-as-ai-leads-typescript-to-1/GitHub Docs - Choosing the right AI model for your task:https://docs.github.com/en/copilot/using-github-copilot/ai-models/choosing-the-right-ai-model-for-your-taskAI Bots Speaking:https://www.youtube.com/watch?v=EtNagNezo8wFeedback loop:Have you found bugs we should fix, or topic ideas we should deploy? Send us a pull request by mail: feedback@tobihochzwei.deIf you enjoy the podcast, support us with a quick follow, rating, and recommendation.LinkedIn: https://www.linkedin.com/company/tobihochzwei/SEO keywords:TobiHochZwei, Tobi Hoch Zwei, Tobi Hoch 2, Tobi_2, Tobi 2, Karthik Rameshkumar, GitHub, GitHub Copilot, AI coding, AI agents, agentic development, software development lifecycle, SDLC, human in the loop, AI governance, developer productivity, software engineering, prompt engineering, model choice, future of workPodcast description:TobiHochZwei - Double Tobi, double tech is the podcast about software, cloud, and modern technologies. Hosts Tobias Allweier and Tobias Wittenburg talk practically about software development, cloud architectures, artificial intelligence, and IT strategy. With clear insights from day-to-day work, real experience, and interesting guests, every episode delivers orientation and value for newcomers and experienced IT professionals alike.More info and imprint: www.TobiHochZwei.de/impressum

Transkript anzeigen

Dieses Transkript wurde maschinell erstellt und nicht manuell überprüft. Inhaltliche Fehler sind möglich.

Tobias Wittenburg00:00

Welcome to a new episode of Tobioth Zwei. As you hear, this is a premiere for us. It's the first podcast in English since we have a guest. Welcome, Karthik Rameshkumar, field CTO of GitHub. In this episode, we want to discuss AI coding, what is new on the horizon, and also what skills do we need in the future. So even if you are not a developer, this episode might be useful for you since we're talking about how to apply skills to your daily doings. So without further ado, welcome, Karthik.

Karthik Rameshkumar00:25

Hey, thank you so much to the two Tobys for welcoming me on the podcast. I think the conversation to get on this podcast started a long time ago, but I'm so grateful to be here with all of you and be able to present whatever little I can share and the insights I can share with all of you. I'm looking forward to having a nice conversation.

Tobias Wittenburg00:47

Thanks. Thanks a lot for being our guest. Yeah.

Tobias Allweier00:49

Big pleasure. And for the audience, Karthik is sitting in front of us with a t-shirt from a German soccer team. Very, very good.

Karthik Rameshkumar00:58

So I was just telling you that actually finding the German soccer team's t-shirt, this is special for the Tobbys, but finding the German soccer team's t-shirt is actually really difficult in Bangalore. I had to buy this one in Bangkok myself personally. So it usually goes on sale and sells out on day zero. So yeah, I'm a big fan of the German football team. Yeah. So let's see. World Cup coming soon?

Tobias Wittenburg01:23

Awesome.

Tobias Allweier01:25

Yeah, Karthik, what is a GitHub field CTO? What is your job, your new role, by the way?

Karthik Rameshkumar01:32

It's a fantastic question because I think I'm trying to actively discover it as we are building towards it together. In a lot of ways, I think the GitHub field CTO is sort of a strategic stakeholder for all of the engineering leaders in the region for them to be able to have a singular point of contact on the GitHub side. I think the intent with this basically is to have someone that can have high-level conversations with stakeholders on the customer side, was the internal teams that we can then build a bridge and a liaison for a product features that we're trying to build, strategic conversations that we're trying to nurture around what direction a product should lead. And 3, to also feedback all of the signals back to our engineering team so that we can then refine our processes and build better software that our users will end up using a lot more. So I consider myself a custodian of our customers' experience on the platform. And my job is to have conversations with developers, have conversations with engineering leaders, have conversations with people that are part of the development ecosystem, testers, all the other people, right? then feed that information back so that the product team then is then able to take a holistic decision on prioritizing what features need to be delivered first to our customers. And in addition to that, I also help to sort of drive a little bit of understanding on where our thought leadership around the developer lifecycle basically comes for GitHub, right? I do a lot of talks. I do a lot of writing on LinkedIn. I do a lot of scrambling, sort of scribbling myself, sorry, to sort of write what I feel like my thoughts. And this sort of helps put the message out there in terms of what the development lifecycle looks like and to share a little bit of my two cents on where the world is going and what my observations are. And I think of late, the thing that I love about my role is that I think I sort of become like a best practices disseminator, right? So I get to talk to a lot of customers who are in the same boat. So Customers are very curious because sometimes when you're competitors, you don't get to talk to each other. But then at least with me, you can at least understand industry trends, right? Hey, if you're a bank, what are the banks thinking about? What direction do they want to go in? What does good look like is a fantastic role that I get to play. I think I'm excited about those roles together to sort of bring sort of insight into these boardroom discussions with leaders and help them build better software together with their teams, I think it's a very exciting role to have. But we're actively building it, and we're looking forward to all sorts of feedback on how to make that role better and more impactful for everyone.

Tobias Allweier04:10

It sounds very, very interesting, I would say. Cool. Yeah, let's speak later about that, what you speak with customers, because I think it's a tough time, because a lot of change, it's a fast piece of innovation. But one question, you mentioned region for the audience. You are from the Asia region, or what is your scope of where you're working with customers? This.

Karthik Rameshkumar04:39

Is very interesting, because I think the first time I met Tobi's Opia is actually at an event where we were actually working with another customer. Shockingly, this customer is not an Asian customer, as in they don't have their headquarters in Asia. They're basically based out of Europe, somewhere else. So ironically, this podcast is happening because of one of the reasons why Asia is very unique, right? If you look at it, Asia has sort of become the developer center of the world, right? There's a lot of gravity that's shifted towards here because I think over time, one of the things that's been realized is that Asia has a ton of engineering talent, software engineering talent that passes out of its institutions and colleges. And this talent has now been able to then be employed in significantly impactful work across a long time. This started with all of the big GSIs, sort of a thing in India, and then a large part of a lot of the other Asian companies started off. But what's happened since 2020 2012, 2014 is that I think Asia sort of become the center, epicenter of software development in the world. So I jokingly say, right, so you guys can all go check it out. Actually, GitHub has this Octoverse metrics where we actually put the total number of developers in every continent and everything. Actually, if you go and look at Asia as a unit, it basically... smashes through the developer records on every other content whatsoever, right? Because it's just so many developers here and people that really want to try to get their hands dirty and more joining, right? Like I think one figure that I saw out of India is that I think every year we had about 300,000 software developers just from our tier one engineering colleges. I'm not even thinking about community colleges and all of those which add more developers. I'm just talking about people that graduate in computing sciences just every year is 300,000 people. That's a lot of people. that graduate in the core science. So I think that's the reason why, right? There's a ton of really smart talent coming out there, which means that a lot of the large European American organizations are setting up global capability centers in Bengaluru, in Pune, in Hyderabad, in Hanoi, in Vietnam. They're setting up centers in Singapore to drive conversations. They're doing it in Hong Kong, right? Australia, there's so many places where people are building these capability centers. I think what's happened is Microsoft is a fantastic example ourselves, where we are all gainfully employed. One of the things we understand is that Microsoft is a huge development team based out of Hyderabad. A large part of our development happens there in what we lovingly call the India Development Center, the IDC, right? So all of these are very interesting sort of views of where this epicenter has happened. So I'm uniquely positioned to kind of answer this culture because I work with customers on both spectrums, right? I understand how these products are built and what customer personas they're trying to look at. And then I understand sort of the builder persona out here who's sort of trying to fulfill those needs. And then I'm able to then bridge these two together in a way which is very unique to me. So I think this India perspective and the Asia perspective is very relevant to this conversation because a lot of the bleeding edge work is now being done out of here. If you see innovation centers, right, largely for a large number of European organizations, innovation centers are based out of India, based out of Singapore, based out of parts of Asia. It's spectacular to see the kind of thing. And all of this has then had bleeding effects for the economy ourselves, right? For digital payments to technology. That means that it's not just European companies that have had the explosion. It means that there are more organizations here who are building for the local market and therefore it starts a virtuous cycle of people building for other people. And it's a beautiful sort of ecosystem that's developed in itself. So I think that's the beauty of Asia. So if you look at Europe, I see a lot of, when I go to Europe and when I go to the Americas, there's a lot of innovation going on there. There's a lot of R&D. And then all of that R&D comes to India and other parts of Asia to get built, right? And sort of the bleeding edge and then, oh, what do we do differently? How do we move it forward? So I think that's a very unique perspective of this globalized economy, right? Where everybody's work feeds into someone else's work. And it's very exciting to see as we sort of go forward.

Tobias Wittenburg08:56

This also mirrors like our experience. So I have had like one project with colleagues of ours in Hyderabad, and Toby and I myself, we had a workshop together in Bangalore, and I was also recently in Bangalore. And the kind of hunger from everybody, you know, to innovate, to create something new that was really amazing. And when you walk through the streets, there are like posters on the streets saying like, Here you can learn about DevOps or you can learn about programming and stuff like that. And I haven't seen anything like that in Europe in one way or another. So that was really astonishing to see how much is actually coming out of these cities.

Tobias Allweier09:33

Yeah. And the energy, like Toby said, it's a different game, I would say. And you said we give it to you to produce, I think. There's already a change. Something like the idea comes from China or from India. And yeah, I would not say that we don't, can achieve something here in Europe or in Germany, but I think we need to adapt. We got a little bit lazy, I would say. I think now people are ****** on the podcast, but that's really my opinion. You should go there and you should feel that energy and it's like, wow, people, People behave different. And they have that energy and the smiley face and they want. The motivation is a different on a lot of people, I would say, not on everybody. Yeah, we were speaking about AI or we want to speak about AI. So Karthik, every day we wake up, every day something is new. How to manage the pace of fast innovation in AI area? What is your personal approach with that?

Karthik Rameshkumar10:41

God, where do I get started? I think this is such a huge, this is such a huge part of our sort of where we have what our opportunity areas are as we sort of go forward. So there's a couple of ways to break it down, right? Like think about this. I think if we look at the pace of growth in this industry, I think There's two ways to look at this. Think about this. There's this one analogy that I read online that was very interesting where people said, you all think the AI way was really done a lot? Imagine this. If you were someone that lived in pre-World War I Europe, for example, right? Versus someone that came after World War I Europe, for example. And then let's assume that 10 years between here and there, you would have seen the growth of automobiles. You would have seen the ability for people to not have to do horse-drawn carts. You would have seen public lighting in most major cities in Europe. You would have seen commercial flight finally happening, right? The Wright brothers to commercial flight happening was like five, eight, nine years. So what people, some advocates of change and some people that really study this philosophy of how human scale change happens over time basically say that it's actually not very significant, that we have had other times in our past where we've gone very differently. Let's assume we put someone on a deserted island before World War I, when they came after World War II, they would see the whole world completely changed. So that's a huge mind shift because things became easier, things became more healthy. There was an entire pandemic. So many things happened in that time frame, right? So That's the beauty, right? So if we zoom out and look at it, then there, but today, because we are a large part of us are involved in that hype cycle, let's, I'm going to break it. This is a hype cycle, right? There's always a trough and a crest. There's so much going on that we all have to deal with, which is so shocking. Every day when you open Reddit is basically thread after thread after thread. Hacker news today is a whole different thing. Product hunt. was one of my favorites and every post and product is about an AI company that's now trying to anything that's to do with AI, for example, right? So whatever we used to do, there's an AI way of doing that right now differently and something new every day. Even in our own platform like GitHub, which I can speak about, right? Like we have change logs that I now subscribe to our own RSS feed. to be honest, because the pace at which the RSS feeds come out is easy. I get a notification from my mobile phone, and then I can see the change logs of what we're changing, you know, new models coming out, new things are different. So it's so fast and exciting for us that it's not. I think in one way, the AI wave has fed the AI wave in a lot of ways. So think about it. We are using AI to build these tools.

Tobias Allweier13:40

Yes, yes.

Karthik Rameshkumar13:42

And then therefore we are building faster and then we are pushing more things and more impactful releases for our customers. I think it's wild to sort of see sort of how fast it goes. So I think for me, I think the intentionality is true. That's the first piece, right? You have to have an intention to gather more information, one. And two, I think today the more important job is filtering. critical information that you should consume versus what is information you can deflect and say, just know about a little bit and then go forward. So I think levels of knowledge is sort of what I've done. So I basically say, if I need to know this, I need to know all about this and I'll do deep research. If I need to know only what it does, I just need to know what it does. And then if it's really interesting, I'll get my hands dirty over the weekend. But if I were to get my hands dirty on every AI innovation that came in the past week, You would need an entire week to do that. just doesn't work.

Tobias Allweier14:38

Yeah, I agree. And I think what we want also from Toby and Toby give a message is, I think it's a hype, yes, but I think it's a change. When we think about software development lifecycle, and I think there's so much improvement, I think the... The biggest challenge is nobody knows how to make that in a professional way. What is the new software development life cycle with AI? Where does it work good? What are good patterns? Tools, like we said, is you wake up, there's a new tool. So the tool sets are not like in past, yes, you start a new project and you know what kind of tools you need for that and which roles. But I think, and the message what we want to give for the audience is there will be a change. I'm 100% sure. We don't know how and we don't know how much was hype and how it will be in the future. But when you are a listener and you are not working with AI and you are somewhere on the software development lifecycle, I would highly recommend you start with it. And like Karthik say, don't take everything serious what comes out. But yeah, start. That I think is a big message.

Tobias Wittenburg15:47

Definitely. I also like the historic comparison you were making. Like I was just, while you were speaking, thinking about when you say pre-World War One, for example, that was my grandfather's father's generation. So, you know, that's not that far away from me because, you know, my grandfather is dead now. But I actually, well, I think he died when I was 12 or something like that. However, I mean, I never met his father, of course, but I have photographs from him and stuff like that. So that's not like historically not that far away from me nowadays, and. even when the pace now accelerates with everything, it is also pretty clear that when you have like a long-term project of a year or one in a year and a half or so, the stack that you started with will be probably different than the stack you're ending up on at the end of the project because so much is happening in between, and you have to be really agile about it and don't like stick to the pattern that have always worked with you, but rather adapt to like new patterns and new software stacks and everything.

Tobias Allweier16:50

Yeah, I think it's a mind shift. Mindset shift, it's really something what is hard, because mindset shift is also always hard to manage, to achieve and to go through it. Yeah, let's discuss about software development lifecycle. I think we have the different phases and what I observe when you use AI, it's changing because maybe a role can make different things because of large language models. What is your thought about that?

Karthik Rameshkumar17:23

I think we spoke about this a bit before, and I think me and Toby have discussed this when he was in Bangalore as well. The beauty about this was that one of the things that we noticed is that while there's a lot of this change going on about the software developer life cycle and how people are changing things around this, and there's so much innovation, and every new product is coming out there, every other week there's someone new launching, something new about some part of the software developer life cycle. I think the idea is that there's the underlying shift of skill sets that we need to talk about of what's sort of essential for success as we grow. I think I see a large amount of change that's happened already in the code generation space that's already sort of now plateaued, right? So I think we know for a fact that AI can write code. We know we've understood AI can write good code now. And I think with the more models that are coming up, we know that AI can write and validate the code it's written in significant ways. I think the innovation that's happening right now is on sort of agents for every single area of that part after the code's been written. Do we want to check the quality of the code that we wrote? Do we want to check the validity of the methods that were written to sort of carry out the functions of what the code's supposed to do? Are we writing code that conforms to organizational standards or international standards for security, for quality, for styling, for all of those things, right? So I think in a large part of this, I think the most important piece, and I think everybody's got to think about is that your skill sets of what you do are basically what AI models are trained on. So if you're a really good tester, an AI agent that specializes in testing basically then has the skills of what you do potentially well testing and sort of it then learns from the code that you wrote is where the public conscience for the AI LLMs are. And the more parameters we train these LLMs on, the more volume of capability that they have to sort of then learn it. So when we talk about trillion parameters and all those in models, that's what we mean is that they then are able to then sort of collect more information across different sources and then be able to take that information and give it as more insightful responses for you. So I see that in the rest of the phases of the software level lifecycle, there's a large shift happening on how we can implement it right now. I think code generation already there. I think very easy use cases. I think most organizations across the world have some form of AI in that part of the lifecycle. And as they go into sort of then after generating code, what do you do with the code that's been generated? Validation, testing. in a QA, maintenance, all those things are sort of where they're sort of going into next, right? And I think all of this then feeds into what they're trying to build as a product over sort of a longer period of time as an organization. So it can then contribute to your bottom line. So if you're saving more time, building more features, making customers happier, and at the end of the day, that drives positive revenue growth for all of them, right? So I think it's a very interesting sort of a place we're in right now, where we then What after coding is the million-dollar question that people are asking now?

Tobias Allweier20:43

Yes, and what I observe is in past it was that time of the truth is in the code, so you have people they was testing and they come to you as a developer and said... Why is it not working? So where did you check it? In the code. Because there was the truth. There was written what it really does. The documentation and requirements maybe was outdated, let's say like that, because of laziness or because of this amount of work what you need to put in to update that stuff all. But what I observed with AI, it's a button click. So even the tester can give that question to an AI agent and say, hey, why this code is behaving like that? I expect it differently and gets tester role explanation, even when he don't understand the code, it's transformed for him as an example, what is really, really cool. Yeah, that's, and I see a lot of improvement, like you said. There comes some issues because of telemetry. You see there is something in production agents starting and grabbing this context and research your code base and give you maybe some kind of a root cause analyzer. And maybe next step is to say, hey, here's some kind of a branch and then check it out. I think it's a fix. And how cool is that? You're sleeping, your software is not working, you're waking up and It's something there. Someone was already working on that. And yeah, it's a big shift, I think.

Karthik Rameshkumar22:14

Sort of one thing that we discussed was very interesting is that human beings need eight or 10 hours of rest.

Tobias Allweier22:20

Yeah.

Karthik Rameshkumar22:21

We work eight or 10 hours and then we have the rest of the day to ourselves. But the beauty of the AI agents that we have to realize is that they're able to just constantly work 16, 18, 20, 24 hours a day, if you want. There's no limit to them. And the beauty of it is, Every software engineer now with agents basically can then say, I'm going to spin up 20 agents that do 15 different things for me. And then I can then concentrate on this one task that I think is subliminally important for this use case and just focus on that and say, OK, I'm going to focus on this system architecture piece while you build the UI, you build the test, and you build the framework around it. And then you then validate that I've written everything correctly. And then four agents go about doing what they're doing in parallel. So I think we started seeing this towards the end of last year where agents started exploding. I think what we're seeing now is how can we make these agents context-rich? And again, this is just in three months. By last year, I just mean December. November, December, when the whole agent thing is only one quarter in, the conversations around how do we wrangle these agents? Is it skills? Is it MCP? Now there's a bigger conversation around those things. What are the right places to give custom instructions for our agents, whichever agent you're using? So all those pieces are very important. So I think if I look at sort of where we will shift, I'm very excited for the future because that means that as human beings and human developers, we focus more on really meaningful pieces of work that drive change, like impactful change, rather than actually sitting and building a UI, which is like a solved problem, like how many login screens do you want to design?

Tobias Allweier23:57

Yeah, exactly. Exactly. I thought about that. I have a, um, I follow one guy about the stock market and he write really manual articles. And then I, I ask myself why I give that guy 20 euro per month. It can do a large language model. And then I read that article and I thought it can be done by a large language model, but I need to know what I put into the prompt to to get that result. So even his experience and his thinking about that world, I don't have it. So I would not be able to make that prompt and to get that prompt. point of view in some kind of a large language model generated article. And I think that is something what made me think about software. So like you said, log-in forms, I think average can now everybody. But to make it more advanced, you still need to think. You still need to guide that thing and say, hey, I don't want to have that standard log-in form. I want to have that. nice one why ever what is what means nice yeah but I think that is now something like you said people can more concentrate about user experience about how I make my software better and not about how to achieve the the average I would say.

Tobias Wittenburg25:18

Kind of leveling the playing field for everybody I think yeah and if you want to be be or create a high quality product this is like the the human work you can put on top yeah absolutely yeah.

Karthik Rameshkumar25:34

Which then sort of naturally segues us to this million-dollar question, right? Which I think is the most often asked question that I get is, okay, how about my job?

Tobias Allweier25:43

Yes. Yeah.

Karthik Rameshkumar25:48

If only I had a penny for every time someone asked me that job is the question. No, no. I think it's very interesting. I think this is something that came up in many different places, including the European Parliament, if I'm not wrong. I think this was brought up as a very active conversation where they spoke about it. I was very intrigued by the whole debate where they spoke about this. The way I look at it, I think the best way to put it, though it might sound like marketing speed, but it's not. But I think AI is a force multiplier. Whether you're in software development or not, doesn't matter. Because if you look at my example, is that I don't write as much code as I used to, to be honest. But I use a lot more documentation. I use a lot more of the office tools, for example, from ours table that I use on a day-to-day basis myself. Because I'm a little bit more distant from writing code on a data basis. I do review PRs and all that, but I don't write code, per se. And what I've realized largely is that there's a lot of AI to be gained in, regardless of what work you do, where you are. And there's a lot of fear-mongering going on. And I want to be very open about the fact that today's fear-mongering, people are creating a bias towards this fear, right? And I think it sounds good on a newspaper headline. If you want to be sensational, right? Like, oh yeah, it's coming for your jobs. It's fantastic for a tabloid newspaper. It's good for page three, right? But the reality of it is I think, yeah, AI still cannot do a lot of things that only humans can. Like the example of what you gave, right? the gentleman that wrote the finance newsletter, for example, that you pay for access to. Journalism is a fantastic example of where no chance in hell, you will not be able to have an investigative journalist AI. AI can maybe help the investigative journalist, but then cannot do that. But even people like me, for example, in management, when we're writing user spec documents or feedback documents, or when we're writing what sort of products to prioritize, or when I'm writing a BRD or a PRD for sort of a demo or something that I want to showcase how cool something is, but when I'm building a talk track, this is really cool for me, right? When I say, hey, is my talk track making sense? Will someone understand? Give me feedback about it. So it's a lot of using of AI. Helps me sort of then sound out my thoughts, because in a lot of ways, we used to work, even though you had teams, you had to work in isolation, right? It was until someone gave you feedback on what worked or what didn't work, you were largely isolated to your thoughts on your things. You didn't have a chance to sort of say what it was. But now you can have a mirror, someone standing right in front of you that says, hey, I have this thought, I have this idea, I want to make it work and how do I do it? And then you can then say, hey, it doesn't sound good and use it as a sort of a sounding board or a validation board. So I think a lot of people have to gain from AI. There's not many people that are at risk from AI. I'm not going to say that there's no one at risk from AI because I know that's not true. There is some risk from AI in some areas of jobs that can be actually replaced with AI, there will be, like data entry and OCR, Very easy use cases, image recognition. These are things that are part of development. I think we should be cognizant about those things. But a large part of what it takes to be human is still going to be human. And I think what we spoke about in the last, when we were speaking about right now, the skill set shift is critical for us to sort of have the right skills to be more impactful in whatever work we do, whether we're accountant or whether we're a software developer or whether we're office worker, it doesn't matter. It's just about Being open to change, understanding how this tool works, taking it one at a time. Don't speed through it. It's okay. You don't need to know all the innovation that week or that month or that year, but choose one innovation that drives significant impact for you and your work stream and just keep using it, keep better at that tool. I think that's the best way to do it.

Tobias Wittenburg29:44

Yeah, definitely. And the one thing I thought about the other day is I was writing an iOS application and I thought, well, it's not just me hacking in the code, which used to be my job like 15 years ago. I feel more like a kind of product manager or something like that, where I have the AI as a sparing partner and I'm putting in ideas and I'm getting feedback and I'm creating code and then I'm testing this stuff and it feels more or less, yeah, as I said, like a kind of product manager, when you're working with AI alongside.

Tobias Allweier30:17

Yes. And you can try out stuff faster. I think that's a good point. So making a short proof of concept. In past, you had this discussion with business and they had a wish and you as a developer said, ah, it will not work. And because there was a lot of effort, you never could show them that what they want to achieve. But now maybe it's one or two prompts. Yeah. And then show them. Something like what we called in past some mock-up application, and I think that is a nice thing, but the other story is, you say it feels like a product manager and a product owner, whatever, but... You need to digest what comes out. I think that is something that is the tough part of it. I see a lot of people, they use that things and they say always, Yes, yes, yes, it's the new next button behavior of people. You, and that is my biggest challenge. How can I follow this AI, whatever it does, whatever ideas comes up? How can I digest that? How can I be still a pilot? Because in the end, I need to understand what comes out there. And I think that's the, for me at least, the toughest part of it, to graft that knowledge.

Karthik Rameshkumar31:35

I think we have a sort of a... We speak about this in our prep, where we're speaking. And that's the interesting thing. So there was this large analogy that I brought up. And I think I'd love to bring that up again for the audience as well, I think. It's just the way we used to-- we don't Bing something or Google something. It's a very foundational part of the human experience. We are humans. We are dumb. We don't know things. We Google things. So we always search on Bing for things. It's very simple. Very simple, rudimentary human behavior. Everybody knows how to do it. I don't think there's any, there's very few people that are on the spectrum who don't understand what it is, right? But the fact of the matter is today, because of the ability of us to have so many tools available that can get us that information, we just stop doing certain things in a certain way. And I was giving this example, right? So for example, let's say I just wanted to search for a certain interesting fact about, how does a certain engine type work, for example, and say, how does this, how does Mazda's rotary engine work, right? Typically, when you ask Google about the Mazda rotary engine, it will just give you a bunch of 10 links where you go to Mazda's website where they explain the rotary engine, or you would go to, you know, a physics website that told you about how the physics of it worked, or you would go to a car review website where someone wrote a car review about how the car that has the rotary engine works, for example. But today we either go open up a app, right? It could be ChatGPT or Perplexity or whatever, or Bing and search and say, okay, how does it work? And then it just gives you an entire output, like sort of the idea of what you, exactly what you ask and it gives you just that much as an answer. So it kills curiosity is my, is sort of the way I would look at it, right? It kills the ability for you to then say, How do I go about and do it? So I was talking to the team and I said, one of the ways I do it right now and I feel that it works really well is that I actually added a custom prompt inside all of the AI engines I use, which basically says, whenever I ask you for something that looks like a search, always give me back three links or three pieces of information that would be nice for me to study. And give a link for instantiating where you got that information from. So in the master case, for example, you'd come back and say, this is not the first ever time the rotary engine was tried out. Do you know that in marine applications, there are boats and ships that actually have this rotary engine as part of their thing. Do you want to check more about that, for example, right? So it then builds that curiosity for you to then go and drive and find new things. This goes back to what we spoke about AI, right? AI is a tool at the end of the day. It's like a hammer or a power drill. You have to know how to use the tool to be able to extract the output from the tool. And you have to have the right set of instructions for you to be able to use that tool. It's like a workman's boot. If you are in a factory and you don't have the right sized boot, you're always going to feel like it's either too tight and it's hurting your leg, or it's too loose and it keeps slipping off. Because you have not customized it for what works for you. Right now, I think a lot of people are using AI and finding that it is not as helpful or it's for instant gratification or instant help. But the more you customize it, the more you talk to it on what you need, I feel like the better it gets. So I think that's the foundation, not only is it for other AI, but the same thing in software development as well, right? As you customize it for what works for you, it gives insanely wonderful results.

Tobias Wittenburg35:09

Yeah, exactly. And I think the example you gave with the prompt about peripheral learning and getting different facts also besides these really specific query that you're giving it is actually brilliant, you know, and because all that context information, you're not getting that right now. And I would probably adapt to that and try it out myself, you know, as a next step. This is a great, great learning.

Tobias Allweier35:36

I think it's, you brought it up in a conversation before that recording, but I thought about that and I find that analogy, like someone makes a trip, so let's go to, I don't know, Africa. And he planned everything and you say, Toby, you want to join? And you say, yes, I join. So, and you make that trip, but it feels different. What I want to say is someone planned it, you jump in and you, Enjoy it or you plan it. And you think about that, what you want to see, you make some kind of research. I think that's my energy. So when you ask someone like a ChatGPT and you say, hey, what is a good way to visit Africa? You get an answer, sure. But I think you should think about what is important for you, how to, what you need to put into the prompt and how you need to challenge the answer. and think about that. That's my way of thinking. Yeah, definitely. So jumping in and be a guest is maybe not the right way in using of AI. Yeah. You've got to be in the loop.

Karthik Rameshkumar36:47

You've got to be at the driver's seat. You've got to be the person that's orchestrating all of this happening, right? I think we've fixed it in software engineering, right? Because we've always had this process in the past, you know, where any code change that is written by anyone goes through this process called a pull request, for example, right? So for the audience that doesn't write code, a pull request is basically a unit of work for software engineers who, let's say you changed a few files of code and then you submit a change request. A pull request is basically a change request where then someone that's a more senior person can then review the code and recommend the changes that they feel would be more impactful in the code base for them to then be able to implement in their future. So In software development, there's already a gate. There's always already a gateway for you to be able to then go ahead and do that. So what you see is that a lot of large part of the agents are now part of that gateway and the humans are in the loop because they are the ones that are approving the pull requests. While someone can review a pull request, the approval of the code that's been written is always human. Someone's always in the loop and someone's always checking the code to ensure that it's valid and sort of then passes all the requirements that they have. So I think We've had horror stories in the past. A good example is how, I don't want to name this person, I don't want to name the tool, but then a tool came out in the newspapers a couple of weeks ago where this tool basically went out, deleted an entire production instance. And this software giant basically then had multiple hours of an outage because an entire set of agents were running on a set of permissions that they had granted for them that they should ideally not have had. in the first place. They were running on YOLO mode, for example, right? So it's like proper YOLO. And then that's shocking for me, right? Like I've seen, you know, Molt, so we all saw the announcements of, you know, Moltbook and Cloud Bot being acquired, for example. We saw what happened in the Cloud Bot apocalypse and all those things. So there's a lot of interesting lessons for a lot of people to learn, right? I think There's a lot of change. We have so much change every day. And we have to be in that mindset that, hey, we have to change the way we operate from in sort of different ways. But it's an exciting time to be there, but it's also a time where you have to be very cautious about what steps you take, what permissions you craft, what levels at which there, and ensure that at every point in time, there's a human that's saying, in your analogy to be like, if you want someone to go to Africa, Of course, if the AI LLM basically said, you know, put your head inside a lion, lion's face. That's probably not a good idea. Yeah, maybe. It makes an amazing Instagram photograph, but...

Tobias Wittenburg39:40

Unique experiences.

Karthik Rameshkumar39:44

It's a unique experience, put your head inside a lion's face. I'm like, nope, I'm fine.

Tobias Wittenburg39:49

Exactly. But I think like that is like the deterministic versus non-deterministic. It's like, it's like this is a brilliant example, you know, for that. And when you're mentioning the production outage and stuff like that. So you also need to be prepared like for non-deterministic output, although it's a computer, you know, we are always used to like input validation and a certain output, you know, that is quite deterministic. And this is something we have to Yeah, have in our minds that AI might not always be the right tool for certain things and choose your tools wisely about what kind of output you want to have.

Karthik Rameshkumar40:26

So this is a pet peeve of mine. Why do you need to use AI for everything? You don't need to necessarily do that. One of the most recent examples that I came across is very interesting. In a past life, I used to be a security researcher myself. I used to do a little bit of cybersecurity. And that space is full of tools that do that, right? There's so many leaders in that space that operate and have built amazing tool sets that have done a fabulous job of limiting risk. I'm not going to say that all the software that's written in the world is now safe before AI. It's not, but there's tons of progress on how to do stuff more safe, more securely for all the organizations out there. But ironically, what I realize is that all that comes out And then we have such a large, strong set of tools, including GitHub's own tool, right? For example, in code security. And then you basically see that there's a non-deterministic tool that's probabilistic that comes out. And then all of the industry then has an entire cycle says, Oh my God, that's the next best thing. So basically the translation of that is you have okay with an LLM that has 80% chance of getting something right. And you're okay with that running security scans and checking your stuff. But you're not okay with using a tool that has 100% chance of probably getting it right. Not maybe 100%, I mean 90%, 95% of getting it right, right? You're okay with taking a probabilistic tool, but you don't want to take a look at a deterministic tool that knows what it's doing and just has the right output, right? It's very interesting. It's like having this engine in your car that might work 90% of the time. Would you rather have that? Or you say, no, it's okay. It's got 98% reliability, but this works 90% of the time, but goes at 700 kilometers per hour. Or you can have a car that goes 300 kilometers per hour on the autobahn and then still, you know, it still works 98% of the time with reliability. That's the million dollar question, right? Yeah, I just don't get it.

Tobias Allweier42:24

Yeah, and I think that's the point. And even the example of what you brought up with this deletion of production database, I think, That is also a shift from a developer. In past, developers said, hey, I'm on my local machine. I'm in a special local environment. I can do whatever I want. But when you use AI, AI is very, very searchable. Let's say grab stuff somewhere. And when you don't think about where it got that information, what kind of information is, let's say you have somewhere an environment variable, some Why ever a productive database connection string? And you give him some questions and he asks you, can I use that tool? Can I execute that command? And you don't make that, I'm a pilot, I'm in charge, and now I want to understand what this thing is trying to achieve. And you say, yes, YOLO mode, then you are in ****. When it comes to customer or developers, they sometimes complain. They say it's not reliable. I don't like that. And I think that's that's not supposed to be the last. Yeah. Yes. First of all, when it would be reliable and deterministic, then we would not sit in here and speaking because the idea is it's generative and it's some kind of creative. And that gives you also a superpower, this challenging, getting new ideas, new thoughts when it would not be non-deterministic, it would also only give you that what you know. So it's not what you want. But I think that's the biggest challenge now for developer or for anybody who use that tool. It's when you need that kind of creativity with this uncertainty and you need to judge it. And when you do not need that. So for example, I had one case where a customer wants to create an agent to delete users and add users. And then I said, why you want to have that with AI? It's an important thing and it should not be- You mean you need an API call? Exactly. So why to do that? And that is, I think, We now are laughing about that, but I think a lot of people have that challenge because they have that mindset about it's something like smart. It's something like it works like smart and it's like a human and it's better than me, whatever is the thoughts and the fear, but it's not like that. And I always think about when is it really good to use this undeterministic stuff and when it's not good. Or you make a refactoring in your big, huge code base. Why not to use a traditional refactoring tool where you know, okay, I made a good renaming and everywhere it's now this renaming happened. With AI, I would not say it's not possible, but it's another game, I would say.

Karthik Rameshkumar45:11

Like I went to this ATM last week. It was the most interesting, insane example. It just drove me nuts. So I went to this ATM. I don't want to say which bank, but then we went to this ATM and this Indian bank, and then there's a bank in India, and then They basically had an ATM that said, talk to a new conversational AI engine to withdraw your money. Oh, yeah. Wait, what? It's a ATM. It's 4 buttons. You press your title account, checking account, savings account. You press the amount of money you want. You put in your security code, and then the money comes out. How complicated is that? You don't need an AI agent for that. And just for kicks, I tried the AI agent. And because this ATM has to have a mobile connection, and then there's an LLM that's then sending a response back out to the ATM agent, it got stuck. Like, in the middle of the transaction, it got stuck, for example, right? Like, why? You don't need AI in an ATM. It's a four-step process. It's not complicated.

Tobias Allweier46:09

Yes.

Tobias Wittenburg46:10

Yeah, and now say your security pin loud and clear so the agent can listen to it. That's great. This is like having like a button on a double or nothing, you know, and make it a little dilificate.

Tobias Allweier46:27

Yeah, I like that. To be serious, we're living in a comfort world, luxury world, because at Microsoft, and I think at GitHub is the same. we can use LLMs as much as we want, let's say like that. I think there is some limit, but I know nobody will reach that. And it's a game changer when you don't have to think about how much token do I spend, how much tokens do I have today, how much premium requests, whatever. And it's nice that you can try out and to learn when is this the right tool, when is it not. But Still, even when I could use it for everything, I don't do it. And I think that's the biggest learning from my side. So, and that's the tough part. Where is it good and where is it not? And when you have something like an increase of productivity and you feel good and not like more chaos, yes. So let's say you make one prompt, you get an output and then you sit more time there to make that finishing and read through it and adapt it, then you would do it by your own. And then that is not something what should be what you want. Yeah.

Karthik Rameshkumar47:42

So there's this learning philosophy called first principle thinking, right? Like where you basically say, you've got to ask an infinite number of whys to get something right, to get to the root of a problem, for example, right? You keep asking why. Like, why do you need-- so for example, if someone says problem, like the ATM use case, for example, if someone went and pitched it to a board and said, hey, I want to have a generative AI-powered voice assistant in an ATM, the first question the board should have asked was, why? And if they had asked the question, say, why, and then the why, and then maybe there is an accessibility use case that I'm not seeing, for example. Maybe there's someone that cannot see, for example, that for them, it's a better use case, right? But that's the why. You get to the core of it saying, okay, it's an accessibility feature that can be accessed by someone. But then if it's a button on a screen, how does the person that wants the accessibility feature access it, for example? So it's a critical flaw in the why chain. You have not asked the right amount of whys to get to the why of which matters here. In this case, it's a why saying, okay, this person came in. And then this person is, let's assume that they have visual impairment. they still cannot see the button to click and open the agent in this case, right? So I think one tip I would say is one of the things that I use, especially with my team, because like Toby said, we're in the middle of this AI wave ourselves. We have all the AI tools at our disposal. I keep asking my team, why? Like, why do we need to do it a certain way? Why can we not do this without AI? Is there a certain API that exists today that can do this for us? Why can we not use an existing tool or a code base that already exists for using that? Why do we need to generate something? Why do we need yet another login page, for example, right? That's the why framework for me.

Tobias Allweier49:27

Or raising these questions, why could we not achieve something in past? Because it's logic has some limits from computer. There was always some edge cases in the past where you said, Nice feature, but we cannot do it because it's too much effort or hard to program. So maybe then that the things and corners where you should think about using AI or I thought about that. We have a formalized world here in the Internet. So you want to have a pizza. It's not like you would do it in the store. It's like, okay, what is your first name? What is your last name? So nobody asks you that in the store. So I think a cool thing could be that you make it more the input of the data more like humans. So I want to have a pizza, I'm Toby, I'm living in a city and so on. And behind the scenes, this information, unstructured information will be grabbed and put into some kind of a structure and mitigated. And I'm not bothered with some kind of a formula and I need to click and then you are on the end and you click the button and it says, oh, you missed something and the data are lost and stuff like that. I think that's, for example, we can improve and I like that. But Don't put it everywhere, I would say. Yep.

Tobias Wittenburg50:43

Especially not in ATMs.

Karthik Rameshkumar50:49

What I'm excited for is that thing, right? Where you have an agent that can talk to an agent and then sort of work with you. Imagine this, in the same use case that you're ordering the pizza, I think where we're talking about A2A frameworks and all that right now is that we're basically looking at a way to say, okay, let's assume that Toby has his own Toby personal ordering agent or something like a Jarvis from Iron Man's assistant Jarvis, right? Like for example, like you have an AI assistant that knows everything. So you open up your phone and say, Jarvis, please order a pizza for me. So in this case, Jarvis then knows everything about you. Jarvis knows you only like pepperoni pizza. Jarvis knows Toby likes pineapple on his pepperoni pizza. I'm just joking. I'm not sure he doesn't like pineapple on his pepperoni pizza. But like it knows your personal preferences. It knows the pizza store that you like to order from. It knows the phone number and then it places the request. And on the other end is another agent from the store, because again, why would you need a human to take an order? And then these agents talk to each other, and this does not have to be in human interaction. I think that's the next bleeding edge, where if agents can talk to each other in a more efficient communication format that is not human language, then it's much more efficient for them to then pass information to one another that's contextual in this use case. And then once they've passed information of what sort of pizza for where, where the addresses and all that, that agent disconnect in a couple of seconds because that's all it would take for two agents to talk to each other in say something like a JSON format with A2A, for example. And then the information is passed and it's done. So it's wild if you think about the possibilities of something like that. You save so much time for the person that's ordering, you save so much time for the pizzeria that does not have to have someone manning the phone line because That person can then be actually making the pizzas or attending to customers who are at the store, for example, right.

Tobias Allweier52:32

So yeah, it's very interesting. Yeah, and they can focus on the real business value, making good pizza and not sitting on the phone and taking calls and yeah, exactly. Did you see that video? We can put that in the show notes. There was some example. It was two agents and they was calling each other. And in the beginning they speak human, yeah. And then they say, hey, I'm an agent, da, da, da. Then the other one, yes, hi, I'm here. I'm also an agent. And after that, they started immediately to switch the language. And to improve that, what you say, it should be more easy. And maybe human language is not the best way for machines to communicate. So they switched and say, hey, I can speak that and that. We have an improvement and awesome to see. I think a lot of people are scary, but don't be scary, I think. Don't be scary.

Karthik Rameshkumar53:34

Even if you look at GitHub, right? I think that's where the frontier is for us, right? Like if you look at, GitHub already has agents, like we have agents that do different types of things for you, we have security agents, we have coding agents, we have agents that can do a lot of things for you. I think a large part of our innovation right now is one in governance and control. Like how can you control these agents and how can you govern these agents? What agents and what LLMs are you using? What scopes do they have access to? That's a lot of the work that we're doing right now. We call it the agent control plane. And I think we have this offering called the agent HQ, where we basically try to bring different agents together into the one sort of a place. So you could have a cloud agent and you could have an open AI agent and you could have a, you know, you could have a, In the future, you could have, say, a Gemini agent. Whatever third-party agent wants to come onto the place, right? And you'll be able to then use an agent of your choice with a product like AgentSQ, where you can then choose the right agent for each task. Because what we've realized is just like being in a supermarket, right? Every LLM has something that is really good at doing, and then you can pass the LLM with just doing that. And for example, sometimes I've heard that Grok is really good with unit testing. I didn't hear about that until two weeks ago. Some people told me that, try Grok for unit testing. That's really cool. Like if you had a Grok agent that just did testing, for example, right? And so all these things are really interesting. So you can then mix and match things that you want. And then I think the next frontier for us is just that piece where how can we make agents talk to each other more effectively? How can they pass information between another end? Retain the context, because at the end of the day, ours is a huge platform, right? Like if you have hundreds of thousands of projects on GitHub as a large enterprise today, for example, how do you transfer and retain context between agents that are working for two different developers, but two different developers working on the same piece of code? That's a million-dollar problem to solve. That's a multi-billion-dollar problem to solve, right? How do you know who's doing what at what time, and how do you think the right intervention for who needs to sort of come in? That's the next horizon for GitHub, right? When we look at simultaneous use of agents and how developers are writing as they're writing code and they're using agents to implement changes in code, how can we communicate with each other sort of effectively? I think that's sort of the next in the horizon for us as we look at it as well. It's exciting times to come, to be honest, I think, as we... I'm very excited. I'm excited for the fact that When I wrote my first line of code, when I was in my first year of college, right, my first ever line of code was in C programming, right? And I was scared to start. I was scared because I did not know what it was. I did not understand what it was. I could not understand the characters in front of my eyes. Of course, as I became a more proficient developer, things start making sense. If you do something oftentimes enough in your life, you become good at it, right? Practice makes a human being perfect. But I think the beauty of what we have in our disposal right now is you can get rid of that fear. You can become a better singer with AI today. You can become a better author with AI today, write better things, right? You can become a better manager with AI today, ask it questions on how do I react to some, you know, one of my direct reports, how do I react to a better manager? You can be a better human being today, you can be more curious today, you can be what you want. with something that was just not possible five years ago, right? And have that ability to then drive those skill sets, which I think is fundamentally paradigm changing. And that excites me, like the expansion of human possibility, right? Of all of us being able to then do these new things is very exciting for me to then see what we will do collectively. And as long as we got our head on the right places and we do the right things for each other, we care about each other, and we keep building the way the human race has always looked out for each other, then I think the future is bright for all of us. I think we'll collectively build a sort of a world that looks forward to sort of then new innovations and new horizons for all of us together, right? Significantly saving human time, putting our brains together for efforts and things that we really need to solve so that our energy is spent in the right places. I'm excited for that.

Tobias Wittenburg58:01

Yeah, definitely. And thank you also for bringing up the human element of the whole chain. You know, I think this is something we in each and every technical discussion we leave out for often enough, you know, and bringing that basically back into our heads is really, really important. Yeah.

Tobias Allweier58:17

Yeah. And I think human also is a good word. And you mentioned some different models, different tools. Yeah. So and I think all Or what is a challenge for me? Someone comes and say, Hey, the model is better, but it's not like in the past that you have some kind of a deterministic feature matrix, and now you can compare, Okay, it has this, and you make a... black and white decision. Let's say it like that. Because when someone says that to you, you should think about, okay, what was the context? What was his prompt? What kind of data was accessible? Custom instruction and whatever. And that makes it so complicated. So, and when people come to me and say, ah, it's better. So then I challenge them and say, why? What did you do? And even with models, it's, I think, a tough part even for us who can use whatever we want to decide which model is now the right one. And it's my, my energy is like it's some kind of some employees. Yeah. So every model is an employee and you need to get a feeling how, how good is this employee? What, where are the strengths and where are not the strengths? And sometimes you even have to ask yourself, how can I give a better input? How can I better get better instructions for this guy that he can achieve in his style of working, whatever it is. And I think that's the biggest challenge for people who was not in that role of instructing someone. So more taking instructions and then digest this and do something. And it's about humans.

Karthik Rameshkumar59:59

We saw this in GitHub, to be honest. At one point, I think our catalog had 21 models. And I think you can still find this on our documentation website, but I think we have an article that basically says, if you are using which model to use for what use case, I think it's still there on our doc site. You can still go check it out. But we realized through our AB testing for a lot of developers, that developers were just confused, like what to use. One of the interesting things that I think we've done, and I think a lot of the industry is now following suit with that, and I've seen that change, is what we call intent detection. We basically then try to understand, if you're trying to do a certain type of work, and we try to then understand what is the intent behind your work. Are you trying to write unit tests? Are you trying to write code? And then we then give people a random new model called auto, where you can basically just have choice of whatever LLM you want. we chose the LLM that we felt is best for you. We went out for AB tests and then trust me, people did not choose it. So today we actually incentivize that on our platform. But if you choose auto, we give you a 10% discount on premium request usage on GitHub Copilot. If you actually have auto as a default model and we're incentivizing users to use that more because we feel your experience with something like that is better because we're then letting An LLM, an agent, actually sits in between, which we call an intent detection agent, and then identifies what's the intent of the code base and then the prompt that you're giving, and then diverts you to the right model that will then do the task for you. And then whichever model you use, you'll get a 10% discount on that.

Tobias Wittenburg61:31

Yeah, that's brilliant.

Tobias Allweier61:33

Yeah, but this is, I think, the biggest challenge now. What model is good, what is not good, what is the model for the right use case for my project, technology stacks. It's a tough question. And yeah, it would be nice to have something, like you said, an AI, what has.

Karthik Rameshkumar61:50

Some-- And then tell you which AI to use for this AI work, yes.

Tobias Allweier61:57

Exactly.

Karthik Rameshkumar61:57

It's like having an AI supervisor that supervisors AI agents that are supervising other AI agents, which is actually real. It's a real use case. It's happening today.

Tobias Allweier62:08

And another point, I think, what to add, and also about mindset, I think a lot of process in past are made like they are because of humans. And one example, I see now people moving wikis in markdown into the repository for the reason it's easier to grab for AI systems. that knowledge. But let's assume two years back, you're sitting in an interview and someone asks you how you share information in the teams, how you have some kind of a knowledge platform. How you do that? And you will sit there and you say, it's a text file in the repository. You will not get a job. And I think that is now also something what is changing because we want to have, we have that large language models, we have easier, an easier life at processing. big, huge text of language. And it's a change. And even made me surprised. I saw that and I thought, it's genius, but hey, come on. Two years back, I would say, no, don't do that. Use something. What you see is what you get, editor or whatever. So to make that more easier to edit and adapt and to read, but it's not necessary anymore. Crazy times. And interesting, I would say. Yeah.

Karthik Rameshkumar63:31

I just want to wrap that up. I know we've had a ton of conversation, but I think one place where I want to change, I think I'm going to be the guest that asks you guys the questions on your podcast. I want to have that recognition of being the guest that started this new trend. But I'm going to ask this question of you. So I think I love asking this question. Whenever I have a panel with CXOs or whenever I'm doing this, ask this question. I love asking this question. One is I love to ask, tell me one thing of everything that we discussed, one thing that keeps you awake at night, something that you're not necessarily afraid of, but something that gives you thoughts, that gives you thoughts of anxiety or thoughts of things that you don't know necessarily how something will happen, right? Not necessarily a fear, but you're uncertain about something. And tell me one thing that you're excited for, something that excites you and like, oh, this is fantastic, what's your exciting thing, to both of you, yes.

Tobias Wittenburg64:19

Yeah. So I can probably get started. So one thing, well, it's not necessarily keeping me up at night because I still have a good sleep, but I'm thinking a lot of right now is for younger generations. So I have two children, they're aged 11 and nine right now, and I'm also volunteering at a school in Frankfurt, Germany here. And these students are grade seven, you know, and whenever it comes the discussion up with AI and what they're doing, I think AI impacts these younger generations a lot more. First of all, they get used to using AI on a daily basis. So these young people, they're quite confident in using ChatGPT, for example. But on the other hand, it impacts their choice, for example, what they want to become later in their life. So we have had a conversation with somebody who said, well, you know, I want to become a software engineer, and I'm not sure if this is actually the right choice. And I mean, based on our discussion, Right now, I think it's still the right choice to go into software engineering and stuff like that, but these students, they still have, I don't know, six to seven years in school, and you don't know what is happening in the next six to seven years, and same for my children, so... I mean, you cannot beat knowledge, so it still makes a lot of sense to go to university and study a certain subject, in my opinion, But giving them good advice, what the world is going to look like in six to seven years or something like that is quite difficult nowadays. So this is something. which I'm thinking a lot, in terms of newer generations, in terms of programming languages, in terms of how we're doing stuff in the upcoming future. And there's a lot of where I'm spending a lot of thoughts on.

Tobias Allweier66:01

Very nice. And what keeps you excited? Yes.

Tobias Wittenburg66:04

Yeah, I mean, it's basically the same, you know. We were discussing like things opening up every day and new things coming up. And, you know, whenever I'm getting a chat from Tobi, have you seen the latest model, have you seen this, and have you seen that, you know. Yeah. You know, I'm trying things out myself like every day just to keep up with the pace, you know? And so I think the amount of AI knowledge is also not distributed equally within our society. So we have people who are at the forefront, you know, who are far more advanced than I am. I'm somewhere in the middle, you know, I guess I have a good overview, at least in terms of developer topics on AI and stuff like that, you know, but there are also people in my personal environment who said, well, can we switch off that whole AI thing? I'm not comfortable using that. So AI is still keeping me excited and being really having a good conversation about AI and good thoughts and when to use it, when not to use it. And so this is also something which keeps me excited with new possibilities, as well as deciding deliberately that for a certain problem, I'm not going to use AI today.

Tobias Allweier67:21

Okay, good points, Tohui. Yeah, what keeps me awake? I ordered a MacBook Pro first time in my life. The question is when it gets shipped. No, to take that more serious. Oh, God. I think what keeps me awake, I think it's this energy. So, two years back, I think it felt like everything is settled in our industry. We know where to go and how it works, and a bit bored, I would say. don't take it personal. Yeah. So no, nobody will listen to this, but it was my feeling. And now it's, it's this new, you feel like a child. You feel like, uh, everything is changing. Everything is possible. You see people starting to code who you never expect that they can code. Yeah. Because of the role, because of the, the time, what they have to do something like that. Um, and that makes me, yeah. Yeah, excited, and it's not taking my sleep, but it makes me a lot of thinking. How is this changing our industry, the world? And I liked the times, I think, because... One thing, what is serious, I think in past, I was a software developer. And when I was developing software, you have this imagination about what you want to achieve in your brain. And it's only in your brain. And it's very, very tough to translate that to product owner, to a customer. So you have always this kind of transformation of these two worlds. It's domain driven design. I think Eric Evan was writing about that and how tough it is, yeah, to bring these two worlds together and to understand where are the gaps and what I observe and what I think with this technology, I think this two worlds come closer to each other and maybe it's easier to bring in other people to give them a feeling what is possible, what is not possible to try it out. And I hope that it makes our world better in in the sense of better products. So not an ATM, like you said, but something really like, okay, now, because technology is always just a human sit in front of a machine. So you have that interface, let's say like that. And I hope that this kind of interface, it's designed by the limit of what was possible. And I hope that now we see really cool things like, Don't make me think when I want to order a pizza online or on an app. So let's do it. Yeah, and that is also my excitement, I think. It feels like a child, yeah. So I'm an old guy, but it feels like a child and playing around, sitting in a playground and doing fancy stuff. And I like it. I enjoy it, really. Yeah, that's my thought about that. What is about you, Karthik, to give the question back?

Karthik Rameshkumar70:25

I think I shared a little bit before, right? I think when I was talking about what GitHub was working on, I think I'm really excited for human capability. I think that exactly what you're saying. I think we're amplifying people's skills so much. I'm so excited to see what everyone will do. I'm really genuinely excited. Like every time a developer walks up to me and shows me something cool that they tried out with Copilot, I get so happy. I feel so happy that Hey, this is so cool. Have you tried this out? That's genuinely so exciting for me. And I love talking to developers just for that one reason. What keeps me up at night is, I think I share a lot of what we spoke about. I think what keeps me up at night is, will we be able to, as a community, like me and of course the two told me is a part of this community that's trying to share and disseminate this knowledge with all of them and trying to make people use AI in a more effective way, right? Because as I said, there's a lot of fear-mongering going on out there. There's a lot of misconceptions about how to use AI going on out there. When I sleep, one thing that keeps me up is about my community, about my solutions engineers, about my field teams, about the people that work through this, about our DevRel teams that are working across the clock trying to share this information, saying, how can you use it more effectively? How can you use it to the right use cases? How can you build the right things? There's no right or wrong for anyone. And of course, it's always gray. Everybody has their own use cases of why they do some things. But I think it's there. I just hope that there's enough people that can share their thoughts, share their learnings, and educate as many people as we can. Because I think we've left a lot of people behind in the past with technology. And I'm really sad about that. Like when the mobile wave came forward, we left a lot of people behind. when we went to apps and smartphones, we left a lot of people behind. And what I don't want to do is leave people behind in this way. I think everybody deserves a seat at the table. Everybody deserves a chance to, you know, have that insightful ability to then be accelerated by AI and do something interesting. And I hope that all of us together will be able to do that for the better of humanity. That's my only thing that keeps me awake.

Tobias Allweier72:40

Thank you. Wow, thank you for your time.

Tobias Wittenburg72:43

Yeah, that's it for this episode of Toby Olds Wei Kartik. Thank you very much for joining us today. This episode was great fun. So for the listener, if you have any feedbacks, let us know via e-mail. Until next time at Toby Olds Wei. Thank you very much.

Tobias Allweier72:58

Bye.

Karthik Rameshkumar73:00

Bye.

🎧 Jetzt anhören

Schnapp dir deine Lieblings-Podcast-App 🎧 und abonniere uns! Wenn Du uns noch eine Bewertung gibst macht das uns glücklich ❤️ (und den Algorithmus auch 😉).

Apple Podcasts Spotify
Pocket Casts

22.04.2026

Was ist ein Agent wirklich? Loops, Tools und Multi-Agent-Systeme - Episode #015

Zeige mehr Shownotes

Was ist ein Agent wirklich? Loops, Tools und Multi-Agent-Systeme - Episode #015
Was macht einen Agenten aus – und wann ist ein Agent eigentlich gar nicht die richtige Wahl? In dieser Episode sprechen die Tobis nicht über konkrete Frameworks, sondern über die Konzepte hinter modernen AI Agents. Sie ordnen ein, was einen Agenten von klassischer Software und einfachen LLM-Calls unterscheidet, warum Agents nicht deterministisch sind und weshalb genau das sowohl spannend als auch riskant sein kann.

Außerdem geht es um die Agent Loop, Tools, System Prompts, Kurzzeit- und Langzeitgedächtnis, RAG, strukturierte Outputs wie JSON und verschiedene Orchestrierungsmuster für Multi-Agent-Systeme. Dazu kommen ganz praktische Fragen aus der echten Entwicklung: Wann startet man mit einem Single Agent, wann lohnt sich Multi-Agent-Orchestrierung wirklich, und wie geht man mit Kosten, Telemetrie, Testing und Security um?

Hinweis: PAT steht für Personal Access Token (wir nutzen den Begriff, definieren diesen aber nicht)

Darüber wurde gesprochen:
(00:00) Intro: Warum gerade alle über Agents sprechen
(01:25) Was ist ein Agent? Was einen Agent von klassischer Software unterscheidet...
(03:58) Nicht deterministisch: Testing, Telemetrie und Guardrails
(06:16) Die Agent Loop: nachdenken, handeln, beobachten
(08:36) Was Tools sind und warum gute Beschreibungen wichtig sind
(13:15) System Prompt, Ziele und Versionierung
(15:30) Memory, Kontextfenster und maximale Iterationen
(19:48) Langzeitgedächtnis, Sessions und RAG
(24:15) Output-Formate und strukturierte Antworten wie JSON
(26:00) Wann ein Agent sinnvoll ist – und wann eher nicht
(29:35) Kosten, Latenz und das Determinismus-Spektrum
(35:40) Sequential, Concurrent, Group Chat und Handoff
(39:12) Warum ihr mit einem Single Agent starten solltet. Was bewegt mich mehr als einen Agent einzusetzen in einem Szenario? Was ist der Indikator für mehrere Agents? Conway's Law und Agenten!
(48:12) Pragmatischer Start: erst mit dem LLM testen, dann Agenten bauen
(50:40) Security: Prompt Injection, Credential Exposure und Least Privilege
(59:20) Fazit: Agents sind keine Magic Box, sondern vor allem Kontextmanagement
(01:01:36) Outro

Beispiel aus der Episode:
Agent Loop:
1. Das LLM bewertet die Aufgabe.
2. Es entscheidet, ob ein Tool gebraucht wird.
3. Der Code ruft das Tool auf.
4. Das Ergebnis fließt zurück in den Kontext.
5. Das LLM entscheidet erneut, bis das Ziel erreicht ist oder die maximale Anzahl an Iterationen erreicht wurde.

Link:
Credential Exposure via Supply Chain Attack:
https://www.trendmicro.com/en_us/research/26/c/inside-litellm-supply-chain-compromise.html
Hast du Bugs, die wir fixen sollen, oder Themen-Ideen, die wir deployen können? Schick uns eine Pull-Request per Mail: feedback@tobihochzwei.de

Wenn dir der Podcast gefällt, unterstütz uns kurz:
🎧 Abonnieren⭐ Bewerten📣 Weiterempfehlen

LinkedIn:
https://www.linkedin.com/company/tobihochzwei/

Agent, Agenten, AI Agent, AI Agents, KI Agenten, LLM, Large Language Model, Agent Loop, Tools, Tool Use, System Prompt, Memory, Kurzzeitgedächtnis, Langzeitgedächtnis, RAG, Retrieval Augmented Generation, Single Agent, Multi-Agent, Orchestrierung, Prompt Injection, Credential Exposure, Kontextmanagement, GitHub Copilot, MCP, TobiHochZwei, Tobi Hoch Zwei, Tobi Hoch 2, Tobi_2, Tobi 2

TobiHochZwei – Doppelt Tobi, doppelt Tech ist der Podcast rund um Software, Cloud und moderne Technologien. Die Hosts Tobias Allweier und Tobias Wittenburg sprechen praxisnah über Softwareentwicklung, Cloud-Architekturen, Künstliche Intelligenz und IT-Strategien. Mit klaren Einblicken aus dem Berufsalltag, echten Erfahrungen und spannenden Gästen liefert jede Folge Orientierung und Mehrwert – für Einsteiger ebenso wie für erfahrene IT-Profis.Weitere Infos und Impressum: www.TobiHochZwei.de/impressum

Transkript anzeigen

Dieses Transkript wurde maschinell erstellt und nicht manuell überprüft. Inhaltliche Fehler sind möglich.

Tobias Wittenburg00:00

Hallo und herzlich willkommen zu einer neuen Episode von Tobi hoch 2. Heute geht es um Agenten. Es geht nicht darum, konkret Frameworks zu besprechen, sondern eher eine Idee, die hinter einem Agenten steht. Also Agent Tobi, übernehmen Sie.

Tobias Allweier00:13

Hi Tobi, hi zusammen. Genau, wir wollen halt über Agenten sprechen, wir wollen ein bisschen Konzepte erklären, wir wollen nicht in Frameworks abtauchen. Also wer jetzt erwartet, dass es irgendwie um Langchain, Semantic Kernel, Agent Framework, whatever geht, der wird enttäuscht sein, aber es geht im Prinzip trotzdem um diese Frameworks, weil es halt einfach nur um diese Patterns, was ist ein Agent, was kann ein Agent, darum soll es halt gehen. Und das ist eigentlich, glaube ich, das größte Buzzword auf LinkedIn, das man so aktuell sehen kann. Und jeder, der irgendwie geht, Hub Copilot, Cloud Code, was auch immer macht, der benutzt jeden Tag oder jedes Mal, wenn er es benutzt, ein Agent-System.

Tobias Wittenburg00:59

Ja, und natürlich auch Businessanwendung haben, mittlerweile diverse Agent. Ja, also im Microsoft Stack gibt es natürlich die, die ganzen Copilot Agents, entsprechend gibt es Agents von anderen Herstellern, von von S.A.P., Wiener Salesforce und so weiter. Also im Prinzip gibt es jetzt überall mittlerweile Agenten, die jetzt in den letzten, na ja, 6 bis 8 Monaten aufgetaucht sind.

Tobias Allweier01:22

Ja, also lass uns mal ein bisschen drüber sprechen, Tobi, was ist für dich ein Agent?

Tobias Wittenburg01:29

Ja, spannende Frage. Also ein Agent ist erstmal ein Stück Software, die eine Aufgabe, ich würde sagen, autonom übernimmt. Ja, also normalerweise, wenn man mit einem L. L. M. interagiert, hat man ja dieses typische Pattern, dass man eine Frage stellt und eine Antwort bekommt. Ja, also gib mir mal die Regeln für Schach oder irgendwie sowas und dann kriege ich halt die Regeln runter geschrieben. So, also es ist eher transaktional, würde ich sagen. Beim Agent ist es eher so, dass jemand im Hintergrund agiert und quasi kontinuierlich etwas macht, also nicht darauf wartet, dass ich dem Agent ja Bescheid sage. Das könnte aber natürlich auch passieren, so lieber Agent, mach jetzt etwas für mich, sondern dass vielleicht auch etwas autonom passiert im Hintergrund. Ja, und etwas, was aber vorher genau spezifiziert ist, was da passieren soll.

Tobias Allweier02:24

Ja, genau, würde ich jetzt erstmal mitgehen. Für mich ist so ein Agent noch oder der Unterschied, wenn ich jetzt an ein Programm denk, dann sag ich als Entwickler, wie das getan werden soll. Also ich schreib ja den Code oder heutzutage das A.I. System schreibt den Code, aber jemand hat den Code geschrieben, der da irgendwie steht und der wird einfach ausgeführt und bei einem Agent ist das für mich eigentlich das Large Language Model, das da noch irgendwie dazugehört und das dann quasi immer wieder gefragt wird und die Antworten quasi des Large Language Models werden genommen und beeinflussen dann maßgeblich, wie es weitergeht. Das ist so ein bisschen so für mich der Unterschied. Und das bringt natürlich eine gewisse Dynamik und natürlich auch Möglichkeiten, die es früher nicht gab. Das ist so für mich ein Agent. Es gibt irgendwie, nicht der Entwickler stellt alles bereit von Anfang an oder der Source Code, sondern irgendwie das Large Language Model.

Tobias Wittenburg03:23

Und das sagt Schlangisch, entscheidet ja auch, was als nächstes passieren wird.

Tobias Allweier03:27

Genau, genau, das ist eigentlich so der der große Unterschied.

Tobias Wittenburg03:30

Und das ist, glaub ich, auch ein genau ein riesen Unterschied zu der klassischen Entwicklung, wo man, ich sag mal, vordefinierte Abläufe oder vordefinierte Entscheidungsbäume hat, ja, sondern das jetzt hier das Ganze nicht mal so ganz deterministisch ist, weil ein L.L.M. entscheidet, was es als nächstes tut, abhängig darauf von einem Ergebnis, von einer Unterabfrage sozusagen.

Tobias Allweier03:53

Ja, genau. Und das macht es so spannend, aber auch herausfordernd, weil früher war es natürlich einfacher, so was zu testen, weil ich wusste ja, keine Ahnung, welche IF und LS sich in einem Source Code versteckt hat und konnte die irgendwie abtesten und einen Testplan entwickeln. Jetzt weiß ich das ja nicht unbedingt so, was das LLM sich gerade so überlegt, weil, und das ist glaube ich auch die wichtigste Message, Agents sind nicht deterministisch. Also man kann die sicherlich so ein bisschen zügeln. Aber ich würde jetzt erst mal hingehen und sagen, die sind nicht deterministisch und damit muss ich klarkommen.

Tobias Wittenburg04:30

Das heißt aber auch, wir brauchen wiederum ein eigenes Testkonzept für Agenten.

Tobias Allweier04:34

Wir brauchen auch so was wie ein eigenes Testkonzept und wir brauchen wahrscheinlich auch sehr viel Telemetrie, um einfach auch festzustellen, was passiert denn dann, wenn es in Produktion ist, um vielleicht auch solche Sachen, die dann schiefgehen, irgendwie erkennen zu können. Und ich würde sogar sagen, es gibt solche Sachen wie irgendwie Guardrails, also Frameworks, die ich einsetzen kann, die dann diese Antwort irgendwie challengen vom RLM und auch das, was der User vielleicht noch, wenn jetzt der User den Trigger gibt, irgendwie auch challengen im Sinne von, ja, keine Ahnung, ich kann da jetzt keine Bombe mit bauen oder ich kann nicht irgendwelche Sachen machen, die halt nicht gewollt sind oder irgendwie lustige Sachen chatten, die, wenn ich jetzt ein Agentenbau für Code, bleiben wir mal Gitta Copalet, dann sollte der jetzt nicht irgendwie groß anfangen auf Shoppingreise zu gehen oder irgendwie so austicken, ne? Es ist ein Fokus eher in Richtung Code und alles andere soll vielleicht nicht passieren.

Tobias Wittenburg05:34

Genau, und das muss man sicherlich auch, ich sag mal, ganz hart einschränken mit dem, was ein Agent überhaupt machen darf. Also, wenn es um einen Sales Agent geht, soll der wahrscheinlich E-Mails schicken und Konversationen führen oder so ein, so ein, keine Ahnung, ein Agent, der mit einer Website interagiert. Es gibt ja so, so Chat Agents auf der Website, auf verschiedenen Websites oder so. Ja, da ist, glaub ich, ganz klar, was, was die tun dürfen. Und wie du schon gesagt hast, die dürfen jetzt nicht auf Shoppingtour gehen und da muss man halt auch die Berechtigungen ganz eng setzen von dem, was, was die können sollen.

Tobias Allweier06:07

Genau, aber vielleicht gehen wir noch mal so ein Schritt zurück. Also wir haben so ein bisschen fantasiert, was das denn für uns ist, aber Aber eigentlich spricht man immer, wenn man so was baut, von der Agent Loop. Also man hat, ich stelle mir das immer so vor, ich habe einfach eine while-Schleife und in dieser while-Schleife mache ich immer wieder gewisse Sachen. Und das erste ist irgendwie, ich habe irgendwie einen Auftrag bekommen, also bleiben wir mal bei einem Agent, der jetzt nicht autonom, wie du das wolltest, arbeitet, sondern nehmen wir so einen Coding Agent und ich sage dem jetzt, schreib mir mal ein Programm oder ein Skript, das irgendwas machen kann. dann gebe ich ja quasi so einen Prompt rein und dann wäre jetzt der erste Schritt quasi so eine Art Nachdenken. Und dieses Nachdenken, was will denn der User von mir, wäre quasi so eine erste Anfrage an das LLM. Also ich brauche ein Skript, das keine Ahnung, was kann, dann kriegt der Agent oder diese Schleife, die da läuft, eine Antwort von dem LLM und muss jetzt irgendwie danach handeln. Und jetzt die Frage, was das LLM ihm zurückgibt, Und dieses Handeln ist dann auch noch die Frage, welche Tools gibt es denn so? Wir kommen gleich noch dazu, was sind denn Tools? Und dann wird quasi so ein Handeln erzeugt, also der Agent fängt an, irgendetwas zu tun, und danach beobachtet er das Ergebnis. Also er hat irgendwie Telemetrie und sieht dann, funktioniert das oder funktioniert das nicht und nimmt dann das Ergebnis und fängt wieder an mit Nachdenken, also tut das Ergebnis plus vielleicht die Ursprungsversion, ich will ein Skript, wieder gegen das LLM feuern und das LLM sagt dann, du bist fertig oder oh, ist vielleicht nicht das, was wir wollten.

Tobias Wittenburg07:50

Ja, mich erinnert das immer an diese, an diese typische Loop bei der Spieleentwicklung, ja, da hat man ja auch so eine Do-While-Loop, ja, also in der Spieleentwicklung fängt ja die die Schleife an, dann wird irgendwie der Bildschirm gezeichnet, dann wird auf Input gewartet, ja, und dann passiert eine Aktion und dann wird der Bildschirm wieder neu neu gezeichnet. Im Prinzip ist es nicht mehr so, nur jetzt, ohne dass da jetzt ein Spiel dabei ist oder dass du groß was zeichnen musst, sondern das quasi im ersten Schritt ja überlegt wird, dann eine Auswahl getroffen wird, was ausgeführt wird, das Ergebnis wieder genommen wird, wieder drüber nachgedacht wird und so weiter. Also das quasi dieser diese Toolauswahl oder beziehungsweise bei der nächsten, beim nächsten Loop vielleicht mit einem anderen Tool weitergemacht wird, ja, bis das Ergebnis passt.

Tobias Allweier08:36

Genau, aber was ist denn ein Tool, Tobi?

Tobias Wittenburg08:39

Ja, ich stell mir ein Tool immer vor für etwas, was zum Beispiel aufgerufen werden kann. Also ich denke an sowas wie so ein Rest-Endpoint oder sowas. Also für die Frage nach nach Wetter als Beispiel, das L.A.M. könnt ihr sowieso nur historische Daten haben. Also das heißt, das aktuelle Wetter in Berlin kann es halt einfach nicht herausfinden. Ja, dafür gibt es auch Wetterdienste und entsprechende A.P.I.s und hier kommt natürlich genau der das Tool dazu. Also der das Tool ist sozusagen der der Wrapper um einen A.P.I. Call, nicht? Also wir geben quasi dem dem L.L.M. ein Werkzeug in die Hand, eine bestimmte Frage beantworten zu können. Ja, und das das ist es für mich.

Tobias Allweier09:26

Ja, find ich ganz gut. Ich mein, Hörer, die uns länger hören, die kennen vielleicht noch die M.C.P. Folge, da haben wir auch schon über Tools gesprochen. Jeder M.C.P. Server kann Tools veröffentlichen. Aber du hast es schon ganz gut gesagt. Also am Ende hat das LLM Wissen, das ist schon in den LLM, also was Wetter ist oder was irgendwie Stock Market Daten sind im Sinne von, es gibt irgendwie Unternehmen, das weiß das LLM, aber den aktuellen Aktienkurs oder das aktuelle Wetter, das kann es natürlich nicht wissen, weil dieses Training ist ja schon vorbei. Und dafür kann man dann Tools bauen. Und Tools sind irgendwie Funktionen, Und ob es jetzt eine API aufruft oder nicht, würde ich mal ein Fragezeichen machen. Es gibt ja auch lokale Tools. Also es könnte ja auch sein, der ruft einfach ein Tool auf, um eine Datei zu lesen oder ein Tool, um irgendwie im Dateisystem eine Datei zu suchen. Das sind dann auch Tools. Genau. Und wie bei MTP bestehen Tools irgendwie aus einem Namen und aus einer Beschreibung. Und wichtig ist wieder, dass die Beschreibung für das LLM geeignet ist und nicht für Menschen. Also ich muss irgendwie die im LLM eine gute Instruktion geben, wann dieses Tool gut zu gebrauchen ist und wann es ein guter Move ist, das aufzurufen. Genau. Und wenn ich jetzt diese Tools definiere, also ich habe lokale Tools, die sind im Agent, im Agent Code, um einfach auch eine geringe Latenz zu haben. Ich habe vielleicht Remote-Tools durch MCP. Ich könnte zum Beispiel auch Tools machen, indem ich sage, ich mache das Terminal irgendwie accessible, also das das läuft auf irgendeine Plattform, auf einem Linux-System oder Mac oder Windows und ich sage, hey, du kannst auch die Kommandozeile aufrufen und ich erlaube ihm das. Und dann kann ich natürlich alles, was irgendwie möglich ist mit der Kommandozeile, also sehr viel, könnte ich auch als Tool verpacken. Und dann könnte er auch sagen, ich tue mir jetzt eine Wetter-CLI von wem auch immer installieren und dann dort irgendwas aufrufen, wäre theoretisch auch möglich. Genau, und diese ganzen Tool Definition im Sinne von Namen und Description werden quasi mit in den Kontext gepackt, also das, was das LLM immer bekommt. Und daraus kann es dann quasi eine Entscheidung treffen. Ich würde jetzt gerne, bleiben wir bei deinem Beispiel, das aktuelle Wetter bekommen und dann sagt das wieder zurück an das Agent Framework oder zu dem Agent, jetzt bitte ruf doch dieses Tool auf. Also das LLM selber macht das nicht, sondern wirklich der Code, wo diese Schleife läuft. der muss dann diesen, diesen Call machen, ihm das tun und das Ergebnis wieder an das L. L. M. geben und dann kann das L. L. M. das verarbeiten, dieses Ergebnis.

Tobias Wittenburg12:11

Man kann das auch ganz schön bei der Gitter Copalets C. L. I. sehen. Also da ist es ja so, wenn wenn man nicht im Yolo-Modus codet, also das heißt für alles eine Abfrage einbaut und er möchte auch was ausführen und möchte dann sagen, hey, darf ich jetzt hier ein Powershell-Befehl ausführen, beispielsweise, und man sagte, nein, dachte, O. K., geht nicht, jetzt muss ich es irgendwie anders probieren und da haben wir genau das, das erst das eine Tool ausgesucht wird, um eine, um ein Problem zu lösen, dann geht das nicht, aus welchen Gründen auch immer. Ja, und dann wird halt nach einem weiteren Möglichkeit gesucht, dieses Problem zu lösen, bis es quasi zum Erfolg führt. Ja, und da haben wir, haben wir genau dieser, dieser Agent Loop eigentlich drin.

Tobias Allweier12:50

Genau, genau und dann ist, glaub ich, noch das 1 der wichtigen Dinge, die zu dieser Loop gehören und also wir haben jetzt diese Loop, Wir haben ein Large Language Model, das immer wieder gefragt wird, das quasi eigentlich die Steuerung übernimmt durch die Antworten, die da rauskommen. Wir haben irgendwelche Tools, lokale oder Remote-Tools, und wir haben natürlich auch so was wie den Systemprompt, also nicht nur den initialen Prompt vom User oder der Trigger für das Ganze, sondern wir haben auch irgendwie in diesem Agent irgendwie eine Definition, ein Ziel, eine Guidance, was auch immer. die da fest eingebaut ist, die wir als Entwickler von so einem Agent einfach vorgeben. So sehe ich so ein bisschen in Systemprompt.

Tobias Wittenburg13:37

Ja, genau. Also beispielsweise, sprich wie ein Pirat oder so was.

Tobias Allweier13:41

Sprich wie ein Privat. Aber das kostet den Sales Agent. Was ist dein Ziel? Also du kannst sie mir auch sagen, du bist ein, ich nicht, ein Programmier-Agent und dein Ziel ist es, möglichst schnell effizienten Code zu schreiben oder du bist ein Test-Agent, dein Ziel ist es möglich zu erkennen, welche Testfälle ich ausführen muss, um ein gutes Testergebnis zu bekommen. Das ist meistens alles so ein bisschen im System-Prompt versteckt. Und ich glaube wichtig, also wir reden ja nicht über die Frameworks, aber wichtig ist, dass dieser System-Prompt irgendwie versioniert wird, weil ihr, glaube ich, wenn ihr so einen Agent entwickelt, werdet ihr diesen Systemprompt immer wieder anpassen müssen, weil ihr einfach feststellt, dass es nicht so ganz funktioniert oder es gibt irgendwie Fälle, die nicht so waren, wie ihr wolltet und dann könnt ihr auch versuchen, durch diesen Systemprompt zu versuchen, irgendwie ein anderes Verhalten zu bekommen mit eurem Age. Ja, und ich würde.

Tobias Wittenburg14:45

Wenn der Pirat nicht erfolgreich war zum Beispiel.

Tobias Allweier14:49

Genau, und ja, auf jeden Fall, ich würde dann irgendwie versionieren. Ich würde es auch irgendwie mit der Telemetrie verknüpfen, ne? Also der Systemprompt hat zu dem geführt. Ja, ja, macht ja auch Sinn.

Tobias Wittenburg15:02

Für zum Beispiel A. B. Tests. Also, wenn wir 2 Agenten haben, die grundsätzlich gleich sind, bis auf einen Unterschied im Systemprompt, kann man da ja vielleicht auch Unterschiede bemerken.

Tobias Allweier15:12

Ja, und dann haben wir jetzt noch ein Ding vergessen, ne? Also wieder zur Wiederholung, wir waren bei L. L., also wir haben eine Schleife, wir haben ein LLM, wir haben Tools, wir haben den System Prompt, aber wir haben auch irgendwie so was wie so eine Memory oder irgendwie so ein Speicher. Und dieser Speicher ist im einfachsten Fall einfach die Konversationshistorie. Also jedes Mal, in jeder Schleife wird ja das LLM gefragt und es gibt irgendwelche Ergebnisse und das ist quasi einmal so ein Konversations-Thread oder so ein, wie sagt man das auf Deutsch, Konversationshistorie, ne, und also der oder den der Kontext, das Kontext-Window, ne, und die gibt es natürlich auch, das würde ich jetzt mal so umgangssprachlich als Kurzzeitgedächtnis beschreiben.

Tobias Wittenburg16:04

Ja, und typischerweise gibt es auch noch sowas wie eine maximale Anzahl der Iterationen, also weil so ein Agent kann sich ja im Zweifelsfall auch verlaufen, ja, wenn wenn zum Beispiel ein Tool aufgerufen wird, das nicht funktioniert, dann versucht er das zweite Tool aufzurufen, das funktioniert auch wieder nicht, er springt zum ersten zurück und so weiter. Also um so eine Schleife zu vermeiden, dass der Agent gar nicht mehr zum Ende kommt, gibt es einfach auch noch eine Max-Anzahl von Iterationen, die, weiß ich nicht, auch bestimmt irgendwie ein Standardwert gesetzt ist, um dieses Problem einfach zu lösen, weil ansonsten würden wir die ganze Zeit Tokens verbrennen, ohne dass da in irgendeiner Form ein Ergebnis bei rauskommt.

Tobias Allweier16:41

Ja, und Tobi, wichtig ist auch noch, dass wir uns überlegen, was denn diese Tools alles für Dinge anstellen können. weil es halt einfach auch so ist, wir haben ja immer das LLM und LLMs sind kreativ und reden viel, sind sich aber Konsequenzen nicht bewusst. Und wenn ich ihm jetzt zum Beispiel ein Tool bereitstelle, das komplett das Terminal beinhaltet, muss ich natürlich irgendwie dafür Sorge tragen, dass jetzt nicht irgendwie verrückte Sachen gemacht werden, also dass irgendwie ein Format C gemacht wird oder dass irgendwie ein Datenbankding installiert oder dass er meine Secrets scannt und irgendwo hinschickt. Also wir müssen uns Gedanken machen, wie wir denn diese Tools einschränken beziehungsweise welches Risiko denn besteht bei welchen Tools oder ob wir vielleicht auch die Berechtigung ein bisschen runter machen. Also sowas zum Beispiel, wenn ich eine Datenbank irgendwie anbinde, könnte ich ja auch dafür sorgen, dass dieser User oder der Connection String, wie auch immer das programmiert wurde, dass der zum Beispiel erst mal nur lesende Rechte hat auf diese Datenbank, dass ich nichts löschen kann. Und das ist vielleicht jetzt auch noch nicht der richtige Ansatz, weil vielleicht sind da hoch geheime Daten auch noch drin in der Datenbank, dann müsste ich das vielleicht weiter einschränken. Aber ich stelle mir das immer so vor bei Tools wie bei PAT-Tokens, also umso, sobald ich einen PAT-Token erzeuge und nicht nachdenke und sage, du darfst alles, kann das halt auch schiefgehen, wenn ich das PAT irgendwie verliere. Aber wenn ich jetzt quasi ein Pad nehme und ich kann das quasi einschränken und ich weiß, ich brauche das jetzt zum Beispiel nur für einen bestimmten Einsatz und mit einem bestimmten Feature, das möglich ist und ich kann das gleich runter stripen, ist natürlich der mögliche Angriffsvektor kleiner und bei Tools auch der mögliche, ja, das mögliche Desaster natürlich auch kleiner, weil das dann einfach nicht ausgeführt werden kann.

Tobias Wittenburg18:38

Ja, weiterhin ist es bestimmt auch eine gute Idee, APIs, die genutzt werden sollen, als Tool noch mal einzeln zu wrappen. Also das hat ja für die Zukunft ein paar Vorteile, so dass man einerseits natürlich auch diese Tools wiederum austauschen kann innerhalb des Wrappers, andererseits natürlich auch vielleicht auch nicht jede jeden A.P.I. Aufruf, der möglich ist, dem L.L.M. zur Verfügung zu stellen. Also auch da kann man natürlich dann, wenn man nur bestimmte Restendpunkte dem L.L.M. erlaubt, noch eine Filterung machen, ja, damit einfach gar kein Zugriff drauf entsteht. Ja, und das halt auch ein bisschen einfacher zu machen fürs L.L.M., dass es genau weiß, was es aufrufen kann, das ein bisschen ja verdaulicher zu machen.

Tobias Allweier19:19

Ja, dann ist genau das, was du sagst, eigentlich der richtige Ansatz, dass man auch darüber nachdenkt, welche Tools brauche ich denn und wie müssen die geschnitten sein, um gute Ergebnisse mit meinem Agent zu bekommen. Dann vielleicht noch einen, wir haben ja schon gesagt, es gibt so was wie das Kurzzeitgedächtnis. Tubi, hast du schon mal gehört, dass Agents auch ein Langzeitgedächtnis haben?

Tobias Wittenburg19:44

Na ja, ich glaub, sie haben ja sogar verschiedene Langzeitgedächtnisse. Also das L. L. M. selber ist ja quasi auch schon so was wie so ein Langzeitgedächtnis. Ja, jetzt geht es ja sicherlich nicht nur um die aktuelle Konversation, sondern vielleicht auch Konversation, die wir in der Vergangenheit hatten. Und von daher, es macht ja womöglich schon Sinn, dass wir die Konversation des Agents irgendwo persistieren. Und das wäre natürlich das Langzeitgedächtnis.

Tobias Allweier20:07

Genau, könnte man machen, dass man sagt, ich tue mir immer wieder, wenn, weiß nicht, wir haben jetzt einen Programmier-Agent und diese Sessions speichere ich ab und dann kann ich in der Vergangenheit suchen und zum Beispiel könnte ich jetzt sagen, wenn ein, das geht jetzt ja zum Beispiel auch mit GitHub Copy der CLI in Preview, aber die Idee ist super cool. Nehmen wir mal an, ich habe jetzt irgendwie eine App gevibetcoded, komplett ohne irgendwie was anderes, also wirklich nur mit LLMs gearbeitet, dann habe ich ja quasi die Entstehungsgeschichte in Sessions, also in diesen Agent Runs. Und wenn ich jetzt natürlich sage, hey, warum geht der Button A nicht mehr, der ging doch mal und der hat irgendwie die Bestellung ausgelöst, dann kann der Agent oder der GitHub Cooper Agent nicht nur jetzt meinen Code durchsuchen und versuchen zu verstehen, sondern er kann auch in die Historie schauen. wann wurde denn dieser Code verändert oder was war der Grund und so weiter. Und das macht es natürlich auch wieder ein bisschen mächtiger. Und so kann man auch, wenn man einen eigenen Agent baut, darüber nachdenken, wird man nicht aus so einem Agent Run irgendwie was extrahieren will oder irgendwas speichern will für die nächsten oder zukünftigen Agent Runs. Oder gerade bei ChatGPT ist es ja zum Beispiel auch so, ich meine, es ist, weiß nicht, wie ich es unbedingt als Agent bezeichnen würde, aber ich glaube, dann versteht man die, die Analogie, da gibt es ja auch immer so, man chattet über den Urlaub und auf einmal sagt das System, hey, ich habe mir gerade irgendwie über dich gemerkt, dass du Badeurlaub magst. Und diese Info, ich mag Badeurlaub, ist ja quasi auch so eine Art Langzeitgedächtnis, dass er dann quasi in Zukunft weiß, wenn Tobi ihn frägt nach Urlaub, dann ist vielleicht eine gute Idee, wenn ich direkt mit Badeurlaub anfange und nicht mehr mit Skiurlaub zum Beispiel. Genau. Und das kann man natürlich auch in seinem eigenen Agent irgendwie berücksichtigen, ja, um bessere Ergebnisse zu bekommen.

Tobias Wittenburg21:59

Ja, noch eine weitere Möglichkeit, Wissen anzuzapfen, ist natürlich Rack oder das Rack-Pattern, also Retrieval Augmented Generation. Die Idee dahinter ist, dass man die Dokumente, die man vielleicht schon vorliegen hat in der Firma oder so, in einer Vektordatenbank speichert, beziehungsweise die Vektoren dieser dieser Dokumente, so dass das L.L.M. dann auf diesen Vektor-Index zugreifen kann, um daraus halt auch Ergebnisse wieder zu präsentieren, die natürlich man nur selber haben kann. Also die nicht öffentlich sind, sondern die halt in diesem Rack Index drin liegen und damit halt auch einem selber bei der Antwort einer Frage helfen kann. Also um einfach auf Unternehmensdaten, Unternehmenswissen zuzugreifen. Das könnte jetzt, könnten jetzt Daten in auf einer SharePoint-Site sein oder im Wiki oder die sonst irgendwie vorliegen. Ja, solange man die halt einmal durch so einen Import in so eine Rec-Datenbank hereinbringt, um sie zugreifbar zu machen für das LLM.

Tobias Allweier22:59

Ja, da könntet ihr zum Beispiel, wenn ihr jetzt ein Agent-System baut, das irgendwie für den Support arbeitet, könntet ihr auch versuchen, eure, eure Cases, die der Support bearbeitet hat, in der Vergangenheit irgendwie auch erreichbar zu machen. damit der Agent oder das Agent-System natürlich dann auch in dieser Vergangenheit suchen kann und dann vielleicht dort auch eine Antwort finden kann. So als Beispiel. Genau. Und ich glaube, eins haben wir noch vergessen, Tobi, bei dem ganzen Agent, also vielleicht fassen wir noch mal zusammen für die Hörer. Also wir haben unsere Wild-Schleife, wir haben in der Wild-Schleife, wo wir immer wieder das oder wo wir das LM fragen, was kann ich denn tun oder wie kann ich denn mein Ziel erreichen? Das ist ja eigentlich die Frage, dann kriegen wir eine Antwort, wenn wir Tools konfiguriert haben, sagt das LLM vielleicht auch, ruf ein Tool auf und das wird jetzt so lange gemacht, bis das LLM entscheidet, du hast das Ziel erreicht. Das ist vielleicht auch noch so eine Info, also die Entscheidung, bin ich fertig, trifft eigentlich auch das LLM am Ende. So, wenn es aber fertig ist, dann ist jetzt ja die Frage, was sollte denn das Ergebnis sein und vor allen Dingen in welcher Form wollte ich denn das Ergebnis? Also nehmen wir jetzt mal an, wir machen keinen Coding Agent, sondern wir machen einen Support Agent und der soll jetzt irgendwie so ein Ticket nehmen und soll jetzt schauen, was könnte ich denn tun, um das Problem zu lösen. Dann wäre ja der Output, den ich irgendwie managen muss, vielleicht eine E-Mail, wo ich irgendwie Schritt für Schritt dem dem Anwender antworte und sage oder ins Ticket reinschreibe, was er zu tun hat. Oder wenn ich jetzt einen Agent baue, der der für mich irgendwie eine Reise finden soll und konfigurieren soll und weiß ich nicht, Hotel und Flug abstimmen soll, dann will ich vielleicht, wenn ich das in so einem Reisetool einbinden will, will ich vielleicht als Antwort, weil ich bin ja wieder deterministisch, ich muss das ja interpretieren können. Und wenn ich jetzt ganz viel Text bekomme, tue ich mich als Programmierer, tue ich mir sehr schwer, diesen Text zu interpretieren, könnte ich mir auch zum Beispiel eine Art JSON-Struktur wünschen. Also ich könnte sagen, hey, lieber Agent, wenn du fertig bist, dann hätte ich gerne von dir dieses JSON ausgefüllt. Sag mir bitte, welcher Flug und welche Flugnummer und Buchungsnummer, was auch immer. Und dann könnte ich das einfach parsen und könnte es quasi in meiner Tabelle oder was auch immer ich dann mache damit wieder darstellen. Also wichtig ist auch, wenn das Ding fertig wird, quasi diesen Output zu managen. Und das kann man durch auch durch Prompts, ja, oder es gibt inzwischen auch, glaube ich, bei den GPT-Models dieses Guarantee JSON. Das heißt, dass in dem Model noch mal was ist, dass man wirklich sicherstellt, dass ich auch dieses Jason zurückbekomme.

Tobias Wittenburg25:49

Ja, lass uns mal drüber reden, wann man einen Agenten nutzen sollte und wann da eigentlich gar nicht, weil Agenten sind ja mittlerweile überall und vielleicht ist es gar nicht immer eine gute Idee, immer einen Agenten zu nehmen.

Tobias Allweier26:01

Definitiv. Ja, also mal ganz doof gesagt, ich mein, das ist wieder so ein Hype. Ja, und ich mein, dann in so Hypezeiten ist alles immer ein Hammer. Ja, also wenn man die Geschichte vom Hammer kennt. Und das ist es halt nicht. Also man muss jetzt nicht für jeden Quatsch einen Agent bauen oder manchmal sieht man auch Kunden, die irgendwie anfangen, für so eine Entscheidung einen Agent zu bauen. Aber am Ende kommt raus, eigentlich könnte ich auch ein If schreiben, das ist kein Agent, weil erstens mal, vielleicht reden wir mal darüber, was sind denn so Gründe, kein Agent zu bauen? Also das erste ist, haben wir, glaube ich, schon gesagt oder du am Anfang, er ist oder sie sind nicht deterministisch. Das heißt, ich kann mich nicht unbedingt darauf verlassen, dass wenn A. als Prompter reingeht, auch immer B. rauskommt, ne, sondern es könnte jetzt auch mal C. rauskommen.

Tobias Wittenburg26:52

Und wenn sie deterministisch sein sollen, muss man vielleicht auch andere Tools einsetzen. Also ich will sagen, wenn wir Daten haben, die das L. L. M. filtern soll und er nicht deterministisch ist, ist es ja schlecht. Vielleicht ist es aber besser, wenn diese Daten per Sequel-Statement gefiltert werden und das LLM das Sequel-Statement schreibt, zum Beispiel.

Tobias Allweier27:12

Zum Beispiel, ja, genau. Aber trotzdem, selbst wenn die Daten gefiltert werden und das LLM weitermacht, könnte es ja sein, es übersieht was, ne, in diesem, nehmen wir mal an, du gibst ihm jetzt 1000 Datensätze, ne, dann ist die Frage, kann es diese 1000 verarbeiten? Fragezeichen. Also, man muss einfach mit dieser nicht deterministischen Welt klarkommen, ja, und die Aussage, glaube ich, die man treffen kann, ist, wenn das deterministisch sein soll, ist es vielleicht besser, darüber nachzudenken, wie kann ich das traditionell programmieren, weil dann kriege ich immer das, was ich eigentlich haben will.

Tobias Wittenburg27:45

Genau, dann haben wir aber auch eigentlich eher eine Automatisierung.

Tobias Allweier27:47

Ja, genau. Also nur weil das jetzt Agent ist und AI, würde ich auch das, was du gerade gesagt hast, nicht unterschreiben, dass ich Automatisierung per se mit Agents machen muss.

Tobias Wittenburg27:58

Genau.

Tobias Allweier27:59

Wenn ich jetzt Security zum Beispiel untersuchen will, ich meine, LLMs haben sicherlich eine gewisse Power bei Fehler finden, Security Issues finden, ja, aber mich alleine da drauf zu verlassen, ist vielleicht jetzt nicht so eine gute Idee. Vielleicht brauch ich trotzdem noch so was wie statische Codeanalyse oder irgendwelche statischen Tools, wo ich dann auch weiß, wenn die durchgelaufen sind, habe ich gewisse Probleme einfach nicht und das ist dann so, es wurde nicht übersehen.

Tobias Wittenburg28:26

Und das ist ja eine Schwäche und eine Stärke, dieses, diese nicht die Deterministik. Also eine Schwäche in dem Sinne, dass wenn ich einen deterministischen Output haben will, wie zum Beispiel statische Codeanalyse, oder es muss immer genau gleich sein, dann funktioniert es nicht so gut. Wenn wir aber eine nicht deterministischen Ausgang haben wollen, dann funktioniert das natürlich deutlich besser. Also, um in deinem Security Beispiel zu bleiben, kann man natürlich einerseits mit einer Deterministik so was wie statische Codeanalyse machen. Man kann aber auch mit einer nicht deterministischen Methode einfach nur wild rumprobieren und schauen, was passiert. Ja, oder einfach auch mal versuchen auf andere Weisen Fehler oder Sicherheitslöcher zu finden. Und das ist natürlich in dem Moment auch eine Stärke und man muss sich einfach klarmachen, welchen Tradeoff man bei der einen und bei der anderen Methode einfach hat. Ja, und wann jetzt hier ein Agent der der richtige Einsatzzweck hat oder und wann nicht?

Tobias Allweier29:22

Ja, und eine einer der Gesichtspunkte ist vielleicht auch noch, wenn ich das mit dem L. L. M. mach, hab ich meistens zum einen höhere Kosten Also ich würde jetzt nicht behaupten, dass per se normaler Source Code, der irgendwo läuft, also ich brauche irgendwie CPU-Speicher, irgendwie Storage, ist jetzt auch nicht for free, aber ich glaube, die Kosten sind besser managebar, als wenn ich jetzt über Tokens und LLMs rede. Da ist ja quasi jedes Mal, wenn ich das LLM frage, entstehen Kosten. Das heißt, wenn ich jetzt so eine Agent Loop habe und die braucht quasi, jetzt mal Extrembeispiel, die braucht 200 Mal so eine Iteration um zum Ergebnis zu kommen und sie kriegt dann auch das richtige Ergebnis, hab ich aber in diesen 200 Iterationen Tokens verbrannt und das kann dann natürlich auch dazu führen, dass diese 200 mal Fragen irgendwie 5€ gekostet haben, sag ich jetzt mal als Beispiel. Ja, ne, und das muss ich natürlich auch berücksichtigen, ist es das das denn wert, ne, also schaffe ich denn irgendwie auch eine eine Ersparnis in der Form, die das dann wieder gegenrechnet, plus 200 mal das Ding fragen oder diese Agent-Loop oder nehmen wir an, der Agent schafft das in einem Durchgang, habe ich natürlich trotzdem eine hohe Latenz, weil das LLM braucht ja immer für eine Antwort und jeder kennt das, der mit LLMs gearbeitet hat. Das ist jetzt meistens auch nicht so, zack ist die Antwort da. Ja, das heißt, die, die die Wahrscheinlichkeit ist, dass das langsamer ist, als wenn ich das jetzt programmieren würde, mit F. von L. ist zumindest mal da. Ich würd es jetzt nicht per se sagen, es ist immer langsamer.

Tobias Wittenburg30:58

Ja, ja, genau, dafür kann es halt in neuen Situationen gut agieren. Ja, also Sachen, die wir nicht ausprogrammiert haben mit F. von L. und kann da ein bisschen flexibler reagieren.

Tobias Allweier31:10

Genau, ne, und auch vielleicht im Hinterkopf behalten, es heißt Large Language Model, Also die Wahrscheinlichkeit ist gut, dass es für Dinge, die irgendwie mit Text zu tun haben, gut funktioniert. Mathematik können sie zum Beispiel jetzt nicht so gut. Dann wäre jetzt auch so Use Case denken, irgendwas mit Text. Ich habe irgendwie E-Mails und will die zusammenfassen, ich habe irgendwie in meinem Programm große Datenmengen im Sinne von Tabellen oder strukturelle Daten und will jetzt daraus einen Text generieren für einen User und vielleicht den irgendwie noch erklären, wer eine Auftrag für ein LLM, das kann jetzt so ein Programmierer vielleicht auch, da hat man irgendwie so früher Templates gebaut und so ein Quatsch. Das war immer Pain, glaube ich, für viele Entwickler und ich glaube, das kann ein LLM auf jeden Fall viel besser. Und ich glaube, ein Punkt, den man noch hinzufügen kann, ist natürlich auch, wenn ich jetzt deterministisch, also ich schreibe irgendwie Source Code, ich automatisiere über Source Code, ist, glaube ich, das Fehlersuchen einfacher. Weil am Ende habe ich irgendwie einen Eingang, eine Eingabe. Ich habe nicht diese Variation im Sinne von, das LLM antwortet mir jetzt, warum auch immer, ein bisschen anders da als davor, sondern ich gebe irgendwie was rein in so eine Funktion oder in so einen Lauf und dann passiert irgendwas und ein Fehler passiert. Und ich könnte das natürlich dann da nachstellen auf meinem System, indem ich einfach den Anfangswert reingebe und das laufen lasse und mit dem Debugger schaue, was geht denn schief, das kann ich bei so einem Agent nicht unbedingt machen, weil ich meine, ich weiß jetzt, also ich brauche Telemetrie, ich konnte dann nachschlagen, was da als Antwort kam. Aber warum das jetzt genau in dem Moment anders war, sehr schwer und auch schwer nachzuvollziehen, plus auch sehr schwer dann einzuschränken. Plus noch, vielleicht ein Punkt noch ist, was auch nicht zu unterschätzen ist, ist, wenn ihr Und wir sind jetzt ja in diesem Model Race, also es werden immer wieder verschiedene Models oder neue Models released und alte werden abgekündigt. Und wenn ihr jetzt das nicht in der Hand habt, dass ihr sagt, ich kann Model X forever laufen lassen, weil ich bin damit zufrieden, dann müsst ihr auch quasi diese Model-Upgrades mitgehen. Und das heißt aber auch für euren Agent, ihr müsst den einmal komplett neu testen oder ihr habt irgendwie eine Testautomatisierung im Sinne von Evaluations, wo ihr quasi automatisiert gewisse Prompts und Antworten vergleichen könnt gegen andere Models, um rauszufinden, ob die dann noch so sind, wie das Model davor oder zumindest mal für euren Use Case so funktionieren wie davor.

Tobias Wittenburg33:52

Ja, ich wollte aufs Determinismus-Spektrum eingehen, ne? Also, das ist das, bei Agents haben wir ja im Prinzip ein ganzes Spektrum von dem, wie deterministisch die laufen. Wir haben gesagt, wenn es voll deterministisch ist, lieber klassischen Code, ja, die die komplett andere Seite ist natürlich voll autonom, ein L. L. M. oder ein Agent laufen zu lassen, so dass das L. L. M. die Ausführung plant, sich selber die Tools aussucht, immer und immer wieder iteriert und auch selber entscheidet, wann es, wann es stoppt. Also das ist so das, was man in im Bereich von Open Claw wahrscheinlich jetzt heutzutage hat, ja, wo wo jegliche Tools einfach gezogen werden können. Letztendlich ist natürlich die Mitte davon zwischen diesen beiden Polen spannend. Also da haben wir einerseits die Möglichkeit, ein LLM mit bestimmten Constraints zu designen, ja, dass es nur bestimmte Tools sind, ja, dass wir die Struktur, die das Ganze hat, durch die Tools und durch das System Prompt und so weiter, extrem vorgeben, ja. Oder halt doch eine Stufe weiter, so halbautonom, ja, wo gewisse Tools sind und wir im LLM sagen, ja, such dir mal dein Tool selber, ja. Und so, dass aber der der Fluss irgendwie immer noch noch beschränkt ist und nicht voll autonom ist. Ja, und das ist sozusagen das ganze Spektrum, wo sich das momentan bewegen kann.

Tobias Allweier35:14

Ja, K. Tui, wir haben jetzt über Agents im Allgemeinen gesprochen, aber man hört ja immer wieder, wenn man so über Agents redet oder auch sich diese Frameworks wie Langchain oder Agent Framework anschaut, sieht man auch immer wieder solche Orchestration Patterns, was ist das denn und und brauch ich das?

Tobias Wittenburg35:38

Bestimmt brauchst du das und letztendlich ist das auch nichts anderes als du das in der in der Arbeitsabfolge machst. Also man kann sich das ja immer so überlegen wie in so einer Fabrik. Ja, also entweder hat man eine sequenzielle Abarbeitung, also es passiert beispielsweise ein etwas, ein Tool wird aufgerufen und dann wird das nächste Tool aufgerufen und dann wird das nächste Tool aufgerufen und dann nach von dem Ergebnis wird wieder das nächste, also quasi wie in so einer Fertigungsstraße. Ja, wenn man ein Auto zusammenschraubt und zuerst kommt die Bodenplatte und dann kommt irgendwie die Inneneinrichtung und zum Schluss kommt oben die das Chassis drauf und so weiter. Also das ist quasi so eine Pipeline, so wie man das auch quasi bei bei C. I. C. D. Pipelines hatte, 1 nach dem anderen wird wird das direkt abgearbeitet. Spann ist aber natürlich, wenn es parallel passiert, ja, und das ist halt, wenn eine LLM einfach eine Aufgabe hat und sagt, so, jetzt nehme ich einen anderen Agenten und hab so ein Subagent, ja, und lass dir mal eine Aufgabe machen, solange kann ich ja an anderen Sachen arbeiten und warte, bis das Ergebnis kommt und fasse das dann wieder zusammen, ja. dann gibt es noch diese Idee des Group Chats, also dass verschiedene Agenten quasi miteinander agieren. Ich glaub, das wird in der Forschung mittlerweile schon ziemlich häufig benutzt, wenn wenn ein Agent quasi etwas vorschlägt und der andere versucht, dieses Ergebnis zu falsifizieren. Ja, und das halt quasi kollaborativ an dem Ganzen gearbeitet wird, genauso wie man vielleicht in so einem Brainstorming Büro sitzt und Ideen an die Wand wirft und Klebezettel dabei hat und so weiter und so muss man sich das halt entsprechend vorstellen. Ja, dann gibt es noch Handoff, also das der eine sozusagen, das sagt, ich bin fertig und ich übergeb es dir jetzt. Das ist natürlich in so einem Multi-Agent-Szenario extrem spannend. Also wenn wir dieses, diesen Fall, den du vorhin als Beispiel gehabt hast, mit einem Support Agent, der vielleicht am Ende oder der am Anfang auf eine E-Mail reagiert und am Ende wieder eine E-Mail rausschicken muss und den zerlegt, sozusagen, dass der erste Agent diese E-Mail liest, dass die Daten vielleicht raussucht über eine über eine Case I. D. oder über die den Tend herauszufinden, dass es den Support Agent gibt, der das Problem weiterhin analysiert und dann an den weiteren Agent dann übergibt, der die nächste E-Mail wieder rausschickt. Also das war so ein so ein typisches Handoff, Handoff-Muster. Ja, ja, Und dann gibt es noch Magnetic, du bist verhört? Wieso bist du verhört?

Tobias Allweier38:25

Nee, sehr viel Input. Aber ich glaube prinzipiell hast du recht gehabt, definitiv. Genau, also vielleicht fangen wir noch mal, wenn es für dich okay ist, einen Schritt zurück. Also Single Agent, glaube ich, haben wir vorher besprochen, also das wäre jetzt ein Agent, richtig? Und was du jetzt alles beschrieben hast, wäre quasi, ich habe viele davon in einer gewissen Abfolge.

Tobias Wittenburg38:46

Ja, genau, die Frage ist immer, arbeiten die parallel zueinander oder arbeiten die sequenziell oder arbeiten die kollaborativ?

Tobias Allweier38:53

Genau. Und ich glaube, was man auch, also ich würde jedem empfehlen, erst mal mit einem anzufangen. Und dann sind ja diese Fragen, was bewegt mich dazu, mehr als einer zu machen? Aber ganz oft trifft man auch auf Leute oder auf Kunden oder auf Projekte. Da ist quasi die große, wir brauchen mindestens 20, so, und das würde ich jetzt nicht unbedingt unterschreiben, vor allen Dingen bringt es auch sehr viel Komplexität im Sinne von Testen, Nachvollziehbarkeit et cetera. Und ich würde, also ich würde immer anfangen mit einem und dann irgendwie gucken, was kommt denn da so raus. Und ich glaube, es gibt schon Beweggründe für mehrere und ich glaube, einer der Beweggründe ist zum Beispiel, wenn ich jetzt einen Agent mache und ich, wir haben ja vorher über den Systemprompt gesprochen, also diese Instruktion, diese Rolle, die der Agent einnehmen soll, mit irgendwie auch dem Scope, den er machen soll. Und ich merke jetzt, der ist jetzt irgendwie die eierlegende Vollmilchsau, sagt man noch immer so bei uns in Deutschland. Vielleicht macht es Sinn, dann mehrere System Proms zu haben und damit dann auch mehrere Agents, jetzt als Beispiel. Das wäre, glaube ich, schon mal ein Indikator für so ein, was du jetzt gesagt hast, mehrere Agents. Oder ich glaube, was jetzt auch ein guter Indikator wäre, wenn ich jetzt merke, der eine Single Agent, wir haben ja vorhin gesagt, der hat ein Kurzzeitgedächtnis und dieses Kurzzeitgedächtnis ist ja unser Kontext-Window. Und wenn ich jetzt merke, ich brauche quasi mehr Kontext, warum auch immer, als das Window hat, dann habe ich ja erst mal per se ein Problem. Ich muss irgendwie das kleiner bekommen, was wegschmeißen, wie auch immer ich das dann anstelle, könnte ich das natürlich auch durch so einen Agent, Multi-Agent-Pattern vielleicht lösen, indem ich quasi sage, okay, ein großer Teil von meinem Kontext ist irgendwie die Analyse von Dateien. Dann mach ich das erst mal in einem anderen Agent und krieg quasi von dem ein Ergebnis und nehm dann nur noch quasi das validierte Ergebnis, ne? Und die eigentliche Analyse mit dem Riesenkontext hat dann quasi der eine schon gemacht. Ja, das das muss man sich so ein bisschen über überlegen, ja, plus ein anderes Beispiel, wenn ihr jetzt quasi einfach nur eine E-Mail zum Beispiel oder ihr wollt irgendwie einen Text irgendwie zusammenfassen oder ihr wollt ihr habt, fragt von der Datenbank, irgendwelche Daten hab und ihr habt jetzt so ein JSON und ihr wollt daraus ein Text generieren. Ich würde jetzt sagen, dafür braucht man keinen Agent. Das kann man direkt einfach mit einem Call dem L. L. M. schicken.

Tobias Wittenburg41:28

Letztendlich gilt auch hier natürlich Conway's Law, ja, also wie man das so typischerweise hat, dass Firmen Systeme bauen, die letztendlich der Firma ähnlich sind, ja, das sagt ja, sagt ja Conway's Law aus und das ist letztendlich der Grund, warum sicherlich am Anfang auch manchmal schon etwas zu komplex gedacht wird, wenn es um Agents geht und man halt mehrere Agents baut, obwohl man den ersten noch gar nicht fertig hat. Und ich glaub, die Idee oder das, was du jetzt gerade gesagt hast, ist im Prinzip erstmal einfach anzufangen und komplexer zu werden über die Zeit.

Tobias Allweier41:57

Ja, ja, genau. Und ich mein, kommen wir noch mal zu deinem Beispiel und ich fand die gut, ist ja das eine erstmal dieses Sequenzielle. Ne, also ich hab irgendwie einen Agent, der macht irgendwas und wenn der fertig ist, gibt er das an den nächsten und der macht auch vielleicht irgendwas und gibt es an den nächsten und irgendwann ist dann diese Kette zu Ende. Also man könnte jetzt ja zum Beispiel sagen, was fällt mir da ein? Der erste macht einen Research. Also ich gebe einen Prompt ein in den ersten Regent, ich würde gerne nach Spanien fahren im Sommer und irgendwie, weiß ich nicht, ich mag Strand. Der könnte jetzt ja so einen Research machen, welche Urlaubsziele gibt es denn in Spanien, die schön sind am Strand? Und mit diesem Research könnte er an den nächsten gehen, der dann abprüft, gibt es denn überhaupt Hotels oder gibt es denn überhaupt Flüge oder wie kann der Tobi überhaupt anreisen? Oder nehmen wir, der erste ist der Anreise-Agent jetzt mal in unserem Szenario. Und dann, wenn der weiß, wie man da hinkommt, würde er jetzt quasi noch irgendwie fragen, welche Hotels vielleicht in Frage kommen und welche Flüge und würde mir dann das gesammelt irgendwie darstellen und sagen, hey Tobi, Spanien ist eine geile Idee, ich habe rausgefunden, du musst nach Madrid, warum auch immer, und du kannst da mit dem Auto, mit dem Flugzeug oder mit was auch immer.

Tobias Wittenburg43:21

Also wenn du Strandurlaub in Madrid machst, wäre es gut.

Tobias Allweier43:25

Ich wollte gerade sagen, das würde er mir jetzt sagen, dass Madrid nicht am Strand liegt, aber okay. Tobi hat schon funktioniert. Genau. Genau, und das wäre quasi so ein, ich gebe immer quasi, der eine macht es fertig und gibt es an den nächsten und man müsste sich jetzt natürlich überlegen, was ist denn eine sinnvolle Reihenfolge? Oder nehmen wir an, ich habe einen Agent, der jetzt rausfindet, wie man ein Ticket, also ihr kriegt ein Ticket, ein Support-Ticket und jetzt habt ihr einen Research Agent, der vielleicht rausfindet, wie man das Problem lösen kann oder was überhaupt das Problem ist, dann wäre ja der nächste Agent vielleicht jemand, wenn ich jetzt rausgefunden habe, wie das Problem ist und wie man es lösen kann, der dann eine passende Antwort dem User schreibt, also der quasi noch mal das Original-Ticket anguckt, was hat der User geschrieben und dann vielleicht basierend auf der Lösung und dem, was der User geschrieben hat, irgendwie eine schöne Antwort formuliert für den User. Das wäre dann quasi vielleicht auch noch mal ein extra Agent. Und der Vorteil von diesem Ansatz wäre natürlich, dass ich dieses Kurzzeitgedächtnis in jedem Agent separiert habe, dass ich quasi, wenn jetzt der Research, was ist denn das Problem, relativ lange dauert oder vielleicht auch viele Tokens braucht oder viel, viel Kontext quasi erzeugt, dann ist ja die Antwort, wenn ich das Problem identifiziert habe, vielleicht nur noch ein Bruchteil von diesem Kontext Window und dann könnt ich das quasi einfach weitergeben an den nächsten und sagen, hier guck mal, ne, das, das ist die Lösung, jetzt schreib noch die E-Mail, ne, wär jetzt ein so ein Anwendungsfall.

Tobias Wittenburg44:58

Ja genau, und das zweite ist letztendlich die Nebenläufigkeit, also Concurrency, wo der, wenn der Agent quasi diese die Anforderung bekommt, verschiedene Subagents auf einmal startet. Also, wenn es zum Beispiel darum geht, etwas nachzuschauen, also den Research Modus zum Beispiel bei GitHub Copilot anzuschmeißen, dass dann verschiedene Researcher, Subagenten loslegen, das Recherchieren und letztendlich danach wieder zurückgeben an das L. L. M., was letztendlich die Ergebnisse dann zusammenfasst. Ja, also Nebenläufigkeit letztendlich in der im Research implementieren.

Tobias Allweier45:38

Ja, und vielleicht auch noch mal auch bei Gitta Cooper, das habt ihr da den Vorteil, mehr Kontextwindow, weil pro Research Agent habt ihr dann einen Kontextwindow und es ist sehr wahrscheinlich auch schneller, als wenn einer das ganz alleine machen würde. Ja, ja, genau, und dann haben wir meistens noch, ich glaube, also wir wollen jetzt nicht alle die es gibt, irgendwie runterrasseln und das ist, glaube ich, auch das falsche Format in Audio. Ich glaub, Learning für Zuhörer ist, es gibt irgendwie verschiedene Orchestration Layers, wie man mehrere Agents aneinander schalten kann. Vielleicht Learning ist auch, dass man vielleicht nicht damit anfängt, sondern vielleicht erstmal mit einem, ja, und dann valide Gründe hat, vielleicht doch auf mehrere umzuschwenken, ja, sehr wahrscheinlich, aber mit mehr Komplexität und gewissen Herausforderungen. Genau, und ein Pattern, vielleicht das noch zu erwähnen, das ist eigentlich auch eine ganz coole Geschichte, ihr habt quasi irgendwie mehrere Agents, die verschiedene Rollen haben. Also gehen wir nochmal zurück zur Softwareentwicklung. Ihr könntet jetzt zum Beispiel einen Agent bauen, der so eine Art User-Experience-Brille drauf hat, dann habt ihr vielleicht noch einen Agent, der vielleicht so eine Cleancode-Brille auf das Projekt hat. oder ihr habt noch einen, der vielleicht der Produktmanager ist. Genau, diese Rollen haben natürlich dann eine andere, einen anderen Systemprompt, eine andere Rolle, einen anderen Blick auf dieses Problem, ja, und die fangen jetzt an, sich lustig zu unterhalten, irgendwie so, ne. Also der, der Product Manager sagt, ich hätte gerne eine To-Do-Liste, ja, dann sagt der, Die jüngste seiner, oh, To-Do-Liste finde ich gut, vielleicht, aber wir könnten das schön so machen, ja, oder so wie du das willst, ist es nicht schön. Ich würde es so vorschlagen, der Test Engineer oder der Test Agent sagt dann, hm, ist vielleicht nicht so gute Idee, weil ich kann das schlecht testen, wenn ihr das irgendwie, was auch immer, ne. Also das erzeugt man dann quasi, dass sich Agents unterhalten und quasi auch so 'ne Art Brainstorming haben, in Anführungszeichen, ne, weil natürlich gewisse gewisse Anfragen an L. M. verschiedene Ergebnisse dann erzeugen. Aber wichtig, es gibt verschiedene Möglichkeiten mit allen Vor und Nachteilen. Genau, und ich würde immer, also mein Vorgehen ist eigentlich, wenn ich so einen Agent bauen will, ich nehme mir irgendwie so einen Playground für so einen LLM und gebe einfach alles in einen Prompt rein. Also ich gebe den Systemprompt mit rein, ich gebe irgendwie den Kontext, also kopiere mir irgendwie die Daten da rein und gebe jetzt irgendwie so die erste Instruktion rein im Sinne von, was könnte ich denn tun? Guck dann einfach mal, was das L. L. M. mir sagt. Und wenn das L. L. M. aber mir quasi nicht das Richtige oder nicht was Sinnvolles sagt, dann ist es schon so ein Indikator, hm, wird schwierig. Und dann kann ich natürlich auch das Large Language Model ändern, ich kann irgendwie die Daten ändern, die ich reingebe, aber das ist eigentlich so, wie ich anfange. Also ich fang jetzt nicht an, sofort einen Agent zu bauen, sondern ich versuche irgendwie mit dem L. L. M. erst mal zu kommunizieren, um so ein Gefühl dafür zu bekommen, ob das überhaupt was werden könnte. Oder man kann auch jetzt LLM fragen, welche Tools bräuchtest du denn, um vielleicht mir eine Antwort darauf zu geben, wenn du es nicht weißt?

Tobias Wittenburg48:51

Das ist eine gute Idee tatsächlich.

Tobias Allweier48:55

Oder es gibt auch so ein Pattern, so ein Debug-Tool, da könnte man quasi ein Tool schreiben und dann sagt man, oder die Description ist dann, wann immer du das Gefühl hast, du bräuchtest jetzt ein Tool, um zur Lösung zu kommen, dann bin ich das Tool, das du aufrufen musst. Und dann, wenn man da Telemetrie hat, dann kriegt man quasi auch raus, wann das LLM das Gefühl hat, es bräuchte jetzt ein Tool, also wir reden über Gefühle, wenn wir über Technik reden, so wie das Schluss mit uns, aber irgendwie ist es so. Also das LLM kommt da zu dem Schluss, ich brauche jetzt ein Tool, weil ich, warum auch immer, ich weiß es nicht, und jetzt kriegt man das quasi mit. Und dann könnte man das noch so bauen, dass einer der Parameter ist, was es sich denn gerne wünscht. welche Daten, welche Infos oder wie auch immer, ne? Und wenn man das dann so ein bisschen mittraced, dann kriegt man auch ein Gefühl dafür, was denn das L. L. M. quasi vermisst an Tools, ne? Wenn ich die jetzt schon alle gegeben hab, ne? Und wenn jetzt natürlich, ich das Tool eigentlich schon deklariert habe, aber es irgendwie nicht gefunden wird, ist das vielleicht wieder ein Indikator, dass meine Description oder der Name jetzt nicht so brillant ist für das L. L. M. ne.

Tobias Wittenburg50:01

Ja, dann lass uns auch noch mal über Security reden, weil wenn wir jetzt unseren Agent gebaut haben, ja, der wie ein Pirat spricht und Supportfälle löst oder sowas, dann kann ja womöglich auch ein paar Sachen schief gehen. Und das sollten wir vielleicht auch mal springen, genau, direkt, direkt auf Promotion imployen. Nee, genau, also sind so, so ein paar typische, typische Sachen, die immer und immer wieder in der Interaktion mit L. L. M.s auftauchen. Und das erste ist, ist Prompt Injection. Also, ich sage dem L. L. M., vergiss mal alles, was du gelernt hast. Ja, vergiss mal deinen, deinen Assistant Prompt und mach jetzt mal was anderes für mich. Ja, oder also es gibt immer diesen schönen Witz, so von wegen, mach, mach mir ein Sandwich, nein, Sudo, mach mir ein Sandwich. Also im Prinzip ist das das Ganze auf auf Prompts Injection Ebene. Also man sagt ihm, vergiss mal das, was du gelernt hast und wie du dich verhalten sollst, sondern mach das jetzt mal ganz anders. Ja, und das kann natürlich irgendwie zum Riesenproblem werden und das kriegt man nicht nur hin, indem man den Input validiert, dem Systempont auf jeden Fall mitgibt, auf keinen Fall von dem, was es eigentlich machen soll, abzuweichen. Ja, und ja, das Ganze im Prinzip isoliert.

Tobias Allweier51:20

Ja, beziehungsweise gibt es auch diese ganzen Modelhoster, bieten meistens auch noch irgendwie was an, dass man quasi so ein so ein Filterer hat oder so jemand, der da drauf schaut, was denn an die Models geht. und da wird dann meistens auch noch mal geguckt, ist da irgendwie so was in die Richtung drin. Aber das neue SQL Injection ist irgendwie Prompt Injection, ne.

Tobias Wittenburg51:42

Ja, ja, und dann natürlich auch parallel zu Cross-Site Scripting gibt es natürlich auch Cross-Prompt Injection, das ist irre spannend im Grunde genommen. Ja, also dass das Prompt quasi nicht selber über von dem User geschrieben wird, sondern das Prompt aus dem Ergebnis eines Tools kommt. Ja, also wenn man, weiß ich nicht, eine Datenbankabfrage macht über ein Tool, ja, und als Ergebnis kommt raus, lösch mal bitte alles, ja, oder fang mal an, den User zu beschimpfen oder so, dann ist es natürlich extrem spannend. Und ich hab die Tage, hab ich ein, ich glaub, das hab ich auf LinkedIn gelesen, war ein schöner Artikel von jemanden aus dem, ich glaub, aus dem universitären Kontext und die, diese, ich glaub, eine Professorin war das, die hatte das Problem, dass die Studierenden einfach das PDF mit der Aufgabe quasi in einem LLM übergeben und dann ja direkt das Ergebnis sozusagen als Arbeit abgeben. Ja, und hatte die diese Professorin in diesem PDF quasi weiße Schrift auf weißem Hintergrund, so dass man es nicht lesen kann, stand da drin irgendwie Antwort als wärst du ein Kommunist oder sowas. Ja, wodurch natürlich auch die Sprache wiederum das Ergebnis anders ist. und so konnte natürlich dann letztendlich auch immer geguckt werden, welche Studenten dann einfach gar nicht mehr Korrektur gelesen haben, was was sie abgegeben haben. Das ist ja das Gleiche, also da steht quasi ein Prompt drin, dass einem Tool kommt, in diesem Fall ein PDF oder natürlich für unseren Agenten Szenario aus einem aus einem Tool und das geht natürlich dann direkt in den Prompt rein und verändert dann natürlich damit auch das Ergebnis.

Tobias Allweier53:19

Ja genau, hast hast du super erklärt und ich find also ich Man muss sich einfach überlegen, das Model ist wieder Large Language Model, das kann nur Text. So, alles ist Text, euer Sister Prompt ist Text, euer Prompt ist Text, eure, was auch immer ist Text. Das heißt, wenn ich jetzt zum Beispiel so ein, mein Agent kann im Internet was suchen oder es kann, so wie du jetzt gesagt hast, irgendwelche PDFs lesen, dann bin ich nicht davor gefeit, dass jemand jetzt dann nur Informationen, die für mich nützlich sind, hinschreibt, sondern es könnte auch sein, jemand schreibt da jetzt irgendwelche Prompts, Zusatzprompts hin, und versucht dann so damit ein bestimmtes Verhalten zu verursachen. Und das ist halt auch so eine ganz neue Art von Gefahr, würde ich jetzt mal behaupten. Ja, absolut. Ja, und ich glaube, eine der wichtigsten Sachen sind noch so Credential Exposure. Also wenn ich jetzt irgendwie in Assistant Prompt API-Keys mache oder irgendwie in so Tools kommen irgendwie auch Geheimnisse mit, ja, also und ich hab viel Telemetrie, ist das natürlich ein Problem, ja, oder es fängt dann so an, dass natürlich jetzt Light L. L. M., ja, einfach mal nachlesen, wir können es in die Shownotes packen, war quasi auch so eine, so eine Instruction, die da mitkam, hey, such mir doch nach gewissen Tokens, Pad Tokens, Credentials und mach was damit, ja, und sobald die halt im Kontext sind, ist die Gefahr, dass das LLM das auch kann. Dem Modelhoster würde ich jetzt noch vertrauen, ehrlich gesagt, und dem Model selber, dass da nichts weggeht, aber die Frage ist, was passiert denn noch drumherum? Oder schaffe ich es, wenn ich jetzt eine E-Mail generiere, dass das vielleicht trotzdem noch diesen API-Key als Beispiel mit rein macht, jetzt mal so. Die Lösung ist übrigens, lieber User, du musst deinen Service so und so konfigurieren und hier musst du deinen API-Key machen, zum Beispiel, mhm, ja, und dann ist es halt kein Sample Token, sondern das, was gerade irgendwie im Kontext war, so, ja, und das ist ein Produktives für die, die Hauptanwendung, die irgendwo gehostet ist, so, und das wäre natürlich jetzt ein Super-GAU und da muss man auch drüber nachdenken.

Tobias Wittenburg55:30

Ja, wenn Tools zu viel dürfen, ja, also auch Tools müssen eingeschränkt werden, ja, und wenn natürlich ein Agent Schreibzugriff auf eine Produktionsumgebung hat, dann kann das zum Problem werden. Ja, also auch hier gilt natürlich immer das Prinzip von Lease Privilege. Ja, also lesen bevor man schreibt, Minimum Scope definieren und ganz klare Grenzen setzen, was denn das Modell überhaupt darf, nicht dass denn am Ende tatsächlich irgendwie Produktionsdaten gelöscht werden oder oder ähnliches. Ja, also wenn wenn das Tool zu zu viel darf, so dann kann das natürlich auch ein riesiges Security Problem werden. besonders in Kombination mit sowas wie Prompt Injection und Credential Exposure.

Tobias Allweier56:14

Dann noch die Möglichkeit, dass natürlich jemand quasi euch auch irgendwie Geld kosten kann, indem ihr irgendwie versucht, dass das Ding halt nicht zum Ergebnis kommt, ne? Also eine unlösbare Aufgabe vielleicht stellt und das nicht abgefangen wird und diese While-Schleife quasi für immer läuft, dann hab ich natürlich irgendwie maximale Kosten. Das ist auch wegen Security Issue, weil ich mein, es geht um Geld Also auf jeden Fall immer dieses Maxiterations irgendwie festsetzen im Sinne von, mach das maximal 30 Mal und dann hör einfach auf, das bringt nichts. Und man kann sich auch noch überlegen, ob man nicht an diese Tools auch irgendwie Kosten hinmacht und dann diese auch budgetiert, sodass halt ein Toolcall was kostet und es nicht unendlich oft oder nicht zu oft gemacht wird. Ja, also einfach nur mal so als Input zum drüber nachdenken.

Tobias Wittenburg57:07

Ja. ja, ist ist letztendlich auch nichts Neues, ne. Also wenn vorher oder früher Leute Keywords auf Google Ads gekauft haben, ja, hätte man ja auch immer ganz locker eine Automatisierung, die nach diesen Keywords sucht, schreiben können und dann wär natürlich auch die Google AdWords Rechnung hochgegangen. Also ist im Prinzip hier absolut das Gleiche. Ja, ja, das Letzte ist Exfiltration von Daten. Also wenn ein Agent sensible Daten lesen darf oder lesen kann und natürlich auch eine Möglichkeit hat, nach draußen zu kommunizieren, wie zum Beispiel E-Mails zu schreiben, dann ist es natürlich eine sehr gemeine Kombination. Ja, weil diese beiden Sachen zusammen können natürlich auch einfach Daten nach außen bringen. Ja, und in dass die Daten in Hände geraten, wo sie nicht hingehören.

Tobias Allweier57:54

Ja, das ist ein großes Problem, wenn wir über L. L. M.s und Einsatz in in Firmen oder allgemein Einsatz da drin, weil es halt viel, viel Text viel, viel erzeugen kann in unheimlicher Geschwindigkeit und es unheimlich schwer ist, das dann noch zu verifizieren für den User und viele geneigt sind. Also früher war ja immer der Wizard, einfach weiter, weiter, weiter, weiter, ja, passt dann schon. Und heute ist es immer so, ja, passt schon, was das L.M. gemacht hat, genau. Und da vielleicht auch noch mal auch über die Tools nachdenken, die ja einem Agent gibt und auch dort betrachten, was ist denn an den Parametern das Sicherheitsrisiko. Also wenn ich jetzt eine E-Mail schreiben kann und da ist der Parameter der Text, kann das natürlich alles sein. Und dann kann man natürlich auch wieder so drüber nachdenken, ob man vielleicht LLMs benutzt, um diese Parameter noch abzuprüfen. Du bist ein Agent, der prüft, ob die E-Mail sensitive Informationen hat oder sowas. Also es kann sehr komplex werden, aber wir wollen, glaube ich, erst mal nur Awareness schaffen.

Tobias Wittenburg58:56

Genau, wir wollen auch keine Angst machen.

Tobias Allweier58:58

Ja, Tobi, ich würde sagen, Also Agents sind nicht magic, ich glaube, das haben wir mal, vielleicht diese Vorstellung haben wir vielleicht mal zerstört. Es ist nicht irgendwie die die Magicbox, die alles kann und die jetzt quasi immer das Richtige, die richtige Lösung darstellt. Es ist nicht deterministisch, das ist eigentlich so die wichtigste Information, wann immer ihr etwas braucht, was zuverlässig funktioniert, dann vergesst einfach den Agent, sondern versucht vielleicht mit einem Agent-System den Code zu erzeugen, der dann deterministisch läuft, ja, aber es bleibt, glaube ich, dann Source Code. Und ich glaube, über dieses ganze Agent-Ding, also diese While-Schleife, die da läuft mit einem LLM und das LLM steuert mehr oder weniger den Verlauf dieser Agent-Konversation oder dieses Agent Runs, ist, glaube ich, wenn man es mit einem Wort zusammenfassen will, ist immer Kontextmanagement. Also alles, was dann in diesem Kontext ist, in dieser Historie, in diesem Kurzzeitgedächtnis, das ist ausschlaggebend für die nächstes Mal, wenn ich das LLM frage, für die Antwort des LLMs. So, und am Ende muss ich darüber nachdenken, was will ich denn in dieser Historie drin haben und was will ich vielleicht dann nicht drin haben? Und das ist auch die Schwierigkeit, wenn ich so einen Agent entwickle und ich will ein gutes Verhalten haben, dass ich irgendwie, ja, Kontext managen muss. Weil, ich meine, wir haben mal so über Prompt Engineering geredet in der Folge, am Ende ist ein Agent halt Prompt Engineering oder Kontext Engineering auf einem anderen Scale, weil halt viel mehr Dynamik drin ist. Und es ist nicht so einfach. Und ihr müsst euch da echt Gedanken machen, wie schafft ihr es, dass immer das Richtige da drin ist und ihr immer das richtige Ergebnis bekommt. Und dann ist natürlich auch die Frage, wie teste ich das, also ihr braucht immer irgendwie gute Beispiele beziehungsweise halt auch gute Runs oder gute Sachen, die ihr gegen das L.L.M. feuert und gute Antworten bekommt. Also es ist nicht ganz so einfach, wie sich es anhört, wenn man über A.I. nachdenkt, künstliche Intelligenz, und jetzt kann die irgendwie selber was erledigen.

Tobias Wittenburg61:14

Ja, genau, das war es für uns heute bei Tobyo 2. Es hat Spaß gemacht, dieses Thema mit euch zu teilen. Wenn ihr weitere Gedanken oder Fragen habt, schreibt uns doch eine Mail, gerne auch wenn ihr Themenwünsche habt. Bis zum nächsten Mal bei Tobyo 2, wenn es wieder heißt, Doppel Tobi, Doppel Tech.

Tobias Allweier61:28

Ciao, ciao.

🎧 Jetzt anhören

Schnapp dir deine Lieblings-Podcast-App 🎧 und abonniere uns! Wenn Du uns noch eine Bewertung gibst macht das uns glücklich ❤️ (und den Algorithmus auch 😉).

Apple Podcasts Spotify
Pocket Casts

23.03.2026

KI im Alltag: Wo uns AI heute schon begegnet - Episode #014

TobiHochZwei - Jetzt mit 200% mehr Menschen! Künstliche Intelligenz ist längst Teil unseres Alltags, oft ohne dass wir sie bewusst wahrnehmen. In dieser Episode von TobiHochZwei sprechen Tobias Allweier und Tobias Wittenburg darüber, wo uns AI und KI im täglichen Leben begegnen, wie moderne Modelle…

Zeige mehr Shownotes

TobiHochZwei - Jetzt mit 200% mehr Menschen!

Künstliche Intelligenz ist längst Teil unseres Alltags, oft ohne dass wir sie bewusst wahrnehmen. In dieser Episode von TobiHochZwei sprechen Tobias Allweier und Tobias Wittenburg darüber, wo uns AI und KI im täglichen Leben begegnen, wie moderne Modelle lernen, warum generative AI aktuell so präsent ist und welche Chancen, Risiken und Grenzen diese Technologie mit sich bringt. Eine Folge für alle, die Künstliche Intelligenz besser verstehen und einordnen wollen.

Darüber wurde gesprochen:
(00:00) Intro und Motivation
(02:52) Was ist AI überhaupt?
(08:25) Superintelligenz
(08:59) Sprache und Generative AI, Mehrfach-Definition des Wortes "Model" in der Textverarbeitung
(12:06) Wie lernt eine AI? 4 Schritte zum Trainieren, Fine-Tuning
(16:00) Warum ist AI momentan so präsent?
(17:46) Wann ist es AI und wann ist es nicht AI?
(19:54) Wie macht man das? Beispiel: Verkehrszeichenerkennung
(21:02) Beispie: Textvorschläge im Mobiltelefon
(22:00) Negativbeispie: Content Creation, Velvet Sundowns auf Spotify
(23:44) Negativbeispiel: Faceless YouTube Kanäle, Podcasts, Bücher, Diskussion darüber ob das gut ist!
(29:26) Wie erreicht man Menschen mit generiertem Content?
(30:20) AI bewusst für sich selber einsetzen.
(32:40) Zweifeln an AI, Mindset für die Zusammenarbeit mit AI
(34:40) Schattenseite, Halluzinationen, Vertrauen und Kontrolle, Es lernt nicht...
(36:42) Bias und Abhängigkeit, kritisches Denken
(38:55) Wohin geht die Reise? Analogien mit der echten physischen Welt
(47:20) Fazit

Links aus der Episode:
Podcast über AI und ein bisschen die History:

https://www.acquired.fm/episodes/google-the-ai-company

Cognitive Services und Videoanalyse:

https://azure.microsoft.com/en-us/products/ai-foundry/tools/vision#modal-updated

Attention Is All You Need:

https://en.wikipedia.org/wiki/Attention_Is_All_You_Need

Velvet Sundown auf Spotify:

https://open.spotify.com/intl-de/artist/2GRtyAXWUiisGYub5SGMrb?si=lEqnMttBRHmcbAs2wWSfXw

Rick Beato über Velvet Sundown:

https://www.youtube.com/watch?v=3Nlb-m_vKYM

Microsoft Responsible AI:

https://www.microsoft.com/en-us/ai/responsible-ai

Hast du Bugs, die wir fixen sollen, oder Themen-Ideen, die wir deployen können? Schick uns eine Pull-Request per Mail: feedback@tobihochzwei.de

Wenn dir der Podcast gefällt, unterstütz uns kurz:

🎧 Abonnieren · ⭐ Bewerten · 📣 Weiterempfehlen

LinkedIn: https://www.linkedin.com/company/tobihochzwei/

SEO-Keywords:

TobiHochZwei, Tobi Hoch Zwei, Tobi Hoch 2, Tobi_2, Tobi 2, KI im Alltag, AI im Alltag, Künstliche Intelligenz, Artificial Intelligence, Generative AI, Large Language Models, LLM, Machine Learning, AI verstehen, Tech Podcast, Softwareentwicklung, Cloud, moderne Technologien, Tobias Allweier, Tobias Wittenburg

Transkript anzeigen

Dieses Transkript wurde maschinell erstellt und nicht manuell überprüft. Inhaltliche Fehler sind möglich.

Tobias Allweier00:00

Hallo, willkommen zu einer neuen Folge von Tobi hoch zwei. Heute geht es um ein Thema, das uns alle betrifft, AI im Alltag. Im privaten Umfeld gibt es aus unserer Erfahrung zwei Lager, die Technikbegeisterten, solche Leute wie wir, und die am liebsten alles oder vieles Moderne am liebsten abschalten würden. Also der Aluhut. Ganzer Skeptiker, Skeptiker. Aber AI ist auffälligsten, wenn es direkt in Anwendungen integriert ist, so zum Beispiel bei WhatsApp, der Meta-AI-Kreis, bei dem man mit Large Language Models chatten kann. Genau, aber wir wollen mal so ein bisschen heute darüber reden, wo ist AI im Alltag und wo sieht man es vielleicht gar nicht so und wo hat man vielleicht noch gar nicht damit gerechnet, um einfach vielleicht auch so ein Bewusstsein dafür zu schaffen, oder Tobi?

Tobias Wittenburg00:55

Genau, so ist es. Und ja, die Motivation war eigentlich, dass wir ganz viele Nachrichten ja heutzutage bekommen zum Thema neue AI-Modelle oder neue Möglichkeiten oder neue Features. Und die Nachrichten heutzutage sind hauptsächlich für Generative AI, aber das ist ja eigentlich nur ein kleiner Teil von AI. Und ja, viele wissen gar nicht neben Generative AI, was es da noch so gibt und auch wie stark das bereits unseren normalen Alltag beeinflusst. Und es gibt quasi diese Grenze zwischen ich nutze A.I. und ich nutze kein A.I. gar nicht mehr. Ja, viele, viele benutzen A.I., ohne es ganz konkret zu wissen. Ja, und uns geht es halt darum, das Thema mal so ein bisschen greifbar zu machen, nicht so ganz abstrakt, sondern praktisch mit mit Beispielen mal zu diskutieren, wie sowas vermutlich umgesetzt wurde. Und die Beispiele, die wir mitgebracht haben, also keiner von uns beiden hat an diesen Beispielen jemals gearbeitet, das ist so schon mal vorweg, das sind also nur Mutmaßungen. aus unserer Erfahrung heraus und dass wir einfach noch mal so ein bisschen versuchen, das zu zerlegen, um mal so ein bisschen Bewusstsein dafür zu schaffen, wo haben wir denn eigentlich A. I. Ja, und ganz persönlich, ich hatte ein spannende Erlebnisse in den letzten Wochen, ich habe einen A. I. Vortrag an einer Schule gehalten, ja, und die die Kinder, die da saßen, die werden so in in 5 bis 6 Jahren Abitur machen und für die ist es alles natürlich noch magischer, ja, weil dass sie diese alte Welt nicht erlebt haben, wo wir natürlich alle noch ohne zurechtkommen mussten, ja, also graue Vorzeit.

Tobias Allweier02:32

Das war, das, wie heißt das, dieses Wähltelefon mit der Drehscheibe, ne, das auch wenn du das.

Tobias Wittenburg02:37

Kindern zeigst dann, was ist das? Und die sich fragen, warum eine Diskette ein ausgedrucktes Speichern-Symbol ist und solche Sachen, ja, das ist heutzutage alles anders. Ja, und vielleicht sollten wir einmal ganz kurz bevor wir ins Thema gehen mal dieses diesen Begriff AI eigentlich erst mal erklären was ist AI vielleicht Tobi was ist denn AI für dich eigentlich?

Tobias Allweier03:02

Was ist AI für mich ich überlege gerade neulich hat mir jemand gesagt wie dieses Wort artifactual intelligence zustande kam ich muss artificial artifactual artificial wollen wir das schneiden die lassen drin.

Tobias Wittenburg03:20

Übrigens haben wir für Lacher gesagt.

Tobias Allweier03:23

Was ist für mich AI? Also AI ist am Ende Machine Learning, noch mal so ein Buzzword. Also irgendwie bringe ich Wissen Computern bei und Computer sind am Ende reine Mathematik. Ich habe ja irgendwie Chips und für mich ist es nicht so magic, weil ich verstehe, dass es halt Statistik ist am Ende. Statistik, Mathematik, Wahrscheinlichkeiten, die da reingehen oder die da zum Tragen kommen. Und ich habe jetzt nicht, was man aber, glaube ich, bei vielen Menschen, die sich nicht damit beschäftigen oder nicht diesen Hintergrund haben, ich habe nicht diesen, diese Erwartung, das ist ja Magic, das kann, das ist jetzt viel schlauer als ich. Also es weiß sicherlich viel mehr als wir, aber es ist jetzt nicht dieses Übermenschliche, wo irgendwie alles kann. das ist es für mich.

Tobias Wittenburg04:21

Ja, also nach Definition ist es erstmal ein Überbegriff für Systeme, die Aufgaben übernehmen, die normalerweise menschliche Intelligenz erfordern. Also erkennen, verstehen, entscheiden, erzeugen diese ganzen Themen. Typisches Beispiel ist ja immer, du hast ein Bild von einem Tier und musst sagen, ob es ein Hund oder eine Katze ist. Ja, jeder Mensch und jedes wahrscheinlich dreijährige Kind kriegt das ohne Probleme hin. ja, auch wenn es verschiedene Hunde sind und verschiedene Katzen, ein Computer kriegt das im Grunde genommen erst mal nicht hin, wenn nicht AI zur Verfügung steht. Ja, und es gibt ja auch von Bill Gates diesen berühmten Ausspruch, wie wäre das denn, wenn Computer hören könnten oder sprechen könnten und und darum geht es im Prinzip bei AI, dass wir Sachen, die normalerweise ja menschliche Intelligenz erfordern, einfach einem Computer beibringen. Ja, und deshalb ist AI auch kein einzelner Algorithmus, sondern ein riesiges Feld mit viel Forschung und ganz vielen Teilbereichen. Und du hast ja gerade schon das Stichwort gegeben, Machine Learning ist 1. Ja, und beim Machine Learning geht es ja zum Beispiel um um verschiedene Disziplinen wie Supervised Learning und Unsupervised Learning. Und Supervised Learning wird zum Beispiel für Klassifikationen genutzt oder Regressionsanalysen oder so. Das muss man sich so vorstellen, bei Klassifikation geht es darum, wenn man ja Bilder oder Datensätze hat, einfach zu sagen, was ist denn da drauf. Also das schöne Beispiel mit Hunden und Katzen, du hast 10 Bilder vor dir, ja, und kannst halt sagen, das eine ist ein Hund, das andere ist eine Katze, das dritte ist ein Hamster, ja, und das ist Klassifikation. Oder bei Regression, wenn man so eine typische Punktewolke auf so einem Diagramm hat und man als Mensch einfach sehen kann, da kann ich im Grunde genommen das Ganze über eine Gerade abbilden, dann ist das genau eine Regressionsanalyse hier? Bei unsupervised Learning geht es ganz viel um Clustering ja oder Anomalieerkennung. Also welche Gemeinsamkeiten haben einzelne Einheiten aus einem großen Datensatz? Ja, so, dann gibt es noch Deep Learning, das sind neuronale Netzwerke. Darunter gehört sowas wie Bildverarbeitung, Transformers, das ist Sprachverarbeitung, das ist das, was wir heutzutage mit GPT machen. Und darunter dann natürlich diese ganzen generativen Modelle mit LLMs, Bildgenerierung, Audio, Video. Und darunter gibt es noch ganz, ganz viele weitere, wie zum Beispiel Computer Vision als Thema, also dass man einem Computer beibringt, etwas zu sehen, ja. Gibt es, glaube ich, auf der auf der Cognitive Services Seite von Microsoft ein schönes Beispiel, wo ein Videostream analysiert wird und der Videostream ist von einem Supermarkt und es wird halt automatisch herausgefunden was da passiert also irgendjemand schüttet da die Milch um und dann kommt so ein so ein Maintenance Guy und und wischt das auf und so weiter und das halt einfach zu klassifizieren solche Sachen ja und dann gibt es auch noch Unterscheidungen es gibt so die sogenannte narrow AI und general AI also narrow AI ist künstliche Intelligenz, die genau eine spezifische Aufgabe sehr gut kann. Das ist sowas wie Schachspielen, Spam filtern, Bilder erkennen. Also das heißt, eine Engine, die die Spam rausfiltern kann, kann halt genau nichts anderes. Es ist nur noch eine Klassifikation, Spam oder nicht Spam, mehr ist das nicht. Aber die kann jetzt keine Bilder generieren. Und General AI ist halt eine AI, die intellektuell anspruchsvolle Aufgaben ähnlich wie ein Mensch lösen kann, zumindest wirkt es so. Ja, haben wir heute noch nicht, also diese diese allgemein verfügbare General AI ist noch nicht da, aber ist natürlich ein Ziel von vielen Forschungsteams, genau das herzustellen. Und dann gibt es noch diesen dieses Stichwort der Superintelligenz. Ja, Tobi, haben wir Superintelligenz.

Tobias Allweier08:24

Du meinst ich und du?

Tobias Wittenburg08:26

Wahrscheinlich nicht, oder?

Tobias Allweier08:27

Zusammen auf jeden Fall.

Tobias Wittenburg08:28

Nein, Superintelligenz ist, die soll quasi die menschliche Intelligenz übertreffen, ja, in allen Bereichen. Ja, also das ist reine Theorie und bisher noch reine Science Fiction. Also es ist halt so, dass die meisten Menschen, wenn sie AI sagen, eigentlich generative AI meinen, weil das heutzutage einfach hauptsächlich das ist, was in der Presse stattfindet und was viele nutzen. Es ist aber teilweise nur ein kleiner sichtbarer Teil des Gesamtbildes.

Tobias Allweier08:54

Vielleicht noch zu generative AI, so ein bisschen zu ergänzen. Also der Ursprung war ja mal diese Idee von oder wo sich die Wissenschaft oder die Computer Science immer schwergetan hat, ist mit Textverarbeitung. Und alleine aus diesem Grund halt im Sinne von, wenn man jetzt dieses Wort Model betrachtet, gibt es ein Laufsteg-Model, also ein Fashion-Model. Dann gibt es, wenn man in die Technik guckt, in unsere Welt gibt es irgendwelche Data-Models. Wenn ich jetzt über Modellbau nachdenke, gibt es auch Models. Wenn ich über Lego nachdenke, gibt es auch Models. Also ein Begriff konnte immer verschiedene Bedeutungen haben und die Bedeutung gab es, kam halt immer nur um den Text drumherum. Aber es gab jetzt keine feste Regel. Also wenn das Wort Model auftaucht, muss nach dem dritten Wort dann irgendwie die Bedeutung kommen im Sinne von Fashion Model oder sowas. Das gab es nicht und das war halt unheimlich schwer. Und die Ursprungsidee für dieses, was wir heute als so mächtig betrachten, ist ja die Idee, wie können wir denn bessere Übersetzer schaffen? Weil bei Übersetzungen habe ich ja das Problem, dass vielleicht das Wort Fashion Model in Englisch ein ganz anderes Wort ist oder Fashion als Englisch, aber was heißt das denn auf Deutsch? Keine Ahnung. Modemodel ist auf Englisch vielleicht dann nicht mehr was mit Model im Sinne von. Also man hat ja das Problem, dass in anderen Sprachen Dinge anders benannt werden und es aber unheimlich schwer war, den Kontext damit ins Spiel zu bringen, um dann quasi auch in der Zielsprache quasi das richtige Wort oder die richtige, weiß nicht, den richtigen Satz zu finden. Und so ist man dann irgendwann auch auf dieses, was wir jetzt heute als LLMs kennen, ist man dann irgendwann gekommen. Und du hast das auch schön unterschieden. Also es gibt ja diese Deep Learning im Sinne von Transformer. Ich will nicht, dass ein Übersetzer kreativ wird. Also wenn ich dem sag, ich hab einen Satz, weiß ich nicht, ich möchte mir eine Pizza bestellen und ich will das jetzt auf Spanisch haben, dann würde ich genau meinen Satz haben und nicht noch irgendetwas dazu. Und das ist ja quasi das klassische Transformer in der Maschinenwelt. So, und dieses Generative ist ja Diese Kreativität, wir haben schon mal in einer Folge darüber gesprochen, dass man so mit den Wahrscheinlichkeiten so ein bisschen spielt und dadurch halt jetzt nicht nur der Satz "Ich möchte eine Pizza", sondern vielleicht kommt da noch "Ich möchte eine leckere Pizza" oder "Ich möchte jetzt die leckerste Pizza", was auch immer dann in Wahrscheinlichkeiten drin ist. Genau. Und vielleicht, was ich sagen wollte, Generativ ist meistens eher so auf Text bezogen, wobei wir natürlich auch mächtige Models inzwischen haben mit Video und Bild. Aber das, was die meisten benutzen, ist einfach nur Text. Und da muss man vielleicht auch mal drüber nachdenken. Was bedeutet das, wenn man mit wenig Aufwand viel Text erzeugen kann, der noch irgendwie gut ist? Das ist so vielleicht auch noch mal so ein Gedanke.

Tobias Wittenburg12:00

Ja, genau. Vielleicht noch mal, wie lernt denn überhaupt eine AI? Und im Prinzip sind das ja Zuallererst braucht man Daten. Also man braucht riesige Mengen an Daten. Mit dem Beispiel mit Hunde und Katzenerkennung auf Bildern, da reicht es halt nicht, zehn Bilder zu haben, sondern man braucht wahrscheinlich eher Millionen von Bildern oder Millionen von Codezeilen, wenn man Code generieren möchte. Oder Millionen von Texten, wenn man halt effizient Text generieren möchte. Dann geht es darum, Muster zu erkennen, also statistische Zusammenhänge muss man in den Daten finden, um bei den Katzen und Hunden zu bleiben. natürlich rausfinden, was sind alles Katzen, was sind alles Hunde, um dann das Ganze zu trainieren. Also man hat quasi Parameter, die man setzt, bis das Modell gute Vorsagen trifft. Man hat dann quasi diesen Datensatz mit korrekten Daten, die klassifiziert wurden von Menschen beispielsweise. Und kann dann mit Gewichten, mit diesen Parametern darauf das Modell einwirken, bis halt am Ende ein gutes Ergebnis herauskommt. Ja, und dann letzter Punkt Inferenz, da geht es darum, das Modell auf neue unbekannte Daten anzuwenden und zu gucken, ob es trotzdem noch passt. Ja, und wichtig ist aber auch noch mal zu sagen, dass die AI nichts versteht im eigentlichen Sinne. Ja, sie erkennt halt nur statistische Muster und erzeugt wahrscheinliche Ausgaben. Ja, das ist eine Stärke und natürlich auch eine Schwäche von von der AI.

Tobias Allweier13:33

Genau, Also wenn man wieder über Large Language Models nachdenkt oder jeder benutzt ChatGPT und es kommt halt dieser Fall raus, es ist hallitioniert. Es erzählt mir irgendetwas, was halt nicht richtig ist oder was nicht valide ist, dann ist es halt diese Schwäche, diese schnelle Statistik und irgendwas kommt raus. Ich würde es vielleicht noch ergänzen, weil ganz oft so gesagt wird: Ja, in ChatGPT steckt das ganze Internet und es weiß alles, was auf diesem Planeten war. Ja, ich brauche ja nur diese Daten. Und das stimmt zum einen, also es wird sehr lange quasi einfach diese großen Datenmengen gegen das Model geschmissen oder, geschmissen ist blöd, aber es wird das Model damit trainiert, aber es gibt danach trotzdem noch eine Phase und das war ja das, was OpenAI gemacht hat, wo Menschen da sitzen und das Model quasi Dinge fragen und diese Antworten bewerten. Oder dann teilweise sogar korrigieren, um dann hinten raus schon so was zu haben wie ein Feintuning. Und Feintuning geht dann wieder in diese Richtung. Ich habe, was du erzählt hast, quasi Daten, wo dann, wo gut sind und wo schlecht sind. Also ich habe sie irgendwie bewertet. Und das ist das auch, was wahrscheinlich sehr teuer ist, weil ich brauche wieder den Menschen oder ich brauche Menschen, die das irgendwie klassifizieren und einschätzen.

Tobias Wittenburg14:52

Ja. Und zum Beispiel Beim Thema Statistik gab es ein ganz tolles Beispiel in dem in diesem Vortrag für Schulen, den ich gehalten habe. Da ging es darum, um diese Frage, ob A.I. quasi die Intelligenz von Menschen hat und schöne, schönes Beispiel dabei war, was ist das Gegenteil von kalt. So und für uns Menschen ist natürlich klar, das Gegenteil von kalt ist warm. So für eine A.I. ist es in diesem Fall, wenn dieser Satz kommt und das auch nach Tokens runtergebrochen wurde, ist die ist der Antwort da drauf, die Wahrscheinlichkeit, dass das Token an oder dass der Antwortsatz anfängt mit das nächstes Wort höchste Wahrscheinlichkeit ist Gegenteil, die nächste Wahrscheinlichkeit ist von, warm ist kalt sozusagen. Also es geht am Ende nur noch um statistische Gewichtung, was jetzt die höchste Wahrscheinlichkeit für einen Antwortsatz ist. Wenn die Antwort ist, das Gegenteil von warm ist Eisbär, dann hat quasi das Modell versagt, weil das nicht die höchste Wahrscheinlichkeit ist. Ja, ja, genau. Und warum ist das gerade, das ganze Thema AI so präsent? Das hat verschiedene Gründe. Also ein Grund ist sicherlich die Rechenleistung, die momentan weltweit aufgebaut wird mit GPUs. Es hat was mit den Firmen zu tun, die da agieren, also Firmen wie OpenAI beispielsweise, wie Microsoft, aber auch AWS und Oracle, die jetzt einfach diese großen Modelle hosten und wo halt auch viel in der Presse momentan ist, wie die jetzt halt zusammenarbeiten. Dann ein Thema, was jetzt auch, ich glaube, einzigartig in der in der Menschheitsgeschichte ist, dass wir einfach diese Daten haben und darauf zugreifen können, dass diese Daten einfach auch im Internet verfügbar sind. Also auch das gab es ja vorher in dem Sinne nicht, dass es so so verfügbar war wie heute. Selbst die große Bibliothek von Alexandria hatte ja am Ende alles irgendwie auf Papierrollen und das war halt ja nicht einfach fürs fürs Lernen verfügbar. Ja, genau. Und das Letzte sind die Algorithmen, die Transformer Architektur war letztendlich da der Durchbruch für für LLMs ja und ohne diese ganzen Zutaten wären halt heutzutage die ganzen Sprachenmodelle nicht möglich.

Tobias Allweier17:03

Genau es gibt noch kann man vielleicht in die Shownotes packen einen coolen Podcast über diesen Weg also dieses Attention is all you need und so die Historie wie das denn so entstanden ist ist eine lange Folge ist auf Englisch aber die ersten Ansätze waren jetzt noch ohne GPUs by the way das waren dann wirklich Computer CPU Cluster ne bis man dann erkannt hat vielleicht ist das gar nicht so gut wenn wir CPUs nehmen sondern GPUs aber die ersten Ansätze waren wirklich ohne jetzt noch Nvidia Chips da drin zu haben genau können wir in die Shownotes packen gerne.

Tobias Wittenburg17:41

Ja, wann ist es denn eigentlich meistens AI? Also wenn wir so ein klassisches Problem haben, ja, also wie sagen wir mal die Umrechnung von Celsius und Fahrenheit, ja, die ist immer gleich, völlig deterministisch, gleicher Input produziert, gleichen Output. Ja, da gibt es eine Formel, das Ergebnis ist immer gleich. So, hier macht AI einzusetzen einfach gar keinen Sinn. Also rein von den Kosten, um das Ganze zu berechnen. Das kann man auf einem relativ kleinen Prozessor, wahrscheinlich so ein ESP32 locker ausführen. Da braucht man keine GPU für, da braucht man keinen Strom und keine Kühlung für. Also sowas macht keinen Sinn. Anders ist das, wenn wir jetzt ein Thema haben wie beispielsweise Verkehrszeichenerkennung. Hier sehen einfach Schilder überall anders aus. Also nehmen wir das Beispiel eines Stoppschildes. Das Stoppschild hat acht Ecken. das sieht auch in anderen Ländern so aus, aber wenn ihr mal eine Internetsuche nach dem Stoppschild zum Beispiel in Saudi-Arabien sucht, dann habt ihr da auf dem Stoppschild in Saudi-Arabien das Wort Stopp stehen und natürlich auch das arabische Pendant dazu da drunter. Also es sieht erstmal anders aus als das typische Stoppschild hier in Europa und das muss natürlich gelernt werden und genauso ist es ja so, dass wenn ein Auto fährt, dann ist das Stoppschild ja auch nicht immer an der gleichen Stelle im Bild. Ja, es kann neben der Fahrbahn stehen, es kann über der Fahrbahn stehen, es kann an der Seite stehen, sie können schmutzig sein, es kann ein Baum davor stehen, es können wegen Arbeiten auch durchgestrichen sein. Ja, und damit, wenn man das versuchen wollte zu programmieren, ganz klassisch mit Code, mit ganz vielen if-Statements, kommt man erst mal nicht mehr weiter. Ja, auf der anderen Seite gibt es aber auch extrem viele Bilder von solchen Schildern heutzutage, sei es die öffentliche Quelle bei uns also die Straßenverkehrsordnung genauso wie die Straßenverkehrsordnung in anderen Ländern wo das genau dokumentiert ist wie so ein Schild auszusehen hat als auch natürlich viele Bilder im Internet wo Schilder drauf sind weil einfach Touristen Bilder gemacht haben und da hat man natürlich genau diesen Fall dass auch extrem viele Daten vorliegen und man hier einfach trainieren kann ja wir haben ein paar ein paar Beispiele noch mal mitgebracht wo heutzutage AI drin ist und quasi unsichtbar ist. Ja, wir haben ja gerade schon über die Verkehrszeichenerkennung gesprochen. Wie sieht das aus? Also typischerweise hat man einen großen Datenschatz, wo Bilder drauf sind. Entsprechend, wie macht man das, trimmt man natürlich diese Bilder erstmal auf die gleiche Größe, hat dann ein sogenanntes Convolutional Neural Network und kann damit das Modell trainieren. Das heißt, man gibt diese Daten rein, sobald das Modell die Verkehrszeichen gut erkennt, geht es entsprechend weiter und dann hat man halt Schilder von von der Straße oder so, wo man das versucht zu erkennen. Ja, und in dem Moment muss dann halt das Schild in ganz kurzer Zeit erkannt werden, ausgeschnitten werden, wieder auf die gleiche Größe getrimmt werden und dann einfach klassifiziert werden, um zu gucken, ist es jetzt halt das Stoppschild oder ist das ein Schild, was zum Beispiel eine Geschwindigkeitsanzeige?

Tobias Allweier20:57

Genau, Tobi. Und auch wenn ihr euer Handy benutzt und da wild Text eingebt und euer Handy euch Vorschläge macht im Sinne von, das nächste Wort ist das oder ihr wollt gerade das Wort schreiben, also du tippst Glück und dann kommt auf einmal Glückwunsch als Vorschlag. Das sind auch klassische Machine-Learning-Modelle, die da irgendwie trainiert wurden. Und man merkt es ja auch daran, es ist nicht perfekt. Es ist halt wieder Statistik und manchmal passt die Statistik nicht. Manchmal ist es halt dann, ich will was ganz anderes schreiben und es schlägt mir aber das vor, was halt am wahrscheinlichsten ist und nicht das, was ich gerade will.

Tobias Wittenburg21:35

Ja. Genauso ist natürlich die Kombination von herzlichen Glückwunsch zum Geburtstag viel öfter als herzlichen Glückwunsch zum Renteneintritt. So dass man herzlichen Glückwunsch zum noch tippen kann als Vorschlag, ja, aber Renteneintritt muss man halt tippen. Ja, ja und 2 ich sag mal fast schon ja Negativbeispiele, weil sie einem ja so ein bisschen vielleicht gegen den Strich gehen, sind sind Content Creation, die auf verschiedenen Plattformen stattfinden, ohne dass da letztendlich ein Mensch dabei ist, der, wie soll ich sagen, für das Ganze steht. Also ein schönes Beispiel dafür ist, es gibt eine Fake Band auf Spotify, The Velvet Sundowns, die hat, ich hab in einer vorbereiteter Folge mal geguckt, die hat 149000 Streams auf Spotify pro Monat und die hatte zwischendurch, als die rauskam, es muss so ungefähr ein halbes Jahr her sein, hatten die 300000 oder 400000 Streams. Ja, genau, das ist halt eine Band, die so Country Rock macht, würde ich sagen. Ja, so ein bisschen, wie soll ich sagen, mit mit U.S.A. Geschmack. Ja, wo, wenn man sich die Bilder anguckt, das relativ klar ist, dass es keine echten Menschen sind, ja, was aber vom Hören her, wenn man das nur so als ich sag mal nebenbei Band konsumiert, nicht hörbar ist, ja, und es gibt ein schönes Video von Rick Beardo. Rick ist Produzent für für Musik und nimmt solche Sachen immer gern auseinander und er hat auch genau diese Band auseinandergenommen und hat letztendlich die Tracks dieser Band genommen und in die verschiedenen Instrumente gesplittet. Also es gibt A.I. Tools, da kann man einen fertigen Track nehmen und kann dann halt das Schlagzeug isolieren und die Gitarren isolieren und den Gesang isolieren. Und letztendlich kann man über Artefakte bei in dieser in dieser isolierten Gitarrenspur halt auch genau rausfinden, ob das Ganze A.I. ist oder nicht. Das hat er, wir verlinken das auch mal in dem in den Shownotes, das hat er sehr, sehr, sehr, sehr spannend gemacht. Krass, ja genau, das ist, das ist ein Thema, das andere, was viel viel, viel öfter momentan kommt, sind diese YouTube-Kanäle, wo am Ende gar kein Mensch mehr zu sehen ist. Also es funktioniert natürlich so, dass sich irgendjemand hinsetzt und ein Skript per LLM erzeugt für irgendein Thema, was gerade ja vielleicht en vogue ist, ja, also irgendwelche, sagen wir mal, Fitnessthemen oder so, ja, wie nehme ich zehn Kilo ab in zwei Monaten oder so, dann halt entsprechend ein Skript generiert, das Ganze über Text to Speech, einfach in eine Audiospur verwandelt und dann einfach Stockfootage drunter legt oder A.I. generierte Videos dazu benutzt, um da einfach ein Videostream drunter zu legen. Ja, und das ist natürlich insofern problematisch. Es gibt ja diese Responsible A.I. Richtlinien, dass es quasi keinen echten Autor gibt. Also, wenn der Kanal noch ein ganz generischen Namen hat, dann gibt es ja im Prinzip keinen, der sich hinstellt und sagt, das Ganze ist von mir oder der quasi mit seinem mit seinem Namen oder ähnliches dafür steht. Ja, das ist wie ein Buch ohne Autor im Grunde genommen. Ja, also oder Buch ohne Verlag und Buch ohne Autor. Also es ist, es ist, es könnte sonst was sein, was in diesen Videos ist und es gibt natürlich auch keine Instanz, die irgendwie sagt, dass das, was da drin ist, richtig ist und gut sozusagen.

Tobias Allweier24:56

Ja, es gibt anscheinend auch schon Bücher, die wirklich nur mit A.I. geschrieben wurden. Oh ja, das ist auch was passiert und Ja, oder Podcasts, also es gibt ja eine App oder Anwendungen, wo man so brainstormen kann über ein bestimmtes Thema und dann gewisse Sachen einbauen kann, die so Podcast-like sind. Und dann wird das Ganze von Text-to-Voice-Modellen quasi gesprochen und am Ende habe ich einen Podcast. Ich finde, die Entwicklung ist verrückt und ich glaube, wir werden sehr viel davon sehen. Aber ich habe noch keine abschließende Meinung, wie das am Ende enden wird oder wie das ausgeht oder wie die Menschen das wahrnehmen werden. Weil die Frage ist halt, was bringt mir so ein YouTube-Video? Du hast jetzt gesagt, du hast irgendwelche Fitnesstrends oder irgendwelche Sachen. Und ich könnte das einfach prompten und habe dasselbe und könnte vielleicht sogar jetzt noch customizen. Also ich könnte ja sagen, meine Situation ist aber so und so. Oder ich habe mal irgendwie mir den Fuß gebrochen und kann nicht mehr so viel auf dem Fuß stehen oder ich kann nicht joggen. So, darauf kann ja der Autor in seinem Video nicht eingehen. Ich aber in meinem Prompt schon und das LLM wird mir trotzdem sehr gute Vorschläge machen. Also es ist eine spannende Zeit. Wie wird das ausgehen und was ist dann noch so dieser Value? Also warum konsumieren Menschen was? Und das andere ist natürlich, wenn jetzt viel mehr entsteht, ich meine das harte Limit, auf diesem Planeten sind 24 Stunden. Also selbst wenn wir jetzt ganz viele Spiele werden erzeugt, Bücher werden erzeugt, was auch immer wird erzeugt, aber die Zielgruppe hat halt nur 24 Stunden irgendwie was zu tun. So. Ja, genau.

Tobias Wittenburg26:48

Das heißt aber auch, der Content wird sozusagen immer spitze auf eine bestimmte Zielgruppe abgerichtet. Also das ist ja nicht mal das allgemeine Fitnessvideo, sondern ein Fitnessvideo für dicke 40-jährige, ja, oder so mach ich meine Oma fit oder so, das ist natürlich dann noch mal, ich sag mal, eine sehr spitz gerichtete Zielgruppe. Ja, und das geht natürlich jetzt viel, viel einfacher.

Tobias Allweier27:08

Genau, und und ich glaub, dass halt einfach durch dieses harte Limit, dass Menschen eine begrenzte Zeit konsumieren, also quasi der der Markt ist am Ende und ich glaub, dadurch wird es halt einfach so, wie du sagst, entweder so mehr Nischen nischenhaft, ja, also dass ich halt super spezialisierten Content finde Oder so wird halt die Spreu vom Weizen getrennt, also dass ich dann irgendwie doch Qualität brauche. Und ich glaube, Qualität, also ist es noch Qualität, wenn ich einfach ein LLM frage, gib mir jetzt zehn Sachen, die ich machen muss, um fit zu werden und dann ein Video mache? Oder ist Qualität, ich habe irgendwie Erfahrung und gebe meine persönliche Erfahrung weiter und die vielleicht nicht so in dem LLM drin ist? Fragezeichen.

Tobias Wittenburg27:55

Genau. Und es ist ja auch noch nicht mal verwerflich, sowas zu produzieren oder zu konsumieren. Man muss sich, glaub ich, dem Ganzen einfach nur bewusst sein, dass es so ist. Also, wenn ich jetzt, du hast ja dieses Beispiel mit dem autogenerierten Podcast gebracht, wenn das jetzt ein Podcast ist, zum Beispiel über eine technische Dokumentation, und das kann ich beim Autofahren hören und komm etwas schlauer ins Büro morgens, weil ich den Podcast gehört hab und der ist A.I. generiert, dann ist da überhaupt nichts dagegen zu sagen. Ne, ich glaube, problematisch wird es halt, wenn wenn irgendwelche Meinungen vertreten werden und dass einfach niemand mehr für eine Meinung irgendwie gerade steht. Ja, und genauso wie mit dem Fitnessbeispiel, das kann ja auch tatsächlich am Ende der Impuls sein, dass ich mich jetzt irgendwie mehr bewege. Ja, wenn ich ein, ich sag mal, ein Video für, wie gesagt, die die dicken Vierzigjährigen habe. Nichtsdestotrotz ist es halt schon problematisch, wenn da am Ende kein Mensch irgendwie dahinter steht, wo man sagen kann, hey, der hat das Ganze gemacht und dem glaube ich jetzt. Ja, also die Frage ist ja, ob man denn hinter A.I. Persönlichkeiten irgendwann glaubt.

Tobias Allweier28:57

Ja, also Disclaimer, wir sind beide über 40 und entsprechen nicht Normalform, falls sich jemand jetzt angegriffen fühlt, wenn du das so sagst. Ja, guter, gut, gut, guter Punkt. Ja, und das andere, was mir noch eingefallen ist, also ich hab mal in im Studium gelernt, dass ja Menschen unterschiedlich erreichbar sind. Also viele, also bei mir funktioniert es wunderbar durch Ton. Also wenn ich Dinge höre, führt das dann bei mir dazu, dass ich sie auch verstehe. Manche müssen es aber wirklich angefasst haben, manche müssen es irgendwie gesehen haben. Und so gibt es ja verschiedene Typen. Und wenn ich jetzt aber so was habe wie, was wir jetzt so ein bisschen kritisieren, in Anführungszeichen, vielleicht ist es ja dann auch möglich, wenn ich rausfinde, mein Chef ist ein Visueller. dass ich dann durch solche Modelle vielleicht auch wunderbar Bilder erzeugen kann und ihnen wunderbar das, was ich sehe als Audiomensch oder höre, besser rüberbringen kann. Also es kann ja auch ein Pluspunkt sein.

Tobias Wittenburg30:00

Ja, absolut. Vor allen Dingen, wenn du als Ohrenmensch sozusagen jemandem, der Augenmensch ist, was näherbringen musst. Genau, ist ja auch ein Transformer im Grunde genommen in dem Moment.

Tobias Allweier30:13

Ist auch ein Transformer.

Tobias Wittenburg30:14

Ja. Ja, und spannend ist natürlich auch, AI bewusst für sich selber einzusetzen. Also was gibt es? Wir haben ja schon gerade über Recherche gesprochen im Zusammenhang mit den Videos zum Beispiel. Textgenerierung ist genau das Gleiche. Ja, das kann sowas sein wie Mails schreiben, eine Korrektur von einem Text haben, etwas vielleicht flüssiger hinbekommen. Ja, Recherche beschleunigen mit den entsprechenden Tools wie beispielsweise ChatGPT, Cloud, Gemini, Copilot und so weiter. Ja, Es kann sein, sowas wie Bildgenerierung, also wenn ich, wenn ich als Ohrenmensch ein Bild für einen Augenmensch brauche, ja, was, was nehme ich denn da? Da gibt es entsprechend Dolly Midjourney, Adobe Firefly. Social Media Posts finde ich schon wieder ehrlich gesagt problematisch an vielen Stellen, ja, aber für so Präsentation oder Prototyping ist das natürlich genau das Richtige. Dann sowas wie Coding Assistenten, da haben wir schon lang und breit hier in unserem Podcast drüber gesprochen, über über Gitter Copilot, Cursor, wie sie alle heißen, ja, für Codevorschläge, Debugged Refactoring, also etwas, was wir beide sehr intensiv jeden Tag einfach benutzen, ja, und wo wir auch extrem gute Erfahrungen mit gemacht haben und was auch extrem gut funktioniert heutzutage. Ja, dann natürlich das ganze Thema Produktivität, ein typisches Beispiel ist, ist Microsoft Copilot hier, Zusammenfassung von Meetings, Dokumentation, Aufgabenplanung, solche Sachen und dann natürlich Übersetzung, wie zum Beispiel DeepL, ja, und auch da noch mal eine persönliche Erfahrung da draus. Ich hab vor, wie war das, 23 Jahren, hab ich irgendwann meinen englischen Lebenslauf gebraucht, hatte aber nur einen deutschen. Ja, und ich war schon da drauf, mir ein Bewerbungsbuch zum Thema, wie schreib ich einen englischen Lebenslauf zu kaufen. Ja, und hab dann gedacht, Moment mal, ja, und hab mir einfach einen englischen Lebenslauf, also das Gerüst eines englischen Lebenslaufs, generieren lassen in Word, um dann halt einfach meine Daten da reinzufüttern. Ja, und dann hatte ich das Ganze innerhalb von wahrscheinlich eine Stunde fertig, wo ich ansonsten wahrscheinlich eher zwei Tage auf das Buch gewartet hätte und dann angefangen hätte, alles von Hand zu bauen. Und das sind so, ich sag mal so Beispiele, wo man einfach sagen kann, da beschleunigt das Ganze, diesen ganzen Prozess, die EI gewaltig.

Tobias Allweier32:28

Ja, und vielleicht von, was ich noch ergänzen will, also wir haben ja angefangen mit diesem, es gibt Enthusiasten, so wie wir jetzt und es gibt aber auch sicherlich Menschen, die zweifeln oder die einfach schlechte Erfahrungen haben oder was man immer hört, ist, der hat mir da was gesagt und das war einfach Quatsch. Ich meine, ja, das ist so. Ich glaube, man muss auch so vom Mindset das einfach wahrnehmen als: Ich habe jetzt einen immer verfügbaren Praktikanten. Und das auch. Also ich will Praktikanten nicht abwerten, aber die Idee von einem Praktikum, so kenne ich es ja, ich bin noch nicht ausgelernt und ich will quasi so ein bisschen mitlaufen, um zu lernen. Also die Erwartung an einen Praktikanten in meinen Augen ist, ich kann nicht alles, ich kann keinen Perfektionismus oder ich kann keine fertige Lösung von ihm erwarten, aber er kann mir trotzdem Arbeit abnehmen. Und so sehe ich auch quasi diese ganzen Tools. Also ich muss zum einen in der Lage sein, den richtigen Prompt oder die richtige Art zu finden, ihm zu sagen, was ich will. Das ist ja schon allein eine Herausforderung, weil früher hast du Code geschrieben und warst in deiner Welt. Jetzt musst du Code oder erzeugst du Code über ein Large Language Model jetzt als Beispiel und du musst aber jemandem sagen, wie du das gerne hättest. Ist eine ganz andere Perspektive. Oder du willst eine Mail oder irgendwie einen Brief schreiben. Früher hast du halt irgendwie, so bin ich jetzt vorgegangen, irgendwie geguckt, dass du eine Mail selber antwortest und hast vielleicht noch mal drüber nachgedacht. Oder wenn es jetzt ein Brief war, hast du vielleicht geguckt, gibt es eine Vorlage im Internet und hast sie für dich gecustomized. Und jetzt ist aber auch deine Aufgabe, Ja, ich will eine Antwort, aber zu sagen, ich will eine Antwort, ist vielleicht zu wenig. Ich will eine Antwort und die soll in die Richtung gehen, ja, nein oder. Also ich muss mehr da reingeben und, und das ist, glaube ich, das aller, allerwichtigste, ich muss die Antwort lesen. Ich muss vielleicht noch mal Feedback geben, wenn mir was nicht passt. Und ich glaube, das Schlimmste ist, ich nehme einfach das erste, was ich kriegen kann, so wie es ist, ohne es groß zu begutachten und nehme das dann als gegeben. ich glaub, das ist der komplett falsche Ansatz und das, das können diese Tools aktuell nicht leisten.

Tobias Wittenburg34:32

Ja, genau, dann vielleicht noch mal ein bisschen über die Schattenseiten, was, was passiert denn da? Also, was könnte passieren? Man hat womöglich Halluzinationen, das heißt, erfindet einfach Fakten, die es so nicht gibt. Ja, und ist mit einer hohen Konfidenz daran, die zu präsentieren. Also von daher Vertrauen ist gut, Kontrolle ist besser. Wobei auch das Problem immer, immer weniger wird. Also ich habe jetzt auch vom bei Code-Kinetierungen so, so ganz, ganz wenig Halluzinationen in den letzten Monaten gesehen. Das ist extrem gut geworden.

Tobias Allweier35:07

Oder vielleicht noch ergänzend für Menschen, die nicht so da drin sind mit diesen, wie auch immer man das nennt, wenn ihr ihm sagt, das stimmt nicht Und er bleibt dabei einfach nur, lasst euch gesagt sein, es lernt nicht. Ja, es ist kein Mensch, dem ich jetzt sage: Nein, tu das nicht. Und vielleicht muss ich es dreimal sagen, damit er es dann endlich begriffen hat. Das ist aktuell nicht so. Also er wird immer gleich sein in Anführungszeichen. Also nicht gleich, weil es ist nicht deterministisch, aber der Wissensstand wird sehr wahrscheinlich für dieselbe Eingabe nicht besser werden. Und oftmals trifft man auch jetzt Menschen, die sind nicht so erfahren und die sagen dann: "Ich habe ihm aber gesagt, das stimmt nicht." Ja. Und dann hat er mir gesagt: "Ja, stimmt." Und kam mit was anderem, was nicht gestimmt hat. Also es lernt nicht. Es ist nicht etwas, was jetzt irgendwie ein Bewusstsein hat und dann so eine Feedback-Loop und sagt: "Ja, morgen mache ich es anders oder gleich sofort." Das ist sehr wahrscheinlich nicht so.

Tobias Wittenburg36:09

Oder es stimmt einfach zu, ohne es selber gecheckt zu haben. Also wenn man, wenn man etwas behauptet, die Welt ist flach oder sowas, ja, dann sagt es ja super, glaube ich auch, ja, einfach um dir zuzustimmen, also auch das gibt es.

Tobias Allweier36:22

Also zurück zum Praktikanten, es ist quasi ein sehr lernresistenter Praktikant, ja, also den würde man nicht so lange behalten, weil er quasi nichts annimmt.

Tobias Wittenburg36:34

Ja, denn das zweite Schattenseite ist Bias, also es geht um Vorurteile aus Trainingsdaten. typischerweise sind das so, so Prompts, wenn man, wenn man sagt, erzeug mir mal ein Bild von einer Person, die jemanden pflegt. Ja, dann ist ja die Frage, kommt da ein Mann oder eine Frau raus? Ja, wahrscheinlich wird eine Frau rauskommen, einfach weil es viel, viel mehr Trainingsdaten daraus gibt oder auch viele, viel mehr Trainingsdaten von von Bildern, wo eine Frau einen einen Menschen pflegt. Ja, oder das Beispiel, wenn man sich eine Uhr generiert, dass da auch immer die gleiche Uhrzeit draufsteht, einfach weil die Trainingsdaten so aussahen. Und das letzte ist Abhängigkeit. Also verliere ich sozusagen Fähigkeiten, kritisch selber zu denken, wenn die AI alles übernimmt. Das kann halt als Schattenseite auch noch auftreten.

Tobias Allweier37:26

Plus einfach meine Erfahrung, also jetzt benutze ich viele AI-Models für Code-Generierung oder für Entwicklung, Softwareentwicklung. Aber wenn du mal im Flugzeug sitzt und du hast einfach kein gescheites WLAN und du hast das Ding nicht mehr, dann fühlst du dich auf einmal selbst als jemand, der das schon sehr lange macht und auch ohne AI gemacht hat, wie so ein kleines Kind. Oh, okay, und was mache ich jetzt? Wie war das denn noch mal? Also das ist diese Abhängigkeit. Oder was ich bei mir auch festgestellt habe, ist, wenn ich eine Suchmaschine inzwischen benutzen muss oder wie auch immer ich da hinkomme, dass ich die jetzt benutzen will, fühlt sich das inzwischen komisch an. Und das ist ja auch so ein Indikator dafür, dass man irgendwie so einen Shift gemacht hat. Weil ich halt vieles inzwischen einfach in so ein LLM reingebe, um einfach schnell Feedback zu bekommen und nicht mehr durch Suchtreffer gehen will und dieses Finden von Dingen machen will.

Tobias Wittenburg38:23

Ja. Aber was du gerade sagst, ist natürlich extrem spannend. Einmal das WLAN ausmachen und gucken, ob man noch zurechtkommt. ohne ohne Suchmaschinen und ohne LLM. Ja, die Programmier-Challenge 2028, wie gut bist du noch?

Tobias Allweier38:40

Ja, es gibt bald so Hackathons, offline Coding, genau, ohne GPUs für Local Models jetzt. Geil.

Tobias Wittenburg38:51

Ja, wohin geht die Reise, Tobi?

Tobias Allweier38:55

Ah, sehr gute Frage. Wir wollen eine Folge, wir haben vorher gesprochen, eine Folge machen über Softwareentwicklung. Und selbst da habe ich mich viel in meinem Leben damit beschäftigt und glaube, ich habe viel Erfahrung und viel Wissen darüber. Aber ich kann dir nicht mal dort sagen, wohin die Reise geht, also wo wir in ein paar Monaten oder Jahren sind. Deswegen ist das, glaube ich, aktuell sehr spannend. Das einzigste an Erkenntnis, was ich glaube, habe, ist, es geht wahrscheinlich langsamer, als wir zwei uns das vorstellen, weil wir halt einfach mittendrin sind und wir von unser Naturell ist gib mir was Neues, yeah. Aber ich glaube, viele Menschen sind da menschlicher und sagen halt mein Fokus oder mein Tagesfokus ist jetzt nicht neue Technologie, neue Dinge, sondern ich bin auch so zufrieden mit den technischen Tools, die ich habe. Und ich glaube, das ist diese Adaption, die vielleicht doch langsamer geht, als als wir zwei uns das vielleicht vorstellen können, oder?

Tobias Wittenburg39:55

Ja. Ja, auf der anderen Seite kommen natürlich immer mehr Produkte raus, immer mehr Assistenten, mehr unsichtbarer AI, wo Bilder aufgehübscht werden, also sowas wie Filter auf Social Media, Texte besser werden, Assistenzsysteme, selbstfahrende Autos. Also in San Francisco gibt es ja diese Weymos. Ja, sowas wird alles kommen. Und das einfach Aufgaben eigenständig erledigt werden. Und ich denke, das wird auch in die Handys kommen, also dass man dass man nicht mehr was antriggern muss, sondern dass für einen mitgedacht wird.

Tobias Allweier40:31

Ja, so dass du quasi eine Mail bekommst, da steht irgendwie drin, dein Flug ist und wobei das ging davor schon. Also gute Frage. Was ich beobachte ist, ich lerne gerade Spanisch und benutze Dolingo und ich habe davor mit Dolingo auch gerne immer Englisch gelernt. Aber wenn ich jetzt in LinkedIn gehe oder in Instagram, kommt immer wieder Werbung, dass Dolingo schlecht ist und man doch kein Geld generierte Tools verwenden sollen. Das ist glaube ich auch nicht eins, sondern ganz viele davon. Und sie sagen halt, dass das viel besser funktioniert. Ich hab's nicht probiert. Aber es ist jetzt etwas, was mir so aufgefallen ist. Dass man oder der Use Case mit einem Large Language Model Sprachen oder Übersetzungen zu machen, ist natürlich sehr einfach. Und jetzt sprießen so ganz viele Tools raus aus dem Boden, die das irgendwie für sich am besten . oder die glauben, dass sie das am besten können. Genau.

Tobias Wittenburg41:26

Wobei bei Duolingo ja auch mittlerweile AI drin ist. Da gibt's ja auch so diese gefakten Telefonate, die man so mit so einer AI-Assistentin machen kann.

Tobias Allweier41:34

Da muss man bezahlen, ich hab da nicht bezahlt.

Tobias Wittenburg41:36

Okay, ja, das ist ein Premium-Modell.

Tobias Allweier41:38

Drin, das ist richtig. Genau. Aber ich glaube, das wird nicht mehr weggehen. Und ich glaube auch, dass halt, gerade wenn es um Text geht, also die Frage ist ja noch so, wir haben vorher diskutiert, was ist noch Text wert, also provokativ, verändert sich der Wert von Text und auch Source Code oder zurück, ich habe das Beispiel gemacht mit dem Brockhaus, weiß nicht, für die Leute, die jünger sind, früher gab es kein Internet und man musste irgendwie Sachen nachschlagen können und es gab so sogenannte Lexikons, also sowas wie Wikipedia, nur halt irgendwie ausgedruckt. Und dann gab es einen Hersteller, der hieß Brockhaus und ich weiß nicht, wie viele Bände es waren, ich glaube 30 und wirklich dicke Bücher. Und das war auch teuer, das zu kaufen und wenn du das aber hattest, warst du vor der Internetzeit, ich will jetzt nicht sagen King, aber du warst in der Lage, Dinge sehr schnell nachzuschlagen. Also jemand hat mit dir geredet und hat irgendwie Sachen gesagt, die du nicht verstanden hast. Konntest du zumindest da mal reinschauen und hast irgendwie einen Eindruck bekommen, wovon er vielleicht redet. Das war jetzt auch nicht so eine tiefe Beschreibung. Und ich kenne niemanden mehr, der das hat. So, also der Wert, das, was die damals für teures Geld verkaufen konnten, können sie jetzt nicht mehr verkaufen, weil viele Informationen frei verfügbar sind. So, was heißt das aber jetzt, wenn man Text oder Source Code sehr schnell erzeugen kann? Wie verändert das den Wert von Text und Source Code? Und was haben wir ja vorher schon ein bisschen besprochen. Was ist denn noch etwas, was Leute konsumieren oder kaufen? Was ist der Trigger, ein Buch zu kaufen, wenn die Wahrscheinlichkeit groß ist, dass da irgendwie mit AI auch gearbeitet wurde in der Erstellung? Also wann kaufe ich es noch oder wann abonniere ich eine Zeitung? wenn die Wahrscheinlichkeit auch da groß ist, dass vielleicht Tools eingesetzt werden, um Redakteuren oder oder Autoren das ein Leben einfacher zu machen. Aber das ist, glaube ich, kann noch, kann keiner beantworten aktuell.

Tobias Wittenburg43:36

Ja, ich könnte mir vorstellen, dass es so ein bisschen so wird wie wie bei Etsy, wo es darum geht, handgemachte Sachen zu haben. Also genauso handgemachte Podcasts, handgemachte Videos, ja, ohne AI, dass wir eher in so eine Schiene reinkommen, dass die Qualität ist, dass ein Mensch es gemacht hat.

Tobias Allweier43:52

Also wir nennen unseren Podcast jetzt Tubi hoch zwei: Handmade. Handmade.

Tobias Wittenburg43:58

Jetzt mit 200% mehr Menschen. Das ist ein Futurama, ehrlich gesagt. No with 200% more humans.

Tobias Allweier44:06

Ja, aber dein Beispiel ist sehr gut, wenn ich drüber nachdenke, weil am Ende hat man ja jetzt auch gerade bei Ernährung oder bei vielen Dingen, die wir hoch optimiert haben, weil wir es einfach konnten, festgestellt, dass es vielleicht doch nicht so gut war. Und dann ist natürlich, wenn ich jetzt Demeter-Sachen kaufe, ist ja die Idee das Ursprungssaatgut. Also es wurde nicht irgendwie verändert und alle Pros und Cons dann damit kaufe ich damit quasi. Und vielleicht gibt es das echt bald auch hier irgendwie im Sinne von Büchern oder Wissen oder Source Code. Hey, das ist jetzt nichts, was du von der Stange kaufen kannst, was irgendwie in der Nacht erzeugt wurde, sondern es hat wirklich jemand darüber nachgedacht. Und Vielleicht gibt es das auch bald mal. Ja, ein spannender Gedanke.

Tobias Wittenburg44:56

Ja, und ich finde, die Analogie zu Nahrungsmitteln ist auch hervorragend, ehrlich gesagt, weil es gibt ja jetzt, wenn man Social Media sich anguckt, immer diese diese Thematik rund um hochverarbeitete Lebensmittel. Also im Prinzip ist ja die ganze Nahrungsmittelindustrie seit den 50er Jahren oder so darauf hinaus immer mehr Output zu erzeugen und einfach immer mehr hochverarbeitete Lebensmittel in den Markt zu bringen. Ja, also es werden keine Kartoffeln mehr verkauft, sondern vorfrittierte Pommes als Beispiel. Ja, das ist ja damit gemeint mit hochverarbeitet und das ist jetzt ja genau einfach momentan wieder den Trend zurückgeht, sich natürlicher zu ernähren und einfach vielleicht die Kartoffeln zu kaufen und frisches Gemüse zu kaufen, anstatt die die fertige Packung, die mit Butter geschmacklich aufgewertet wird.

Tobias Allweier45:48

Ja, ja, Genau, und die andere Diskussion ist natürlich, ich meine jetzt zum Beispiel ChatGPT ist umsonst. Also du kannst sehr viel machen, ohne dafür zu bezahlen. Aber die Wahrheit ist, es kostet Geld am Ende. Es kostet Strom, Energie, Hardware muss gekauft werden. Und die große Frage ist für mich immer noch: Ist das irgendwann so minimal, dass das keine Rolle mehr spielt für diese Anbieter? Weil einfach das so billig wird, Tokens. Oder kommt dieser Trend hin zum Sinne von, da stecken doch Kosten drin. Also ich kann jetzt nicht das Buch erzeugen im Sinne von, es kostet mich nichts, die Erzeugung, weil ich einfach LLMs benutze, sondern ich kann das Buch erzeugen, aber die Erzeugung kostet mich 40 Euro, weil ich diese Tokens bezahlen muss, die ich dafür gebraucht habe. Oder ich baue die Software und die Tokens dafür kosten mich Summe X. Und das ist vielleicht auch noch mal eine eine Frage, wie sich das entwickelt in der Zukunft. Wird das wirklich immer billiger? Also ich meine, jedem ist klar, dass Energie der größte Knackpunkt ist in dem Spiel. Es ist energiehungrig. Die Frage ist, werden die Sachen besser und nicht mehr so hungrig auf Energie oder, weiß ich nicht, finden wir gute Möglichkeiten, Energie zu erzeugen und uns ist es egal, aber ist spannend, ist sehr, sehr spannend.

Tobias Wittenburg47:11

Ja, und wir werden natürlich noch deutlich mehr Assistenzsysteme sehen im Alltag. Es wird sich alles noch verbessern. Ich glaube, das Ende der Fahnenstange für Assistenzsysteme ist noch lange nicht erreicht. Da wird es in den nächsten 20, 30 Jahren wahrscheinlich deutlich weitergehen. Also von so was wie selbstfahrenden Autos, weil jetzt auch der Code für so was schnell erzeugt werden kann. Oder so was wie, ich schätze die Kalorien eines Gerichtes anhand des Bildes. Und solche Sachen, das wird entsprechend noch immer besser werden.

Tobias Allweier47:43

Genau und auch diese, dass so viele Menschen jetzt an diesen Models einfach forschen und an diesen Gedanken, was man erreichen will, also textgenerativ zu erzeugen und dass jetzt vielleicht dadurch einfach viele Optimierungen stattfinden. Also zum einen, dass sie besser werden und zum anderen auch, dass sie effizienter werden, wenn sie ausgeführt werden und wir vielleicht bald spezialisierte, also du hast es vorhin angesprochen, dass man viel mehr spezialisierte Models hat für bestimmte Domänen. Also ich will jetzt chatten über Sport und ich habe irgendwie einfach ein Sportmodel, das lokal auf meinem Computer läuft. Und mit dem kann ich dann philosophieren, wie ich mein Sportprogramm oder meinen Fitnessplan irgendwie optimieren kann. Aber wenn ich jetzt frage, keine Ahnung, wie tue ich meine Pflanzen gießen am besten, dann würdest du mir sagen: Du, sorry, das ist nicht mein Spezialgebiet. Aber wissen tut das gut. Hoffentlich noch. hoffentlich, oder ja, 10 Liegestützen für die Pflanzen jeden Morgen.

Tobias Wittenburg48:44

Fang deinen Schweiß auf, bring bring das Handtuch raus über der Pflanze.

Tobias Allweier48:50

Genau, ne, also ja, spannende Zeiten.

Tobias Wittenburg48:53

Ja, das war es von uns heute bei Tobi hoch 2. Es hat Spaß gemacht, das Thema mit euch zu teilen. Wenn ihr weitere Gedanken oder Fragen habt, schreibt uns doch eine E-Mail. Gerne auch, wenn ihr Themenwünsche habt. Bis zum nächsten Mal bei Tobi hoch 2, wenn es wieder heißt, Doppel Tobi Doppeltech.

Tobias Allweier49:07

Ciao.

🎧 Jetzt anhören

Schnapp dir deine Lieblings-Podcast-App 🎧 und abonniere uns! Wenn Du uns noch eine Bewertung gibst macht das uns glücklich ❤️ (und den Algorithmus auch 😉).

Apple Podcasts Spotify
Pocket Casts

Schnapp dir deine Lieblings-Podcast-App 🎧 und abonniere uns! Wenn Du uns noch eine Bewertung gibst macht das uns glücklich ❤️ (und den Algorithmus auch 😉).

Apple Podcasts Spotify
Pocket Casts