Grundlagen von Training, Inferenz, Token Prediction, probabilistischer Ausgabe und Systemarchitektur rund um Sprachmodelle.
Fortschritt
1%
Lernziel
Du kannst erklären, wie LLMs Antworten erzeugen, welche Grenzen Modellwissen hat und wie produktive Systeme externe Daten, Validierung und menschliche Kontrolle ergänzen.
Dauer
75 Minuten
Schwierigkeit
foundation
introductionKapitel 1
Warum dieser Skill wichtig ist
Warum dieser Skill wichtig ist: LLMs bestimmen, wie zuverlässig ein System Sprache verstehen, strukturieren und erzeugen kann. Der Skill schützt dich davor, Modellwissen mit verifizierten Daten zu verwechseln und Inferenz wie deterministischen Code zu behandeln. In AI Architect OS ist dieser Skill kein isoliertes Theorieelement, sondern ein Entscheidungswerkzeug für produktionsfähige AI-Systeme. Er beeinflusst, welche Daten an ein Modell gegeben werden, welche Verantwortung beim Code bleibt, wie Fehler sichtbar werden und welche Nutzererwartung realistisch ist. Wer Funktionsweise von LLMs nur oberflächlich versteht, baut oft Funktionen, die in einer Demo überzeugend wirken, aber bei echten Daten, wechselnden Nutzern, Kostenlimits, Datenschutzanforderungen und Fehlersituationen instabil werden. In dieser Unit lernst du deshalb nicht nur Definitionen, sondern die Architekturfolgen: Was muss vor dem Modell passieren? Welche Entscheidung darf das Modell treffen? Welche Antwort muss validiert werden? Wann braucht es Fallback, Logging oder Human Review? Ziel ist, dass du nach der Lektion eine konkrete AI-Funktion erklären, begrenzen und prüfbar machen kannst.
conceptKapitel 2
Kernkonzept
Kernkonzept: Training erzeugt ein Modell aus großen Datenmengen; Inferenz nutzt dieses Modell, um anhand des aktuellen Kontextes Token für Token eine wahrscheinliche Antwort zu erzeugen. Das Konzept wird praktisch, sobald du es als Vertrag zwischen Nutzerziel, Anwendungscode, Datenquelle und Modell betrachtest. Ein produktives AI-System darf nicht hoffen, dass das Modell schon richtig reagiert. Es muss explizit festlegen, welche Inputs erlaubt sind, welche Informationen zuverlässig sind, welche Unsicherheiten sichtbar bleiben und welches Ergebnis akzeptiert wird. Für Funktionsweise von LLMs bedeutet das: Du übersetzt eine offene AI-Fähigkeit in nachvollziehbare Regeln, Datenflüsse und Prüfpunkte. Dadurch kann ein Team dieselbe Funktion testen, debuggen, verbessern und sicher betreiben.
conceptKapitel 3
Technische Funktionsweise
Technische Funktionsweise: Token Prediction ist kontextabhängig und probabilistisch. Modellwissen ist nicht automatisch aktuell, vollständig oder belegt. Externe Daten, Retrieval und Tools müssen deshalb bewusst in die Architektur eingebaut werden. Achte besonders auf die Grenze zwischen deterministischem Code und probabilistischem Modellverhalten. Code sollte Formate prüfen, Berechtigungen erzwingen, Zeitlimits setzen, Daten minimieren und persistente Entscheidungen dokumentieren. Das Modell kann Sprache interpretieren, strukturieren, klassifizieren oder Vorschläge erzeugen, aber es sollte nicht unkontrolliert über Datenzugriff, Geld, Rechte, Sicherheit oder finale Wahrheit entscheiden. Eine gute technische Umsetzung macht diese Grenze im Request, in der Response-Verarbeitung und im Logging sichtbar.
mental_modelKapitel 4
Mentales Modell
Mentales Modell: Stell dir Funktionsweise von LLMs als Kontrollschicht vor, nicht als Dekoration. Das Modell ist ein leistungsfähiger Mitarbeiter mit begrenztem Arbeitsgedächtnis, hoher Sprachkompetenz und fehlender eingebauter Betriebsverantwortung. Deine Architektur ist der Arbeitsplatz: Eingaben werden vorbereitet, Werkzeuge sind begrenzt, Ergebnisse werden geprüft, Fehler werden gemeldet und riskante Entscheidungen werden eskaliert. Dieses mentale Modell hilft, nicht in zwei Extreme zu fallen: blindes Vertrauen in Modellantworten oder übertriebene Angst vor jeder AI-Nutzung. Reife AI-Systeme nutzen Modelle dort, wo sie stark sind, und bauen Schutzschichten dort, wo sie strukturell schwach sind.
exampleKapitel 5
Praxisbeispiel 1
Praxisbeispiel 1: Claude API Mentor bewertet Mission-Submissions und muss zwischen frei formuliertem Feedback und belastbarer Bewertung trennen. Ausgangssituation: Ein Team möchte eine reale Aufgabe beschleunigen, ohne Fachqualität oder Datenschutz zu verlieren. Problem: Die Rohdaten sind unvollständig, unterschiedlich formuliert und teilweise sicherheitsrelevant. Architekturentscheidung: Die Anwendung bereitet den Input vor, markiert unsichere Daten, ruft das Modell mit klarer Aufgabe auf und validiert das Ergebnis vor Anzeige oder Speicherung. Datenfluss: Nutzerinput und Systemdaten werden normalisiert, an das Modell gegeben, strukturiert zurückgegeben, serverseitig geprüft und erst dann als Nutzerergebnis dargestellt. Risiken sind falsche Annahmen, zu viel Kontext, fehlende Quellen und stille Fehler. Validierung erfolgt über Schema, Plausibilitätsregeln und Review bei niedriger Sicherheit. Erwartetes Ergebnis ist ein verwertbarer Vorschlag, keine unkontrollierte Entscheidung.
exampleKapitel 6
Praxisbeispiel 2
Praxisbeispiel 2: Ein AI-Supportsystem fasst Tickets zusammen, darf aber Vertragsstatus und Erstattungen nur aus Systemdaten und Regeln ableiten. Ausgangssituation: Ein bestehender Workflow soll durch AI unterstützt werden. Problem: Der Prozess enthält einfache Teilschritte, aber auch riskante Ausnahmen. Architekturentscheidung: AI übernimmt Strukturierung, Entwurf oder Klassifikation; Business Logic entscheidet, was gespeichert, ausgelöst oder eskaliert wird. Datenfluss: Eingaben werden gekürzt, priorisiert und mit Metadaten versehen. Das Modell erzeugt eine Antwort im erwarteten Format. Output Validation prüft Pflichtfelder, Wertebereiche und Risikoindikatoren. Logging speichert technische Metadaten, aber keine unnötigen Secrets oder sensiblen Rohtexte. Erwartetes Ergebnis ist ein nachvollziehbarer Arbeitsschritt, der bei Unsicherheit sicher anhält.
architecture_exampleKapitel 7
Produktionsnahe Architektur
Architekturbeispiel für Funktionsweise von LLMs: Input: Mission, Submission, Skill-Kontext und Bewertungsziel. → Validierung: Prüfe Berechtigung, Mindestdaten, Datentypen, Länge, sensible Inhalte und fachliche Vorbedingungen. → Business Logic: Entscheide, welche Daten wirklich gebraucht werden, welche Regeln vor dem Modell gelten und wann Human Review nötig ist. → Model/API: Rufe das Modell mit klarer Aufgabe, begrenztem Kontext, Timeout und nachvollziehbarer Request-ID auf. → Output Validation: Prüfe Struktur, Pflichtfelder, erlaubte Werte, Confidence, Quellenbezug und fachliche Plausibilität. → Logging: Speichere Status, Latenz, Kosten, Modell, Fehlerklasse und Korrelations-ID, aber keine unnötigen Secrets. → Fallback: Nutze Regelpfad, kleinere Funktion, Warteschlange oder menschliche Prüfung. → Nutzerergebnis: Zeige eine klare, ehrliche Antwort mit Grenzen, nächstem Schritt und ohne interne Providerdetails.
common_mistakesKapitel 8
Typische Fehler
Typische Fehler: 1. Modellantworten werden wie Fakten behandelt, obwohl sie probabilistische Vorschläge sind. Das wirkt harmlos, führt aber in Produktion zu schwer erklärbaren Ergebnissen. 2. Fehlende Validierung: Die Anwendung übernimmt Modellantworten, obwohl Pflichtfelder, Quellen oder Werte fehlen. 3. Zu viel Vertrauen in Demo-Daten: Tests decken keine Randfälle, leere Inputs oder widersprüchliche Informationen ab. 4. Vermischung von Systemregeln und Nutzerdaten: Dadurch entstehen Sicherheitsrisiken und Prompt-Injection-Flächen. 5. Keine Kosten- und Latenzbetrachtung: Die Funktion ist fachlich gut, aber im Alltag zu langsam oder zu teuer. 6. Keine Fallback-Strategie: Bei Fehlern bleibt der Nutzer ohne verwertbaren nächsten Schritt. 7. Zu wenig Logging: Später lässt sich nicht erklären, warum eine Antwort entstanden ist. 8. Keine klare Verantwortung: Das Modell trifft Entscheidungen, die eigentlich Business Logic oder Menschen treffen müssten.
checklistKapitel 9
Checkliste
Checkliste zur Selbstprüfung: 1. Ist das Nutzerziel eindeutig beschrieben? 2. Sind Datenquellen und Vertrauensniveau markiert? 3. Ist klar, welche Aufgabe das Modell übernimmt und welche nicht? 4. Gibt es ein erwartetes Ausgabeformat mit Pflichtfeldern? 5. Werden Fehlerfälle, leere Ergebnisse und Unsicherheit behandelt? 6. Sind Datenschutz, Secrets und sensible Inhalte berücksichtigt? 7. Gibt es Metriken für Qualität, Kosten und Latenz? 8. Wird geloggt, ohne vertrauliche Inhalte unnötig zu speichern? 9. Existiert ein Fallback für Providerfehler oder fachliche Unsicherheit? 10. Kann ein anderer Entwickler die Entscheidung anhand der Dokumentation nachvollziehen? Wenn du zwei oder mehr Punkte nicht beantworten kannst, ist die Architektur noch nicht reif für produktive Nutzung.
exerciseKapitel 10
Praxisübung
Übung: Situation: Du baust einen Mentor-Review-Flow für AI Architect OS. Ziel: Entwirf eine produktionsnahe Lösung, die Funktionsweise von LLMs sichtbar berücksichtigt. Aufgabe: Beschreibe Input, Validierung, Business Logic, Modellaufruf, Output Validation, Logging, Fallback und Nutzerergebnis. Einschränkungen: Keine Secrets im Prompt, keine ungeprüfte Speicherung von Modellantworten, klare Behandlung von Unsicherheit und maximal drei automatische Versuche bei technischen Fehlern. Erwartetes Ergebnis: Eine einseitige Architektur-Skizze mit Datenfluss, Risikoannahmen und Prüfkriterien. Erfolgskriterien: Die Lösung ist testbar, erklärt nicht retrybare Fälle, schützt sensible Daten, nennt mindestens zwei Metriken und definiert einen sicheren Abbruchpfad. Häufige Fehler: zu vage Inputs, fehlende Validierung, keine Eskalation und zu optimistische Annahmen. Optionale Vertiefung: Ergänze Beispiel-Testfälle für Erfolg, leere Daten, Providerfehler und fachliche Unsicherheit.
reflectionKapitel 11
Reflexion
Reflexion: 1. An welcher Stelle deiner aktuellen AI-Funktion verlässt du dich auf implizites Modellverhalten, obwohl eine explizite Regel besser wäre? 2. Welche Information müsste ein anderer Entwickler sehen, um deine Entscheidung zu prüfen oder zu debuggen? 3. Was ist der teuerste realistische Fehler, der durch falsche Anwendung von Funktionsweise von LLMs entstehen könnte? 4. Welche Nutzerbotschaft wäre ehrlich, wenn das System unsicher ist oder keine ausreichenden Daten hat? 5. Welche Metrik würdest du nach dem Launch beobachten, um Qualität und Risiko dieses Skills zu bewerten? Beantworte die Fragen schriftlich, weil die Lücke zwischen gefühltem Verständnis und architekturfähigem Verständnis oft erst beim Formulieren sichtbar wird.
summaryKapitel 12
Zusammenfassung
Zusammenfassung: 1. LLMs sind starke Sprach- und Strukturierungskomponenten, aber keine vollständige Systemarchitektur. 2. Der Skill muss im Datenfluss sichtbar werden, nicht nur im Prompttext. 3. Produktive AI-Systeme trennen Input-Vorbereitung, Modellaufgabe, Validierung und Nutzerkommunikation. 4. Gute Architektur benennt Grenzen, Unsicherheit und Verantwortlichkeiten. 5. Beispiele, Tests und Logs sind nötig, damit Qualität nicht nur subjektiv bewertet wird. 6. Sicherheit bedeutet konkrete Maßnahmen wie Datenminimierung, Secret-Schutz, Berechtigungen und klare Fallbacks. 7. Nutzerfreundliche Ergebnisse entstehen durch ehrliche Kommunikation und sichere nächste Schritte. 8. Nach dieser Unit solltest du erklären können, warum Funktionsweise von LLMs wichtig ist, wie es technisch wirkt, welche Fehler typisch sind und wie du eine produktionsnahe Umsetzung prüfst.