Blog 8. Juni 2026

Langfuse im Überblick: LLM Observability, Tracing und Evals für Agentic Coding

Agentic Coding verschiebt Softwarearbeit von einzelnen Commits hin zu kettenartigen LLM-Läufen. Claude Code, Cursor und vergleichbare Umgebungen rufen Modelle mehrfach auf, lesen Repositories, führen Shell-Befehle aus und erzeugen Pull Requests. Ohne strukturierte Telemetrie verlierst Du die Ursache, wenn ein Agent einen Refactor falsch plant, zu viele Tokens verbrennt oder sensible Daten in einen Prompt schreibt.

Langfuse ist eine Open-Source-Plattform für LLM Engineering, die Tracing, Prompt Management und Evals in einem Workflow bündelt. Für Teams, die KI-gestütztes Coding im Unternehmen skalieren, ist das weniger ein optionales Dashboard als die gemeinsame Wahrheitsschicht zwischen Entwicklung, Review und Betrieb. Offizielle Details findest Du auf langfuse.com.

Agentic Coding mit Guardrails

Du willst LLM-Workflows nicht nur bauen, sondern messbar betreiben? Wir helfen bei Architektur, Evals und Integration in Deine CI. KI & Automation anfragen.

Datenmodell: Traces, Spans und Generations

Langfuse organisiert Anwendungsdaten in drei Ebenen: Observations (einzelne Schritte), Traces (Container für einen Lauf) und Sessions (mehrere zusammenhängende Traces, z. B. ein längeres Pair-Programming). Ein Trace repräsentiert typischerweise eine Anfrage oder einen Agenten-Job; darin hängen Observations wie Generations (LLM-Aufrufe mit Prompt, Completion, Token-Zahlen und Modellparametern), Tool Calls, Retrieval- oder Embedding-Schritte.

Attribute wie user_id, session_id, Tags und Metadaten werden an alle Kind-Observations vererbt. So filterst Du in der UI nach Kosten, Latenz, Modellversion oder fehlgeschlagenen Tool-Events, ohne Logs manuell zu korrelieren. Das ist der Unterschied zwischen Demo und Produktion: Du siehst, ob ein Agent an Tool-Calling, Kontextfenster oder einem schlechten Prompt scheitert.

Spare täglich Stunden durch KI-Automationen, die Deine Zeitfresser eliminieren

KI & Automation

OpenTelemetry, asynchrones Batching und CI

Langfuse basiert auf OpenTelemetry. Du instrumentierst mit Python- oder TypeScript-SDKs, nutzt Decorators wie @observe() oder Provider-Integrationen (OpenAI, Anthropic, LangChain, LiteLLM). Wichtig: Du bist nicht auf ein proprietäres Format festgelegt. Spans können parallel an Langfuse und an ein klassisches APM-Backend gehen, wenn Du Infrastruktur und LLM-Semantik trennen willst.

Traces werden asynchron gebatcht, damit Deine Anwendung nicht blockiert. Bei lang laufenden Servern reicht der Hintergrund-Exporter. Bei kurzlebigen Jobs (CI-Skripte, einmalige Agent-Runs in Claude Code) musst Du vor Prozessende explizit flush() aufrufen, sonst gehen Events in der Queue verloren. Für Agentic Coding in Pipelines ist das ein häufiger Stolperstein und sollte im Runbook stehen.

Prompt Versioning statt Copy-Paste im Repo

In Cursor und Claude Code verteilen sich Prompts schnell: System-Anweisungen in Rules, Task-Prompts in Skills, Ad-hoc-Korrekturen im Chat. Langfuse zentralisiert Prompts als versionierte Assets mit Deployment, Rollback und Zusammenarbeit im Team. Starke Client- und Server-Caching-Strategien sollen Latenz beim Abruf niedrig halten.

Praktisch behandelst Du einen Prompt-Update wie eine API-Änderung: Version N+1 deployen, Traces zeigen, welche Version ein fehlerhafter Lauf genutzt hat, bei Bedarf rollbacken. Das unterstützt die Autonomiestufen, die wir für Unternehmen empfehlen: je höher die Agent-Autonomie, desto härter die Pflicht, Prompts und Evals vor Merge nachzuweisen.

Evals, Datasets und Regression bei Modellwechseln

Observability zeigt, was schiefging; Evals messen Qualität systematisch. Langfuse unterstützt LLM-as-a-Judge, heuristische Scorer und Human-in-the-Loop-Annotation (Scores direkt an Traces). Datasets speichern Testfälle: Du spielst einen Flow gegen feste Inputs und vergleichst Scores über Modell- oder Prompt-Wechsel.

Für Agentic Coding bedeutet das: ein fehlgeschlagener Refactor durch Claude Code lässt sich auf den konkreten Span zurückführen; ein neuer System-Prompt läuft vor dem Rollout gegen ein Dataset in CI. Langfuse bietet zudem einen Agent Skill für Coding-Agents, mit dem Du per natürlicher Sprache Tracing oder Eval-Setups anstoßen kannst (Dokumentation auf langfuse.com/docs).

Individuelle Datenaufbereitung & Scraping as a Service

Projekt anfragen

Einordnung für Cursor, Claude Code und interne Agenten

IDE-Agents selbst loggen nicht automatisch in Langfuse. Du instrumentierst den Orchestrator: eigene Services, Wrapper um Provider-Aufrufe oder CI-Jobs, die Agents aufrufen. Jeder Lauf wird ein Trace; menschliche Reviews können Scores hinterlegen. So behandelst Du KI-Endpunkte wie jede andere Schnittstelle in der Softwareentwicklung mit Qualitätsgates.

Traces ergänzen, ersetzen aber nicht persistente Kontext-Schichten. Unser Überblick zu Mem0 und persistenter AI Memory beantwortet „was soll der Agent beim nächsten Mal wissen?“; Langfuse beantwortet „was ist in diesem Lauf passiert?“. Für Sicherheit liefert Observability Audit-Spuren, die Du mit gezieltem Testing koppeln solltest: AI Security Testing mit OWASP und Garak gehört in die Pipeline; Langfuse hilft, Prompt-Injection oder unerwartete Tool-Aufrufe nachzuvollziehen.

Alternativen: LangSmith, Helicone, OpenTelemetry

Kein Tool deckt alles ab. Kurz die Einordnung:

LangSmith (LangChain-Ökosystem): stark bei LangGraph/LangChain-Stacks, weniger neutral, wenn Du einen anderen Orchestrator nutzt.
Helicone / Portkey: Proxy-basiertes Gateway-Logging mit Fokus auf Kosten, Routing und Rate Limits; weniger Tiefe bei Prompt-Versionierung und Eval-Workflows.
OpenTelemetry + Custom Dashboards: maximal flexibel, aber hoher Bauaufwand für Prompt-Assets, Datasets und Human Feedback.
Reine APM (Datadog, Grafana): gut für Infrastruktur, erreicht selten die Semantik von Generation vs. Tool Call ohne eigenes Mapping.

Langfuse positioniert sich als LLM-natives Engineering-Tool mit Self-Hosting-Option, was für DSGVO-sensible Workloads relevant ist. Cloud und Open Source teilen sich dasselbe Datenmodell.

Wann Langfuse sinnvoll ist, wann nicht

Sinnvoll: mehrere Agents, wiederkehrende Prompts, Compliance-Anforderungen, Regressionstests bei Modell-Upgrades, Team-Review von Agent-Outputs.
Weniger sinnvoll: einzelner Entwickler mit sporadischem ChatGPT ohne produktive Agenten-Workflows.
Voraussetzung: klare Ownership, wer Prompts pflegt, wer Eval-Schwellen definiert und wer Traces in Incidents auswertet.

Fazit

Für Agentic Coding und LLM Observability ist Langfuse ein pragmatischer Standard: Traces, Prompts und Evals in einem System, auf OpenTelemetry aufgebaut, mit Self-Hosting-Option. Wer nur gelegentlich Code generiert, kommt ohne aus. Wer Agents in CI/CD und Review-Prozesse einbindet, sollte Telemetrie von Anfang an mitplanen, nicht nach dem ersten Produktionsvorfall. Startpunkt für SDKs, Datenmodell und Eval-Patterns: Langfuse Observability Docs.

Alle Artikel Projekt anfragen