KI in der Softwareentwicklung

KI-Code in Webservices mit Kundendaten: Wo er hilft – und warum „ohne Review“ 2025 fachlich riskant bleibt

Stand: Dezember 2025

(Hinweis: Der Text wurde bis auf diesen Absatz mit ChatGPT erstellt um die „Meinung“ des LLMs zu erfragen. Der Transparent wegen wird der Promt zitiert, damit ersichtlich werden soll, dass nicht polemisch gelenkt wurde.)

Generative KI (z. B. Code-Assistants und Coding-Agents) kann heute bemerkenswert schnell lauffähigen Code erzeugen. Gleichzeitig bleibt die zentrale Frage: Wie sinnvoll ist es, KI Code schreiben zu lassen und ihn ohne gründliche Prüfung in produktive Webservices zu übernehmen – insbesondere, wenn Kundendaten verarbeitet und in eigenen Datenbanken gespeichert werden?

Dieser Beitrag versucht eine nüchterne, faktenorientierte Einordnung und zeigt, welche technischen Leitplanken („Guardrails“) nötig sind, wenn KI im Entwicklungsprozess eine größere Rolle spielen soll.


Prompt (Anfrage), die diesem Beitrag zugrunde liegt

    • Bewerte (Stand heute) den Einsatz von generativer KI zum Schreiben von Software, ohne dass der Output vollständig manuell geprüft wird.
    • Kontext: Webservices, die Kundendaten verarbeiten und in eigenen Datenbanken speichern.
    • Beurteilung nach mehreren Kriterien: Wartbarkeit, Security, Dokumentation, Syntax, aktuelle Best Practices, dynamische Anforderungen.
    • Gib eine faktenbasierte Einschätzung ohne „Lagerdenken“.
    • Erkläre, warum KI-generierte Unit-Tests „false confidence“ erzeugen können, und welche Alternativen/Ergänzungen sinnvoll sind.
    • Belege zentrale Aussagen mit Quellen.

Kernaussage in einem Satz

Für Webservices mit Kundendaten ist „KI schreibt – niemand schaut mehr genau hin“ 2025 nicht verantwortbar – nicht wegen Ideologie, sondern weil bekannte Fehlermuster von GenAI (Plausibilität statt Korrektheit, schwache Randfallabdeckung, inkonsistente Sicherheitsentscheidungen) genau in die teuersten Risikozonen fallen.


Was KI heute gut kann (und warum sich der Einsatz trotzdem lohnt)

    • Boilerplate & Scaffolding: DTOs, Mapper, API-Gerüste, Standard-CRUD, wiederholende Muster.
    • Dokumentationsentwürfe: README, API-Docs, ADR-Entwürfe – mit dem Hinweis, dass Inhalte verifiziert werden müssen.
    • Refactoring-Ideen: Umstrukturierungsvorschläge, Vereinheitlichung von Patterns – am besten, wenn Tests bereits existieren.
    • Test-Ideen: Randfälle und Angriffsvektoren als Liste – aber nicht blind als „fertige Tests“ übernehmen.

Viele Organisationen berichten spürbare Produktivitätsgewinne, wenn KI als Assistenz (nicht als Autopilot) genutzt wird. Entscheidend ist, wie stark der Output abgesichert wird.


Wo es kritisch wird: bekannte Fehlermodi bei KI-Code

1) Plausibel ≠ korrekt

LLMs sind darauf optimiert, plausiblen Code zu erzeugen. Das führt in der Praxis dazu, dass Code „wie richtig“ aussieht, aber bei Randfällen, Datenvalidierung, Fehlerpfaden, Nebenläufigkeit oder komplexer Fachlogik falsches Verhalten zeigt. Für Kundendaten-Systeme sind das genau die Stellen, an denen Fehlverhalten teuer wird (Datenintegrität, Compliance, Incident-Kosten).

2) Security ist kein emergentes Nebenprodukt

Sichere Implementierung entsteht selten automatisch „nebenher“, sondern durch wiederholbare Praktiken: Threat Modeling, sichere Default-Konfigurationen, Validierung, AuthN/AuthZ-Design, Secrets-Handling, Dependency-Kontrolle und Pipeline-Gates. Genau diese Systematik fordert NIST im Secure Software Development Framework (SSDF) und erweitert sie in SP 800-218A explizit für KI-/GenAI-Kontexte.

Quellen:
NIST SP 800-218 (SSDF v1.1),
NIST SP 800-218A (SSDF-Profil für GenAI/Dual-Use Foundation Models)

3) „AI schreibt Unit-Tests“ kann falsche Sicherheit erzeugen

Ein häufiges Muster: KI generiert Tests, die die gleiche Annahme wie die Implementierung teilen (oder das gleiche Missverständnis). Die Tests prüfen dann im Wesentlichen, ob die Implementierung so läuft, wie sie implementiert wurde – nicht, ob sie den fachlichen Vertrag erfüllt. Das produziert grüne Pipelines bei kaputten Features (z. B. Suche/Filter/Sortierung, Paging, Berechtigungen).

„Green tests“ sind nicht gleichbedeutend mit „korrekt“ – insbesondere, wenn Tests implementierungsnah, stark gemockt oder randfallarm sind.


Neutraler „Boden“: Was Standards und Security-Guides dazu sagen

Mehrere etablierte Quellen gehen nicht davon aus, dass KI-Code per se vertrauenswürdig ist. Stattdessen wird empfohlen, KI-Ausgaben wie externen Input zu behandeln und konsequent zu verifizieren.


Wenn nicht „alles lesen“: Technische Guardrails, die Review ersetzen können (bis zu einem Punkt)

Manuelles Review ist wichtig – aber in der Praxis lässt sich viel Risiko durch harte, automatisierte Gates reduzieren. Für Webservices mit Kundendaten gelten als Mindest-Set häufig:

1) Teststrategie, die „false confidence“ vermeidet

    • Contract-/API-Tests gegen den laufenden Service (Auth, Paging, Filter, Fehlercodes, Rollenlogik).
    • Property-based Tests für Suche/Filter/Sortierung (Invarianten statt Einzelbeispiele).
    • Mutation Testing, um zu messen, ob Tests echte Fehler finden (nicht nur „Happy Paths“ abnicken).
    • Integrations-Tests gegen echte DB (Transaktionen, Indizes, Query-Plan-Randfälle, Encoding, Collation).

2) Security-Gates in CI/CD

    • SAST (statische Analyse) als Merge-Blocker für kritische Findings.
    • Dependency-Scanning / SBOM / Policy (CVEs, Lizenzen, Supply-Chain-Risiken).
    • Secret Scanning (keine Tokens, Keys, Passwörter im Repo/Artifacts).
    • DAST bzw. Security-Integration-Tests (z. B. typische OWASP-Klassen je nach Stack).

3) Daten- und Berechtigungsmodell als „First-Class“-Artefakt

    • Explizite Datenklassifizierung (PII, besondere Kategorien, Retention).
    • AuthZ-Design (Rollen/Rechte/Scopes) als Spezifikation, nicht nur als Codefragment.
    • Audit/Logging-Konzept (sicher, datensparsam, manipulationsarm).

Pragmatische Empfehlung: Wo KI im Kundendaten-Webservice sinnvoll ist

Einsatzfeld KI geeignet? Hinweis
Boilerplate/Scaffolding Ja Gute Zeitersparnis, trotzdem über CI-Gates absichern.
Dokumentationsentwürfe Ja Nur verifiziert veröffentlichen („as built“, nicht „as imagined“).
Unit-Tests generieren Begrenzt Als Startpunkt ok, Qualität über Mutation/Contracts erhöhen.
Auth/AuthZ, Kryptographie, PII-Flows Nein (ohne Review) Hier sind Fehlannahmen besonders teuer. Review + Threat-Checks Pflicht.
Dependency-Auswahl Vorsicht Nur innerhalb klarer Policies (Scans/SBOM/Allowlist).

Fazit

Generative KI ist 2025 ein sehr leistungsfähiges Werkzeug für Geschwindigkeit und Standardmuster. Für Webservices mit Kundendaten bleibt jedoch eine nüchterne Realität bestehen: Ohne robuste Verifikation (Tests, Scans, Policies, Threat-Checks) produziert KI leicht „plausibel wirkende“ Ergebnisse, die funktional, wartbar oder sicher nur scheinbar sind.

Der stabilste Mittelweg ist daher: KI konsequent nutzen – aber Output wie untrusted input behandeln, abgesichert durch SSDF-orientierte Prozesse und harte CI/CD-Gates.

Weiterführende Quellen