DSGVO · Art. 32 · Datenminimierung

Produktionsdaten anonymisieren, für Entwicklung, Staging und Demos.

Echte Kundendaten haben auf Entwickler-Laptops und Staging-Servern nichts verloren. SeedBase erkennt personenbezogene Daten automatisch und maskiert sie formatwahrend und konsistent, oder erzeugt gleich vollsynthetische Testdaten ohne kopierte Produktionsdatensätze.

Jetzt kostenlos anonymisieren Wie es funktioniert

Komplett self-service: registrieren, Datenbank verbinden, anonymisieren. Kein Vertriebsgespräch, keine Demo-Termine, EU-gehostet, ohne Dritt-CDNs.

Schema-basiert statt kopieren: Testdaten generieren · Testdaten aus SQL-Schema · Django-Testdaten

Das Problem kennt jedes Team.

„Zieh dir mal schnell einen Prod-Dump", und schon liegen E-Mail-Adressen, IBANs und Gesundheitsdaten echter Kunden auf Laptops, bei Freelancern und auf schwach gesicherten Staging-Servern.

Jede Kopie ist ein Verarbeitungsvorgang

Dev- und Staging-Kopien unterliegen denselben DSGVO-Pflichten wie das Produktivsystem, bei meist deutlich schwächerer Absicherung und mehr Zugriffsberechtigten.

Externe Dienstleister & Freelancer

Sobald Agenturen oder Freelancer mit Prod-Daten arbeiten, braucht es Auftragsverarbeitungsverträge, und das Risiko wandert mit jedem Dump nach draußen.

Art. 32 verlangt angemessene Maßnahmen

Die DSGVO nennt Pseudonymisierung ausdrücklich als Sicherheitsmaßnahme. „Wir haben es halt immer so gemacht" ist keine.

So löst SeedBase das.

Zwei Wege, je nach Bedarf, kombinierbar.

PII-Erkennung

Personenbezogene Spalten automatisch finden

Erkennung über Spaltennamen und Wertemuster (E-Mail, IBAN, Telefon, Adresse …), optional KI-gestützt. Ergebnis ist ein Report mit Vorschlägen, den Sie fachlich prüfen und übersteuern können.

Maskierung

Formatwahrend & konsistent ersetzen

Eine E-Mail bleibt eine E-Mail, eine IBAN behält Präfix und Länge. Derselbe Originalwert wird projektweit auf denselben Ersatzwert abgebildet, Joins, Gruppierungen und Tests funktionieren weiter. Auf Wunsch direkt in der Datenbank (in-place), ohne dass eine Kopie bei SeedBase gespeichert wird.

Subsetting

Datenminimierung eingebaut

Statt der vollen Datenbank ein referenziell konsistenter Ausschnitt, realistische 1 % für lokale Entwicklung und CI, alle Fremdschlüssel intakt. Weniger Daten, weniger Risiko, kleinere Dumps.

Synthetisch

Oder: gar keine echten Daten

SeedBase erzeugt aus Ihrem Schema vollsynthetische, FK-konsistente Testdaten mit realistischen Verteilungen. Wo nie echte Personendaten drin waren, kann auch nichts re-identifiziert werden.

Ehrlichkeit statt Marketing: Heuristische PII-Erkennung ist nicht vollständig, Freitextfelder mit eingestreuten Namen kann sie übersehen. Maskierung ist je nach Ausgestaltung Pseudonymisierung, nicht automatisch Anonymisierung im Rechtssinn. SeedBase erzeugt deshalb pro Lauf einen Privacy-Report als Arbeitsgrundlage für Ihre/n Datenschutzbeauftragte/n. Details: Anonymisierung & DSGVO in der Doku.

Formatwahrende, join-konsistente Datenmaskierung.

Daten anonymisieren heißt bei SeedBase nicht „alles auf XXX setzen". Eine maskierte Datenbank, mit der niemand mehr arbeiten kann, ist wertlos. Deshalb bleibt jeder Ersatzwert formatgleich und join-stabil.

Format bleibt erhalten

Aus einer E-Mail wird wieder eine gültige E-Mail, aus einer IBAN eine IBAN mit korrektem Länderpräfix und korrekter Länge, aus einer Telefonnummer eine plausible Telefonnummer. Validierungen, Längen-Constraints und Format-Checks in Ihrer Anwendung greifen weiter.

Konsistent über die ganze Datenbank

Dieselbe E-Mail in der Tabelle users wird zum exakt selben Ersatzwert wie in orders oder support_tickets. So bleiben Joins über Klartextwerte, Gruppierungen und Aggregationen korrekt, die maskierten Daten verhalten sich wie die echten.

Fremdschlüssel bleiben gültig

Maskiert wird der Inhalt, nicht die Beziehung. Schlüsselspalten werden so behandelt, dass referenzielle Integrität erhalten bleibt, kein verwaister Datensatz, keine Fremdschlüsselverletzung beim Zurückschreiben in die Datenbank.

FK-vollständiges Subsetting: ein kleiner, referenziell vollständiger Auszug.

Datenminimierung ist die direkteste Risikoreduktion: Was gar nicht erst auf den Laptop kommt, kann auch nicht abfließen. SeedBase zieht keinen blinden Prozentschnitt, sondern folgt den Fremdschlüsseln.

Referenziell vollständig

Folgt den Beziehungen, nicht der Zeilennummer

Wählen Sie eine Teilmenge der Bestellungen, kommen der zugehörige Kunde, dessen Adressen und die Bestellpositionen automatisch mit. Ergebnis ist ein in sich geschlossener Auszug, auf dem die Anwendung ohne fehlende Referenzen startet.

Klein genug für lokal

Realistische 1 % statt voller Dump

Ein referenziell vollständiges Prozent reicht für lokale Entwicklung, Code-Reviews und CI. Kleinere Dumps, schnellere Test-Setups, weniger personenbezogene Datensätze in Umlauf.

Maskiert kombinierbar

Subset und Maskierung in einem Lauf

Erst auf einen FK-vollständigen Auszug verkleinern, dann die PII-Spalten formatwahrend maskieren. So verlässt nur ein kleiner, anonymisierter Ausschnitt das Produktivsystem.

Anonymisierung oder vollsynthetische Generierung: wann was?

Beide Wege führen zu DSGVO-tauglichen Testdaten, lösen aber unterschiedliche Probleme. Eine knappe Entscheidungshilfe.

Sie brauchen …	Empfehlung
Echte Verteilungen, Mengen und Sonderfälle	Maskierung der Produktionsdaten. Für Last-, Migrations- und Reproduktionstests, wo es auf die tatsächliche Form der Daten ankommt. Restrisiko vom Datenschutzbeauftragten bewerten lassen.
Kleinen, sicheren Auszug für lokal und CI	FK-vollständiges Subsetting, optional plus Maskierung. Weniger Daten, weniger Risiko, voll lauffähig.
Garantiert keinen Personenbezug	Vollsynthetische Generierung aus dem Schema. Keine echten Personen, kein Re-Identifikationsrisiko, die DSGVO ist auf diese Daten nicht anwendbar. Ideal für offene Demos, Schulungen und externe Dienstleister.
Daten für ein Schema, das noch keine Produktivdaten hat	Vollsynthetische Generierung. Aus SQL-Schema, Django-Models oder Prisma erzeugt SeedBase realistische, FK-konsistente Datensätze. Siehe Testdaten generieren.

Praxis-Hinweis aus dem Test: Wir haben Maskierung und Subsetting an einem echten Django-Projekt mit 20 Apps und 226 Tabellen geprüft. Der häufigste Fall ist eine Mischung: Kerntabellen mit echten Verteilungen maskieren, Randbereiche und neu hinzugekommene Tabellen vollsynthetisch erzeugen. Schema-basierte Wege finden Sie unter Django-Testdaten und Testdaten aus SQL-Schema.

In drei Schritten zur sauberen Staging-Umgebung.

Self-Service in der Web-App, per CLI oder direkt aus PyCharm/VS Code.

Datenbank verbinden oder Schema importieren

PostgreSQL, MySQL u. a., oder Schema aus SQL-Dump, Django-Models, Prisma. Zugangsdaten werden verschlüsselt gespeichert.

PII-Report prüfen

SeedBase schlägt erkannte personenbezogene Spalten samt Transform vor. Sie bestätigen, ergänzen oder schließen Spalten aus.

Maskieren oder generieren

In-place in der Ziel-DB maskieren, einen maskierten Subset-Dump ziehen, oder vollsynthetische Daten generieren und per CLI/Plugin in Dev & CI laden.

Einordnung in die DSGVO.

Welche Maßnahme wohin gehört, als Orientierung, nicht als Rechtsberatung.

Maßnahme	DSGVO-Bezug
Formatwahrende, konsistente Maskierung	Art. 32, Sicherheit der Verarbeitung; ausdrücklich genannte Pseudonymisierung. Originalwerte werden deterministisch ersetzt, ohne den Originalwert preiszugeben.
Subsetting	Art. 5 Abs. 1 lit. c, Datenminimierung: nur der für den Zweck nötige Ausschnitt verlässt das Produktivsystem.
Vollsynthetische Daten	Kein Personenbezug ab Erzeugung, die DSGVO ist auf diese Daten nicht anwendbar, da keine echten Personen dahinterstehen.
Privacy-Report	Art. 5 Abs. 2, Rechenschaftspflicht: dokumentiert pro Lauf, was maskiert wurde und wie sich Werteverteilungen verändert haben.
EU-Hosting, keine Dritt-CDNs	Kap. V, keine Drittlandübermittlung durch die Plattform selbst; die Web-App lädt keinerlei Ressourcen von Drittanbietern.

Kein Sales-Call. Einfach machen.

Bei uns gibt es keine „Demo buchen"-Schranke und kein Vertriebsgespräch: Konto anlegen, Datenbank verbinden oder Schema importieren, PII-Report prüfen, anonymisieren. Der Free-Plan reicht zum Ausprobieren, bezahlt wird erst, wenn es sich lohnt.

Start in unter 5 Minuten
Keine Kreditkarte für den Einstieg
Wiederholbar als automatisierter Job

Kostenlos starten

Lieber synthetisch? Testdaten generieren · Vergleich: vs Tonic.ai

Häufige Fragen.

Dürfen wir Produktionsdaten überhaupt in Dev & Staging verwenden?

Auch Dev- und Staging-Kopien sind Verarbeitungsvorgänge im Sinne der DSGVO, mit mehr Kopien, mehr Zugriffsberechtigten und meist schwächerer Absicherung steigt das Risiko erheblich. Art. 32 verlangt dem Risiko angemessene technische Maßnahmen und nennt Pseudonymisierung ausdrücklich. Maskierte oder synthetische Daten sind der etablierte Weg, dieses Risiko zu reduzieren.

Ist Maskierung dasselbe wie Anonymisierung?

Nicht automatisch. Konsistente Maskierung ist je nach Ausgestaltung Pseudonymisierung oder Anonymisierung, das hängt vom Datenbestand und Restrisiko der Re-Identifizierung ab und gehört in die Bewertung Ihres Datenschutzbeauftragten. SeedBase liefert dafür den Privacy-Report. Wer Personenbezug sicher ausschließen will, nutzt vollsynthetische Daten.

Bleiben die Daten für Tests brauchbar?

Ja, das ist der Sinn der formatwahrenden Maskierung: E-Mails bleiben gültige E-Mail-Formen, IBANs behalten Präfix und Länge, gleiche Originalwerte ergeben projektweit gleiche Ersatzwerte (Joins funktionieren). Auf Wunsch wird die Häufigkeitsverteilung kategorialer Werte nachgebildet.

Verlassen unsere Daten dabei das Haus?

Ehrliche Antwort: vorübergehend ja. Beim In-place-Masking liest SeedBase die Werte batchweise ein, berechnet die Maskierung im Arbeitsspeicher unserer EU-gehosteten Server und schreibt sie direkt in Ihre Datenbank zurück, eine Kopie Ihrer Datenbank wird bei SeedBase nicht gespeichert. Die Originalwerte durchlaufen die Plattform also transient zur Verarbeitung (Auftragsverarbeitung), bleiben aber nicht dort. Es gibt keine Dritt-CDNs und keine Drittlandübermittlung. Wer auch die transiente Verarbeitung ausschließen will, erzeugt vollsynthetische Daten direkt aus dem Schema, dafür braucht SeedBase Ihre echten Daten gar nicht.

Bleiben Fremdschlüssel und Joins nach dem Subsetting gültig?

Ja. Beim FK-vollständigen Subsetting zieht SeedBase nicht einfach jede n-te Zeile, sondern folgt den Fremdschlüsseln: Zu jeder ausgewählten Bestellung kommen der zugehörige Kunde, seine Adresse und die Positionen mit. Der Auszug ist deutlich kleiner als die Produktivdatenbank, aber referenziell vollständig, sodass die Anwendung darauf ohne Fremdschlüsselverletzungen startet. Wir haben das Verfahren an einem echten Django-Projekt mit 20 Apps und 226 Tabellen getestet.

Wann sollte ich anonymisieren und wann vollsynthetisch generieren?

Maskierung und Subsetting nehmen Sie, wenn Sie die echten Verteilungen, Mengen und Sonderfälle Ihrer Produktivdaten brauchen, etwa für Last- oder Migrationstests, und ein bewertetes Restrisiko akzeptabel ist. Vollsynthetische Generierung nehmen Sie, wenn kein Personenbezug entstehen soll: Die Daten werden aus dem Schema erzeugt, es gibt keine echten Personen dahinter und damit kein Re-Identifikationsrisiko. Beides ist kombinierbar, etwa maskierte Kerntabellen plus synthetische Randtabellen.

Ist die Maskierung wiederholbar und automatisierbar?

Ja. SeedBase arbeitet deterministisch über einen Seed: Derselbe Seed liefert dieselbe Zuordnung von Original zu Ersatzwert, sodass Maskierungen über mehrere Läufe und Umgebungen hinweg stabil bleiben. Der Ablauf ist als wiederholbarer Job über CLI und SDKs steuerbar, also auch in CI-Pipelines, und gibt SQL, CSV oder JSON aus oder schreibt direkt in die Datenbank (DB-Push).

Was kostet das?

Self-Service: ab kostenlos ohne Kreditkarte, kostenpflichtige Pläne ab 19 € im Monat, Details siehe Preise. Alles self-service, kein Vertriebskontakt nötig.

Weiter zum Thema: Testdaten generieren · Testdaten aus SQL-Schema · Django-Testdaten · Doku: Anonymisierung & DSGVO