Produktionsdaten anonymisieren, für Entwicklung, Staging und Demos.
Echte Kundendaten haben auf Entwickler-Laptops und Staging-Servern nichts verloren. SeedBase erkennt personenbezogene Daten automatisch und maskiert sie formatwahrend und konsistent, oder erzeugt gleich vollsynthetische Testdaten ohne kopierte Produktionsdatensätze.
Komplett self-service: registrieren, Datenbank verbinden, anonymisieren. Kein Vertriebsgespräch, keine Demo-Termine, EU-gehostet, ohne Dritt-CDNs.
Schema-basiert statt kopieren: Testdaten generieren · Testdaten aus SQL-Schema · Django-Testdaten
Das Problem kennt jedes Team.
„Zieh dir mal schnell einen Prod-Dump", und schon liegen E-Mail-Adressen, IBANs und Gesundheitsdaten echter Kunden auf Laptops, bei Freelancern und auf schwach gesicherten Staging-Servern.
Jede Kopie ist ein Verarbeitungsvorgang
Dev- und Staging-Kopien unterliegen denselben DSGVO-Pflichten wie das Produktivsystem, bei meist deutlich schwächerer Absicherung und mehr Zugriffsberechtigten.
Externe Dienstleister & Freelancer
Sobald Agenturen oder Freelancer mit Prod-Daten arbeiten, braucht es Auftragsverarbeitungsverträge, und das Risiko wandert mit jedem Dump nach draußen.
Art. 32 verlangt angemessene Maßnahmen
Die DSGVO nennt Pseudonymisierung ausdrücklich als Sicherheitsmaßnahme. „Wir haben es halt immer so gemacht" ist keine.
So löst SeedBase das.
Zwei Wege, je nach Bedarf, kombinierbar.
Personenbezogene Spalten automatisch finden
Erkennung über Spaltennamen und Wertemuster (E-Mail, IBAN, Telefon, Adresse …), optional KI-gestützt. Ergebnis ist ein Report mit Vorschlägen, den Sie fachlich prüfen und übersteuern können.
Formatwahrend & konsistent ersetzen
Eine E-Mail bleibt eine E-Mail, eine IBAN behält Präfix und Länge. Derselbe Originalwert wird projektweit auf denselben Ersatzwert abgebildet, Joins, Gruppierungen und Tests funktionieren weiter. Auf Wunsch direkt in der Datenbank (in-place), ohne dass eine Kopie bei SeedBase gespeichert wird.
Datenminimierung eingebaut
Statt der vollen Datenbank ein referenziell konsistenter Ausschnitt, realistische 1 % für lokale Entwicklung und CI, alle Fremdschlüssel intakt. Weniger Daten, weniger Risiko, kleinere Dumps.
Oder: gar keine echten Daten
SeedBase erzeugt aus Ihrem Schema vollsynthetische, FK-konsistente Testdaten mit realistischen Verteilungen. Wo nie echte Personendaten drin waren, kann auch nichts re-identifiziert werden.
Formatwahrende, join-konsistente Datenmaskierung.
Daten anonymisieren heißt bei SeedBase nicht „alles auf XXX setzen". Eine maskierte Datenbank, mit der niemand mehr arbeiten kann, ist wertlos. Deshalb bleibt jeder Ersatzwert formatgleich und join-stabil.
Format bleibt erhalten
Aus einer E-Mail wird wieder eine gültige E-Mail, aus einer IBAN eine IBAN mit korrektem Länderpräfix und korrekter Länge, aus einer Telefonnummer eine plausible Telefonnummer. Validierungen, Längen-Constraints und Format-Checks in Ihrer Anwendung greifen weiter.
Konsistent über die ganze Datenbank
Dieselbe E-Mail in der Tabelle users wird zum exakt selben Ersatzwert wie in orders oder support_tickets. So bleiben Joins über Klartextwerte, Gruppierungen und Aggregationen korrekt, die maskierten Daten verhalten sich wie die echten.
Fremdschlüssel bleiben gültig
Maskiert wird der Inhalt, nicht die Beziehung. Schlüsselspalten werden so behandelt, dass referenzielle Integrität erhalten bleibt, kein verwaister Datensatz, keine Fremdschlüsselverletzung beim Zurückschreiben in die Datenbank.
FK-vollständiges Subsetting: ein kleiner, referenziell vollständiger Auszug.
Datenminimierung ist die direkteste Risikoreduktion: Was gar nicht erst auf den Laptop kommt, kann auch nicht abfließen. SeedBase zieht keinen blinden Prozentschnitt, sondern folgt den Fremdschlüsseln.
Folgt den Beziehungen, nicht der Zeilennummer
Wählen Sie eine Teilmenge der Bestellungen, kommen der zugehörige Kunde, dessen Adressen und die Bestellpositionen automatisch mit. Ergebnis ist ein in sich geschlossener Auszug, auf dem die Anwendung ohne fehlende Referenzen startet.
Realistische 1 % statt voller Dump
Ein referenziell vollständiges Prozent reicht für lokale Entwicklung, Code-Reviews und CI. Kleinere Dumps, schnellere Test-Setups, weniger personenbezogene Datensätze in Umlauf.
Subset und Maskierung in einem Lauf
Erst auf einen FK-vollständigen Auszug verkleinern, dann die PII-Spalten formatwahrend maskieren. So verlässt nur ein kleiner, anonymisierter Ausschnitt das Produktivsystem.
Anonymisierung oder vollsynthetische Generierung: wann was?
Beide Wege führen zu DSGVO-tauglichen Testdaten, lösen aber unterschiedliche Probleme. Eine knappe Entscheidungshilfe.
| Sie brauchen … | Empfehlung |
|---|---|
| Echte Verteilungen, Mengen und Sonderfälle | Maskierung der Produktionsdaten. Für Last-, Migrations- und Reproduktionstests, wo es auf die tatsächliche Form der Daten ankommt. Restrisiko vom Datenschutzbeauftragten bewerten lassen. |
| Kleinen, sicheren Auszug für lokal und CI | FK-vollständiges Subsetting, optional plus Maskierung. Weniger Daten, weniger Risiko, voll lauffähig. |
| Garantiert keinen Personenbezug | Vollsynthetische Generierung aus dem Schema. Keine echten Personen, kein Re-Identifikationsrisiko, die DSGVO ist auf diese Daten nicht anwendbar. Ideal für offene Demos, Schulungen und externe Dienstleister. |
| Daten für ein Schema, das noch keine Produktivdaten hat | Vollsynthetische Generierung. Aus SQL-Schema, Django-Models oder Prisma erzeugt SeedBase realistische, FK-konsistente Datensätze. Siehe Testdaten generieren. |
In drei Schritten zur sauberen Staging-Umgebung.
Self-Service in der Web-App, per CLI oder direkt aus PyCharm/VS Code.
Datenbank verbinden oder Schema importieren
PostgreSQL, MySQL u. a., oder Schema aus SQL-Dump, Django-Models, Prisma. Zugangsdaten werden verschlüsselt gespeichert.
PII-Report prüfen
SeedBase schlägt erkannte personenbezogene Spalten samt Transform vor. Sie bestätigen, ergänzen oder schließen Spalten aus.
Maskieren oder generieren
In-place in der Ziel-DB maskieren, einen maskierten Subset-Dump ziehen, oder vollsynthetische Daten generieren und per CLI/Plugin in Dev & CI laden.
Einordnung in die DSGVO.
Welche Maßnahme wohin gehört, als Orientierung, nicht als Rechtsberatung.
| Maßnahme | DSGVO-Bezug |
|---|---|
| Formatwahrende, konsistente Maskierung | Art. 32, Sicherheit der Verarbeitung; ausdrücklich genannte Pseudonymisierung. Originalwerte werden deterministisch ersetzt, ohne den Originalwert preiszugeben. |
| Subsetting | Art. 5 Abs. 1 lit. c, Datenminimierung: nur der für den Zweck nötige Ausschnitt verlässt das Produktivsystem. |
| Vollsynthetische Daten | Kein Personenbezug ab Erzeugung, die DSGVO ist auf diese Daten nicht anwendbar, da keine echten Personen dahinterstehen. |
| Privacy-Report | Art. 5 Abs. 2, Rechenschaftspflicht: dokumentiert pro Lauf, was maskiert wurde und wie sich Werteverteilungen verändert haben. |
| EU-Hosting, keine Dritt-CDNs | Kap. V, keine Drittlandübermittlung durch die Plattform selbst; die Web-App lädt keinerlei Ressourcen von Drittanbietern. |
Kein Sales-Call. Einfach machen.
Bei uns gibt es keine „Demo buchen"-Schranke und kein Vertriebsgespräch: Konto anlegen, Datenbank verbinden oder Schema importieren, PII-Report prüfen, anonymisieren. Der Free-Plan reicht zum Ausprobieren, bezahlt wird erst, wenn es sich lohnt.
- Start in unter 5 Minuten
- Keine Kreditkarte für den Einstieg
- Wiederholbar als automatisierter Job
Lieber synthetisch? Testdaten generieren · Vergleich: vs Tonic.ai
Häufige Fragen.
Dürfen wir Produktionsdaten überhaupt in Dev & Staging verwenden?
Auch Dev- und Staging-Kopien sind Verarbeitungsvorgänge im Sinne der DSGVO, mit mehr Kopien, mehr Zugriffsberechtigten und meist schwächerer Absicherung steigt das Risiko erheblich. Art. 32 verlangt dem Risiko angemessene technische Maßnahmen und nennt Pseudonymisierung ausdrücklich. Maskierte oder synthetische Daten sind der etablierte Weg, dieses Risiko zu reduzieren.
Ist Maskierung dasselbe wie Anonymisierung?
Nicht automatisch. Konsistente Maskierung ist je nach Ausgestaltung Pseudonymisierung oder Anonymisierung, das hängt vom Datenbestand und Restrisiko der Re-Identifizierung ab und gehört in die Bewertung Ihres Datenschutzbeauftragten. SeedBase liefert dafür den Privacy-Report. Wer Personenbezug sicher ausschließen will, nutzt vollsynthetische Daten.
Bleiben die Daten für Tests brauchbar?
Ja, das ist der Sinn der formatwahrenden Maskierung: E-Mails bleiben gültige E-Mail-Formen, IBANs behalten Präfix und Länge, gleiche Originalwerte ergeben projektweit gleiche Ersatzwerte (Joins funktionieren). Auf Wunsch wird die Häufigkeitsverteilung kategorialer Werte nachgebildet.
Verlassen unsere Daten dabei das Haus?
Ehrliche Antwort: vorübergehend ja. Beim In-place-Masking liest SeedBase die Werte batchweise ein, berechnet die Maskierung im Arbeitsspeicher unserer EU-gehosteten Server und schreibt sie direkt in Ihre Datenbank zurück, eine Kopie Ihrer Datenbank wird bei SeedBase nicht gespeichert. Die Originalwerte durchlaufen die Plattform also transient zur Verarbeitung (Auftragsverarbeitung), bleiben aber nicht dort. Es gibt keine Dritt-CDNs und keine Drittlandübermittlung. Wer auch die transiente Verarbeitung ausschließen will, erzeugt vollsynthetische Daten direkt aus dem Schema, dafür braucht SeedBase Ihre echten Daten gar nicht.
Bleiben Fremdschlüssel und Joins nach dem Subsetting gültig?
Ja. Beim FK-vollständigen Subsetting zieht SeedBase nicht einfach jede n-te Zeile, sondern folgt den Fremdschlüsseln: Zu jeder ausgewählten Bestellung kommen der zugehörige Kunde, seine Adresse und die Positionen mit. Der Auszug ist deutlich kleiner als die Produktivdatenbank, aber referenziell vollständig, sodass die Anwendung darauf ohne Fremdschlüsselverletzungen startet. Wir haben das Verfahren an einem echten Django-Projekt mit 20 Apps und 226 Tabellen getestet.
Wann sollte ich anonymisieren und wann vollsynthetisch generieren?
Maskierung und Subsetting nehmen Sie, wenn Sie die echten Verteilungen, Mengen und Sonderfälle Ihrer Produktivdaten brauchen, etwa für Last- oder Migrationstests, und ein bewertetes Restrisiko akzeptabel ist. Vollsynthetische Generierung nehmen Sie, wenn kein Personenbezug entstehen soll: Die Daten werden aus dem Schema erzeugt, es gibt keine echten Personen dahinter und damit kein Re-Identifikationsrisiko. Beides ist kombinierbar, etwa maskierte Kerntabellen plus synthetische Randtabellen.
Ist die Maskierung wiederholbar und automatisierbar?
Ja. SeedBase arbeitet deterministisch über einen Seed: Derselbe Seed liefert dieselbe Zuordnung von Original zu Ersatzwert, sodass Maskierungen über mehrere Läufe und Umgebungen hinweg stabil bleiben. Der Ablauf ist als wiederholbarer Job über CLI und SDKs steuerbar, also auch in CI-Pipelines, und gibt SQL, CSV oder JSON aus oder schreibt direkt in die Datenbank (DB-Push).
Was kostet das?
Self-Service: ab kostenlos ohne Kreditkarte, kostenpflichtige Pläne ab 19 € im Monat, Details siehe Preise. Alles self-service, kein Vertriebskontakt nötig.
Weiter zum Thema: Testdaten generieren · Testdaten aus SQL-Schema · Django-Testdaten · Doku: Anonymisierung & DSGVO