Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse
Du hast Google Analytics 4 eingerichtet, Product Analytics läuft und du machst deine ersten A/B-Tests. Aber irgendwann merkst du: Deine Daten liegen in fünf verschiedenen Tools, du kannst sie nicht miteinander verbinden, und niemand im Team weiss, welche Zahlen stimmen. Willkommen in der Welt der Daten-Infrastruktur.
In diesem Artikel zeige ich dir, wie du als Startup eine skalierbare Daten-Infrastruktur aufbaust -- ohne gleich ein Data-Engineering-Team einstellen zu müssen.
Wann brauchst du eine Daten-Infrastruktur?
Nicht jedes Startup braucht sofort ein Data Warehouse. Hier sind die Anzeichen, dass es Zeit wird:
- Du hast Daten in mehr als 3 verschiedenen Tools
- Verschiedene Team-Mitglieder nennen verschiedene Zahlen für die gleiche Metrik
- Du verbringst Stunden damit, Daten manuell in Spreadsheets zusammenzuführen
- Dein CEO fragt nach einer Zahl und du brauchst einen halben Tag, um sie zu liefern
- Du willst Daten aus verschiedenen Quellen kombinieren (z.B. Marketing + Produkt + Finanzen)
Wenn zwei oder mehr dieser Punkte auf dich zutreffen, lies weiter.
Der Modern Data Stack
Der "Modern Data Stack" ist ein Architekturmodell, das sich in den letzten Jahren als Standard etabliert hat. Es besteht aus fünf Schichten:
1. Datenquellen (Sources)
Das sind die Systeme, in denen deine Daten entstehen:
- Produkt: Deine App, Website, API
- Marketing: Google Ads, Facebook Ads, Mailchimp
- Vertrieb: CRM (HubSpot, Pipedrive)
- Finanzen: Buchhaltung (sevDesk, BMD), Stripe, PayPal
- Support: Zendesk, Intercom, Freshdesk
2. Daten-Ingestion (Extract & Load)
Tools, die Daten aus den Quellen in dein Data Warehouse laden:
| Tool | Preis | Konnektoren | Beste für |
|---|---|---|---|
| Fivetran | ab ca. EUR 300/Monat | 300+ | Einfachheit |
| Airbyte | Open Source / Hosted | 350+ | Budget-bewusste |
| Stitch | ab ca. EUR 100/Monat | 100+ | Einstieg |
| Segment | ab ca. EUR 120/Monat | 300+ | Event-Daten |
| Meltano | Open Source | 300+ | Technische Teams |
Empfehlung für österreichische Startups: Starte mit Airbyte (Open Source oder Cloud). Es ist kostengünstig, hat viele Konnektoren und die Community wächst rasant.
3. Data Warehouse (Store)
Das zentrale Lager für alle deine Daten:
| Warehouse | Preis | Beste für |
|---|---|---|
| BigQuery (Google) | Pay-per-Query, sehr günstig | Google-Ökosystem |
| Snowflake | Pay-per-Usage | Flexibilität |
| Amazon Redshift | ab ca. EUR 150/Monat | AWS-Nutzer |
| PostgreSQL | Kostenlos (Self-hosted) | Budget EUR 0 |
| DuckDB | Kostenlos (lokal) | Prototyping |
Empfehlung: BigQuery ist für die meisten Startups die beste Wahl. Die ersten 1 TB pro Monat sind kostenlos, die Einrichtung ist einfach und es integriert sich perfekt mit Google Analytics 4 und Looker Studio.
4. Transformation (Transform)
Rohdaten sind selten direkt nutzbar. Du musst sie bereinigen, verknüpfen und in nützliche Formate bringen:
dbt (Data Build Tool) ist hier der unangefochtene Standard:
-- dbt Model: aktive_nutzer_pro_woche.sql
WITH events AS (
SELECT
user_id,
DATE_TRUNC('week', event_timestamp) AS week,
COUNT(*) AS event_count
FROM {{ ref('stg_events') }}
GROUP BY 1, 2
)
SELECT
week,
COUNT(DISTINCT user_id) AS weekly_active_users,
AVG(event_count) AS avg_events_per_user
FROM events
GROUP BY 1
ORDER BY 1
dbt ermöglicht dir:
- SQL-basierte Transformationen mit Versionskontrolle
- Automatische Tests und Dokumentation
- Wiederverwendbare Modelle
- Scheduling über dbt Cloud oder Airflow
5. Analyse und Visualisierung (Analyze)
Die Schicht, in der Menschen mit den Daten arbeiten:
- Dashboards: Looker Studio, Metabase, Preset (mehr dazu im BI-Tools-Artikel)
- Ad-hoc-Analyse: SQL-Clients, Jupyter Notebooks
- Reverse ETL: Daten zurück in operative Tools senden (z.B. Nutzer-Segmente an Mailchimp)
Architektur für verschiedene Startup-Phasen
Pre-Seed / Seed (0-10 Mitarbeiter, < EUR 500K Umsatz)
Google Analytics 4 -----> Google Looker Studio
Mixpanel (Free) --------> Mixpanel Dashboards
Stripe -----------------> Google Sheets
CRM --------------------> Google Sheets
Kosten: EUR 0 Aufwand: 1-2 Tage Einrichtung
In dieser Phase brauchst du kein Data Warehouse. Google Sheets als Bindeglied reicht völlig aus. Konzentriere dich auf die Grundlagen, die wir in unserem Einsteiger-Artikel beschrieben haben.
Seed / Series A (10-30 Mitarbeiter, EUR 500K-3M Umsatz)
Datenquellen --> Airbyte --> BigQuery --> dbt --> Looker Studio
Metabase
Kosten: EUR 100-300/Monat Aufwand: 1-2 Wochen Einrichtung
Jetzt wird es ernst. Du brauchst eine "Single Source of Truth" -- einen Ort, an dem alle Daten zusammenlaufen.
Series A+ (30+ Mitarbeiter, > EUR 3M Umsatz)
Datenquellen --> Fivetran/Airbyte --> Snowflake/BigQuery --> dbt --> Looker/Preset
Reverse ETL
|
ML/AI Modelle
Kosten: EUR 500-2.000/Monat Aufwand: Dedizierte Data Person (halbe oder ganze Stelle)
Ab dieser Phase lohnt sich ein dedizierter Data Engineer oder Analytics Engineer.
BigQuery einrichten -- Schritt für Schritt
BigQuery ist meine Empfehlung für die meisten Startups. Hier ist die Einrichtung:
Schritt 1: Google Cloud Projekt erstellen
- Gehe zu console.cloud.google.com
- Erstelle ein neues Projekt (z.B. "mein-startup-data")
- Aktiviere die BigQuery API
Schritt 2: Dataset erstellen
-- In der BigQuery Console
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.raw_data`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.staging`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.analytics`;
Die drei Schemas trennen:
- raw_data: Unbearbeitete Daten aus den Quellen
- staging: Bereinigte und transformierte Daten
- analytics: Fertige Tabellen für Dashboards und Analysen
Schritt 3: GA4-Daten exportieren
GA4 kann Daten direkt nach BigQuery exportieren:
- In GA4: Verwaltung > BigQuery-Verknüpfung
- Wähle dein BigQuery-Projekt
- Aktiviere den täglichen Export
Das ist Gold wert: Du bekommst Rohdaten auf Event-Ebene, die du beliebig analysieren kannst -- weit über das hinaus, was die GA4-Oberfläche bietet.
Schritt 4: Weitere Datenquellen anbinden
Mit Airbyte verbindest du weitere Quellen:
# Airbyte Connection Konfiguration
source:
type: stripe
config:
api_key: sk_live_xxx
destination:
type: bigquery
config:
project_id: mein-startup-data
dataset_id: raw_data
sync_frequency: every_6_hours
Event-Tracking-Architektur
Für deine eigenen Produktdaten brauchst du ein sauberes Event-Tracking-System:
Option A: Direkt an Mixpanel/Amplitude + BigQuery
App/Website --> Mixpanel --> Export nach BigQuery (via Airbyte)
Einfach, aber du bist abhängig von Mixpanel.
Option B: Event-Bus-Architektur
App/Website --> Segment/RudderStack --> Mixpanel
--> BigQuery
--> Amplitude
Flexibler: Du sendest Events einmal und sie werden an alle Tools verteilt.
Option C: Server-Side Tracking
App/Website --> Dein Server (API) --> BigQuery
--> Mixpanel (optional)
Maximale Kontrolle, aber mehr Entwicklungsaufwand. Gut für datenschutzsensible Setups.
Datenqualität sicherstellen
Die beste Infrastruktur nützt nichts, wenn die Daten schlecht sind. Hier sind Strategien:
1. Schema-Validierung
Definiere, wie Events aussehen müssen, bevor sie gesendet werden:
// JSON Schema fuer ein Event
const eventSchema = {
type: 'object',
required: ['event_name', 'user_id', 'timestamp'],
properties: {
event_name: { type: 'string' },
user_id: { type: 'string' },
timestamp: { type: 'string', format: 'date-time' },
properties: { type: 'object' }
}
};
2. Automatische Tests mit dbt
-- dbt Test: Jeder Nutzer hat eine eindeutige ID
-- tests/unique_user_id.sql
SELECT user_id, COUNT(*)
FROM {{ ref('dim_users') }}
GROUP BY user_id
HAVING COUNT(*) > 1
3. Data Observability
Tools wie Monte Carlo, Elementary (Open Source) oder Great Expectations überwachen deine Daten automatisch:
- Ist das Datenvolumen heute ungewöhnlich niedrig?
- Gibt es plötzlich viele NULL-Werte?
- Hat sich die Verteilung einer Metrik dramatisch verändert?
Kosten optimieren
BigQuery-Kosten im Griff
- Nutze partitionierte Tabellen (nach Datum), um Abfragekosten zu senken
- Verwende materialisierte Views für häufige Abfragen
- Setze Budgetwarnungen in Google Cloud ein
- Prüfe regelmässig die teuersten Abfragen
Allgemeine Tipps
- Starte mit kostenlosen/Open-Source-Tools und upgrade nur bei Bedarf
- Nutze Förderungen: Die aws und die Wirtschaftsagentur Burgenland fördern Digitalisierungsprojekte -- ein Data Warehouse kann darunter fallen
- Vermeide Over-Engineering: Du brauchst kein Snowflake, wenn BigQuery reicht
Typische Fehler
Fehler 1: Zu früh zu komplex
Ein Data Warehouse im Pre-Seed-Stadium ist wie ein Ferrari für den Einkauf beim Hofer. Starte einfach.
Fehler 2: Kein Tracking-Plan
Ohne Tracking-Plan (siehe Product Analytics) landest du mit inkonsistenten Daten im Warehouse. Garbage in, garbage out.
Fehler 3: Keine Dokumentation
Wenn nur eine Person weiss, was die Tabelle stg_events_v3_final_FINAL enthält, hast du ein Problem. Nutze dbt docs oder ein Data Catalog.
Fehler 4: Datenschutz vergessen
Personenbezogene Daten im Data Warehouse brauchen besondere Behandlung. Pseudonymisierung, Zugriffskontrollen und Löschkonzepte sind Pflicht -- lies dazu unseren Data Privacy Artikel.
Der Weg nach vorne
Deine Daten-Infrastruktur wächst mit deinem Startup. Hier ist der typische Pfad:
- Monat 1-6: GA4 + Mixpanel + Google Sheets
- Monat 6-12: BigQuery + Airbyte + einfache dbt-Modelle
- Jahr 1-2: Vollständiger Modern Data Stack + Dashboards
- Jahr 2+: ML/AI, Predictive Analytics, Reverse ETL
Jeder Schritt baut auf dem vorherigen auf. Und mit jedem Schritt triffst du bessere Entscheidungen.
Zusammenfassung
Daten-Infrastruktur klingt einschüchternd, aber mit dem Modern Data Stack ist sie zugänglicher als je zuvor. Starte einfach, wachse mit deinem Startup und investiere in Datenqualität. Die Rendite -- bessere Entscheidungen, schnelleres Wachstum, zufriedenere Investoren -- ist enorm.
Du brauchst Hilfe bei deiner Daten-Infrastruktur? Bei Startup Burgenland beraten wir dich zur richtigen Architektur für deine Phase. Von der ersten Google-Sheets-Lösung bis zum skalierbaren Data Warehouse -- wir kennen den Weg.
Dieser Artikel ist Teil der Serie "Daten und Analytics" im Startup Burgenland Blog. Die Serie richtet sich an Gründerinnen und Gründer, die ihr Startup mit Daten auf das nächste Level bringen wollen.
Über den Autor: Felix Lenhard ist Program Director und Startup Coach bei Startup Burgenland. Zuvor Managing Director beim 360 Innovation Lab, Innovation Manager bei RHI Magnesita und Serial Entrepreneur mit internationalen Exits. Über 15 Jahre Erfahrung in Innovation und Unternehmensaufbau.