Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse

Du hast Google Analytics 4 eingerichtet, Product Analytics läuft und du machst deine ersten A/B-Tests. Aber irgendwann merkst du: Deine Daten liegen in fünf verschiedenen Tools, du kannst sie nicht miteinander verbinden, und niemand im Team weiss, welche Zahlen stimmen. Willkommen in der Welt der Daten-Infrastruktur.

In diesem Artikel zeige ich dir, wie du als Startup eine skalierbare Daten-Infrastruktur aufbaust -- ohne gleich ein Data-Engineering-Team einstellen zu müssen.

Wann brauchst du eine Daten-Infrastruktur?

Nicht jedes Startup braucht sofort ein Data Warehouse. Hier sind die Anzeichen, dass es Zeit wird:

Du hast Daten in mehr als 3 verschiedenen Tools
Verschiedene Team-Mitglieder nennen verschiedene Zahlen für die gleiche Metrik
Du verbringst Stunden damit, Daten manuell in Spreadsheets zusammenzuführen
Dein CEO fragt nach einer Zahl und du brauchst einen halben Tag, um sie zu liefern
Du willst Daten aus verschiedenen Quellen kombinieren (z.B. Marketing + Produkt + Finanzen)

Wenn zwei oder mehr dieser Punkte auf dich zutreffen, lies weiter.

Der Modern Data Stack

Der "Modern Data Stack" ist ein Architekturmodell, das sich in den letzten Jahren als Standard etabliert hat. Es besteht aus fünf Schichten:

1. Datenquellen (Sources)

Das sind die Systeme, in denen deine Daten entstehen:

Produkt: Deine App, Website, API
Marketing: Google Ads, Facebook Ads, Mailchimp
Vertrieb: CRM (HubSpot, Pipedrive)
Finanzen: Buchhaltung (sevDesk, BMD), Stripe, PayPal
Support: Zendesk, Intercom, Freshdesk

2. Daten-Ingestion (Extract & Load)

Tools, die Daten aus den Quellen in dein Data Warehouse laden:

Tool	Preis	Konnektoren	Beste für
Fivetran	ab ca. EUR 300/Monat	300+	Einfachheit
Airbyte	Open Source / Hosted	350+	Budget-bewusste
Stitch	ab ca. EUR 100/Monat	100+	Einstieg
Segment	ab ca. EUR 120/Monat	300+	Event-Daten
Meltano	Open Source	300+	Technische Teams

Empfehlung für österreichische Startups: Starte mit Airbyte (Open Source oder Cloud). Es ist kostengünstig, hat viele Konnektoren und die Community wächst rasant.

3. Data Warehouse (Store)

Das zentrale Lager für alle deine Daten:

Warehouse	Preis	Beste für
BigQuery (Google)	Pay-per-Query, sehr günstig	Google-Ökosystem
Snowflake	Pay-per-Usage	Flexibilität
Amazon Redshift	ab ca. EUR 150/Monat	AWS-Nutzer
PostgreSQL	Kostenlos (Self-hosted)	Budget EUR 0
DuckDB	Kostenlos (lokal)	Prototyping

Empfehlung: BigQuery ist für die meisten Startups die beste Wahl. Die ersten 1 TB pro Monat sind kostenlos, die Einrichtung ist einfach und es integriert sich perfekt mit Google Analytics 4 und Looker Studio.

4. Transformation (Transform)

Rohdaten sind selten direkt nutzbar. Du musst sie bereinigen, verknüpfen und in nützliche Formate bringen:

dbt (Data Build Tool) ist hier der unangefochtene Standard:

-- dbt Model: aktive_nutzer_pro_woche.sql
WITH events AS (
    SELECT
        user_id,
        DATE_TRUNC('week', event_timestamp) AS week,
        COUNT(*) AS event_count
    FROM {{ ref('stg_events') }}
    GROUP BY 1, 2
)

SELECT
    week,
    COUNT(DISTINCT user_id) AS weekly_active_users,
    AVG(event_count) AS avg_events_per_user
FROM events
GROUP BY 1
ORDER BY 1

dbt ermöglicht dir:

SQL-basierte Transformationen mit Versionskontrolle
Automatische Tests und Dokumentation
Wiederverwendbare Modelle
Scheduling über dbt Cloud oder Airflow

5. Analyse und Visualisierung (Analyze)

Die Schicht, in der Menschen mit den Daten arbeiten:

Dashboards: Looker Studio, Metabase, Preset (mehr dazu im BI-Tools-Artikel)
Ad-hoc-Analyse: SQL-Clients, Jupyter Notebooks
Reverse ETL: Daten zurück in operative Tools senden (z.B. Nutzer-Segmente an Mailchimp)

Architektur für verschiedene Startup-Phasen

Pre-Seed / Seed (0-10 Mitarbeiter, < EUR 500K Umsatz)

Google Analytics 4 -----> Google Looker Studio
Mixpanel (Free) --------> Mixpanel Dashboards
Stripe -----------------> Google Sheets
CRM --------------------> Google Sheets

Kosten: EUR 0 Aufwand: 1-2 Tage Einrichtung

In dieser Phase brauchst du kein Data Warehouse. Google Sheets als Bindeglied reicht völlig aus. Konzentriere dich auf die Grundlagen, die wir in unserem Einsteiger-Artikel beschrieben haben.

Seed / Series A (10-30 Mitarbeiter, EUR 500K-3M Umsatz)

Datenquellen --> Airbyte --> BigQuery --> dbt --> Looker Studio
                                                  Metabase

Kosten: EUR 100-300/Monat Aufwand: 1-2 Wochen Einrichtung

Jetzt wird es ernst. Du brauchst eine "Single Source of Truth" -- einen Ort, an dem alle Daten zusammenlaufen.

Series A+ (30+ Mitarbeiter, > EUR 3M Umsatz)

Datenquellen --> Fivetran/Airbyte --> Snowflake/BigQuery --> dbt --> Looker/Preset
                                                                     Reverse ETL
                                         |
                                    ML/AI Modelle

Kosten: EUR 500-2.000/Monat Aufwand: Dedizierte Data Person (halbe oder ganze Stelle)

Ab dieser Phase lohnt sich ein dedizierter Data Engineer oder Analytics Engineer.

BigQuery einrichten -- Schritt für Schritt

BigQuery ist meine Empfehlung für die meisten Startups. Hier ist die Einrichtung:

Schritt 1: Google Cloud Projekt erstellen

Gehe zu console.cloud.google.com
Erstelle ein neues Projekt (z.B. "mein-startup-data")
Aktiviere die BigQuery API

Schritt 2: Dataset erstellen

-- In der BigQuery Console
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.raw_data`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.staging`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.analytics`;

Die drei Schemas trennen:

raw_data: Unbearbeitete Daten aus den Quellen
staging: Bereinigte und transformierte Daten
analytics: Fertige Tabellen für Dashboards und Analysen

Schritt 3: GA4-Daten exportieren

GA4 kann Daten direkt nach BigQuery exportieren:

In GA4: Verwaltung > BigQuery-Verknüpfung
Wähle dein BigQuery-Projekt
Aktiviere den täglichen Export

Das ist Gold wert: Du bekommst Rohdaten auf Event-Ebene, die du beliebig analysieren kannst -- weit über das hinaus, was die GA4-Oberfläche bietet.

Schritt 4: Weitere Datenquellen anbinden

Mit Airbyte verbindest du weitere Quellen:

# Airbyte Connection Konfiguration
source:
  type: stripe
  config:
    api_key: sk_live_xxx

destination:
  type: bigquery
  config:
    project_id: mein-startup-data
    dataset_id: raw_data

sync_frequency: every_6_hours

Event-Tracking-Architektur

Für deine eigenen Produktdaten brauchst du ein sauberes Event-Tracking-System:

Option A: Direkt an Mixpanel/Amplitude + BigQuery

App/Website --> Mixpanel --> Export nach BigQuery (via Airbyte)

Einfach, aber du bist abhängig von Mixpanel.

Option B: Event-Bus-Architektur

App/Website --> Segment/RudderStack --> Mixpanel
                                    --> BigQuery
                                    --> Amplitude

Flexibler: Du sendest Events einmal und sie werden an alle Tools verteilt.

Option C: Server-Side Tracking

App/Website --> Dein Server (API) --> BigQuery
                                  --> Mixpanel (optional)

Maximale Kontrolle, aber mehr Entwicklungsaufwand. Gut für datenschutzsensible Setups.

Datenqualität sicherstellen

Die beste Infrastruktur nützt nichts, wenn die Daten schlecht sind. Hier sind Strategien:

1. Schema-Validierung

Definiere, wie Events aussehen müssen, bevor sie gesendet werden:

// JSON Schema fuer ein Event
const eventSchema = {
  type: 'object',
  required: ['event_name', 'user_id', 'timestamp'],
  properties: {
    event_name: { type: 'string' },
    user_id: { type: 'string' },
    timestamp: { type: 'string', format: 'date-time' },
    properties: { type: 'object' }
  }
};

2. Automatische Tests mit dbt

-- dbt Test: Jeder Nutzer hat eine eindeutige ID
-- tests/unique_user_id.sql
SELECT user_id, COUNT(*)
FROM {{ ref('dim_users') }}
GROUP BY user_id
HAVING COUNT(*) > 1

3. Data Observability

Tools wie Monte Carlo, Elementary (Open Source) oder Great Expectations überwachen deine Daten automatisch:

Ist das Datenvolumen heute ungewöhnlich niedrig?
Gibt es plötzlich viele NULL-Werte?
Hat sich die Verteilung einer Metrik dramatisch verändert?

Kosten optimieren

BigQuery-Kosten im Griff

Nutze partitionierte Tabellen (nach Datum), um Abfragekosten zu senken
Verwende materialisierte Views für häufige Abfragen
Setze Budgetwarnungen in Google Cloud ein
Prüfe regelmässig die teuersten Abfragen

Allgemeine Tipps

Starte mit kostenlosen/Open-Source-Tools und upgrade nur bei Bedarf
Nutze Förderungen: Die aws und die Wirtschaftsagentur Burgenland fördern Digitalisierungsprojekte -- ein Data Warehouse kann darunter fallen
Vermeide Over-Engineering: Du brauchst kein Snowflake, wenn BigQuery reicht

Typische Fehler

Fehler 1: Zu früh zu komplex

Ein Data Warehouse im Pre-Seed-Stadium ist wie ein Ferrari für den Einkauf beim Hofer. Starte einfach.

Fehler 2: Kein Tracking-Plan

Ohne Tracking-Plan (siehe Product Analytics) landest du mit inkonsistenten Daten im Warehouse. Garbage in, garbage out.

Fehler 3: Keine Dokumentation

Wenn nur eine Person weiss, was die Tabelle stg_events_v3_final_FINAL enthält, hast du ein Problem. Nutze dbt docs oder ein Data Catalog.

Fehler 4: Datenschutz vergessen

Personenbezogene Daten im Data Warehouse brauchen besondere Behandlung. Pseudonymisierung, Zugriffskontrollen und Löschkonzepte sind Pflicht -- lies dazu unseren Data Privacy Artikel.

Der Weg nach vorne

Deine Daten-Infrastruktur wächst mit deinem Startup. Hier ist der typische Pfad:

Monat 1-6: GA4 + Mixpanel + Google Sheets
Monat 6-12: BigQuery + Airbyte + einfache dbt-Modelle
Jahr 1-2: Vollständiger Modern Data Stack + Dashboards
Jahr 2+: ML/AI, Predictive Analytics, Reverse ETL

Jeder Schritt baut auf dem vorherigen auf. Und mit jedem Schritt triffst du bessere Entscheidungen.

Zusammenfassung

Daten-Infrastruktur klingt einschüchternd, aber mit dem Modern Data Stack ist sie zugänglicher als je zuvor. Starte einfach, wachse mit deinem Startup und investiere in Datenqualität. Die Rendite -- bessere Entscheidungen, schnelleres Wachstum, zufriedenere Investoren -- ist enorm.

Du brauchst Hilfe bei deiner Daten-Infrastruktur? Bei Startup Burgenland beraten wir dich zur richtigen Architektur für deine Phase. Von der ersten Google-Sheets-Lösung bis zum skalierbaren Data Warehouse -- wir kennen den Weg.

Dieser Artikel ist Teil der Serie "Daten und Analytics" im Startup Burgenland Blog. Die Serie richtet sich an Gründerinnen und Gründer, die ihr Startup mit Daten auf das nächste Level bringen wollen.

Über den Autor: Felix Lenhard ist Program Director und Startup Coach bei Startup Burgenland. Zuvor Managing Director beim 360 Innovation Lab, Innovation Manager bei RHI Magnesita und Serial Entrepreneur mit internationalen Exits. Über 15 Jahre Erfahrung in Innovation und Unternehmensaufbau.

Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse

Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse

Wann brauchst du eine Daten-Infrastruktur?

Der Modern Data Stack

1. Datenquellen (Sources)

2. Daten-Ingestion (Extract & Load)

3. Data Warehouse (Store)

4. Transformation (Transform)

5. Analyse und Visualisierung (Analyze)

Architektur für verschiedene Startup-Phasen

Pre-Seed / Seed (0-10 Mitarbeiter, < EUR 500K Umsatz)

Seed / Series A (10-30 Mitarbeiter, EUR 500K-3M Umsatz)

Series A+ (30+ Mitarbeiter, > EUR 3M Umsatz)

BigQuery einrichten -- Schritt für Schritt

Schritt 1: Google Cloud Projekt erstellen

Schritt 2: Dataset erstellen

Schritt 3: GA4-Daten exportieren

Schritt 4: Weitere Datenquellen anbinden

Event-Tracking-Architektur

Option A: Direkt an Mixpanel/Amplitude + BigQuery

Option B: Event-Bus-Architektur

Option C: Server-Side Tracking

Datenqualität sicherstellen

1. Schema-Validierung

2. Automatische Tests mit dbt

3. Data Observability

Kosten optimieren

BigQuery-Kosten im Griff

Allgemeine Tipps

Typische Fehler

Fehler 1: Zu früh zu komplex

Fehler 2: Kein Tracking-Plan

Fehler 3: Keine Dokumentation

Fehler 4: Datenschutz vergessen

Der Weg nach vorne

Zusammenfassung

Erstgespräch vereinbaren