Zum Inhalt springen

Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse

Felix Lenhard 10 min Lesezeit
Zurück zum Blog

Daten-Infrastruktur für Startups -- Vom ersten Event bis zum Data Warehouse

Du hast Google Analytics 4 eingerichtet, Product Analytics läuft und du machst deine ersten A/B-Tests. Aber irgendwann merkst du: Deine Daten liegen in fünf verschiedenen Tools, du kannst sie nicht miteinander verbinden, und niemand im Team weiss, welche Zahlen stimmen. Willkommen in der Welt der Daten-Infrastruktur.

In diesem Artikel zeige ich dir, wie du als Startup eine skalierbare Daten-Infrastruktur aufbaust -- ohne gleich ein Data-Engineering-Team einstellen zu müssen.

Wann brauchst du eine Daten-Infrastruktur?

Nicht jedes Startup braucht sofort ein Data Warehouse. Hier sind die Anzeichen, dass es Zeit wird:

  • Du hast Daten in mehr als 3 verschiedenen Tools
  • Verschiedene Team-Mitglieder nennen verschiedene Zahlen für die gleiche Metrik
  • Du verbringst Stunden damit, Daten manuell in Spreadsheets zusammenzuführen
  • Dein CEO fragt nach einer Zahl und du brauchst einen halben Tag, um sie zu liefern
  • Du willst Daten aus verschiedenen Quellen kombinieren (z.B. Marketing + Produkt + Finanzen)

Wenn zwei oder mehr dieser Punkte auf dich zutreffen, lies weiter.

Der Modern Data Stack

Der "Modern Data Stack" ist ein Architekturmodell, das sich in den letzten Jahren als Standard etabliert hat. Es besteht aus fünf Schichten:

1. Datenquellen (Sources)

Das sind die Systeme, in denen deine Daten entstehen:

  • Produkt: Deine App, Website, API
  • Marketing: Google Ads, Facebook Ads, Mailchimp
  • Vertrieb: CRM (HubSpot, Pipedrive)
  • Finanzen: Buchhaltung (sevDesk, BMD), Stripe, PayPal
  • Support: Zendesk, Intercom, Freshdesk

2. Daten-Ingestion (Extract & Load)

Tools, die Daten aus den Quellen in dein Data Warehouse laden:

ToolPreisKonnektorenBeste für
Fivetranab ca. EUR 300/Monat300+Einfachheit
AirbyteOpen Source / Hosted350+Budget-bewusste
Stitchab ca. EUR 100/Monat100+Einstieg
Segmentab ca. EUR 120/Monat300+Event-Daten
MeltanoOpen Source300+Technische Teams

Empfehlung für österreichische Startups: Starte mit Airbyte (Open Source oder Cloud). Es ist kostengünstig, hat viele Konnektoren und die Community wächst rasant.

3. Data Warehouse (Store)

Das zentrale Lager für alle deine Daten:

WarehousePreisBeste für
BigQuery (Google)Pay-per-Query, sehr günstigGoogle-Ökosystem
SnowflakePay-per-UsageFlexibilität
Amazon Redshiftab ca. EUR 150/MonatAWS-Nutzer
PostgreSQLKostenlos (Self-hosted)Budget EUR 0
DuckDBKostenlos (lokal)Prototyping

Empfehlung: BigQuery ist für die meisten Startups die beste Wahl. Die ersten 1 TB pro Monat sind kostenlos, die Einrichtung ist einfach und es integriert sich perfekt mit Google Analytics 4 und Looker Studio.

4. Transformation (Transform)

Rohdaten sind selten direkt nutzbar. Du musst sie bereinigen, verknüpfen und in nützliche Formate bringen:

dbt (Data Build Tool) ist hier der unangefochtene Standard:

-- dbt Model: aktive_nutzer_pro_woche.sql
WITH events AS (
    SELECT
        user_id,
        DATE_TRUNC('week', event_timestamp) AS week,
        COUNT(*) AS event_count
    FROM {{ ref('stg_events') }}
    GROUP BY 1, 2
)

SELECT
    week,
    COUNT(DISTINCT user_id) AS weekly_active_users,
    AVG(event_count) AS avg_events_per_user
FROM events
GROUP BY 1
ORDER BY 1

dbt ermöglicht dir:

  • SQL-basierte Transformationen mit Versionskontrolle
  • Automatische Tests und Dokumentation
  • Wiederverwendbare Modelle
  • Scheduling über dbt Cloud oder Airflow

5. Analyse und Visualisierung (Analyze)

Die Schicht, in der Menschen mit den Daten arbeiten:

  • Dashboards: Looker Studio, Metabase, Preset (mehr dazu im BI-Tools-Artikel)
  • Ad-hoc-Analyse: SQL-Clients, Jupyter Notebooks
  • Reverse ETL: Daten zurück in operative Tools senden (z.B. Nutzer-Segmente an Mailchimp)

Architektur für verschiedene Startup-Phasen

Pre-Seed / Seed (0-10 Mitarbeiter, < EUR 500K Umsatz)

Google Analytics 4 -----> Google Looker Studio
Mixpanel (Free) --------> Mixpanel Dashboards
Stripe -----------------> Google Sheets
CRM --------------------> Google Sheets

Kosten: EUR 0 Aufwand: 1-2 Tage Einrichtung

In dieser Phase brauchst du kein Data Warehouse. Google Sheets als Bindeglied reicht völlig aus. Konzentriere dich auf die Grundlagen, die wir in unserem Einsteiger-Artikel beschrieben haben.

Seed / Series A (10-30 Mitarbeiter, EUR 500K-3M Umsatz)

Datenquellen --> Airbyte --> BigQuery --> dbt --> Looker Studio
                                                  Metabase

Kosten: EUR 100-300/Monat Aufwand: 1-2 Wochen Einrichtung

Jetzt wird es ernst. Du brauchst eine "Single Source of Truth" -- einen Ort, an dem alle Daten zusammenlaufen.

Series A+ (30+ Mitarbeiter, > EUR 3M Umsatz)

Datenquellen --> Fivetran/Airbyte --> Snowflake/BigQuery --> dbt --> Looker/Preset
                                                                     Reverse ETL
                                         |
                                    ML/AI Modelle

Kosten: EUR 500-2.000/Monat Aufwand: Dedizierte Data Person (halbe oder ganze Stelle)

Ab dieser Phase lohnt sich ein dedizierter Data Engineer oder Analytics Engineer.

BigQuery einrichten -- Schritt für Schritt

BigQuery ist meine Empfehlung für die meisten Startups. Hier ist die Einrichtung:

Schritt 1: Google Cloud Projekt erstellen

  1. Gehe zu console.cloud.google.com
  2. Erstelle ein neues Projekt (z.B. "mein-startup-data")
  3. Aktiviere die BigQuery API

Schritt 2: Dataset erstellen

-- In der BigQuery Console
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.raw_data`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.staging`;
CREATE SCHEMA IF NOT EXISTS `mein-startup-data.analytics`;

Die drei Schemas trennen:

  • raw_data: Unbearbeitete Daten aus den Quellen
  • staging: Bereinigte und transformierte Daten
  • analytics: Fertige Tabellen für Dashboards und Analysen

Schritt 3: GA4-Daten exportieren

GA4 kann Daten direkt nach BigQuery exportieren:

  1. In GA4: Verwaltung > BigQuery-Verknüpfung
  2. Wähle dein BigQuery-Projekt
  3. Aktiviere den täglichen Export

Das ist Gold wert: Du bekommst Rohdaten auf Event-Ebene, die du beliebig analysieren kannst -- weit über das hinaus, was die GA4-Oberfläche bietet.

Schritt 4: Weitere Datenquellen anbinden

Mit Airbyte verbindest du weitere Quellen:

# Airbyte Connection Konfiguration
source:
  type: stripe
  config:
    api_key: sk_live_xxx

destination:
  type: bigquery
  config:
    project_id: mein-startup-data
    dataset_id: raw_data

sync_frequency: every_6_hours

Event-Tracking-Architektur

Für deine eigenen Produktdaten brauchst du ein sauberes Event-Tracking-System:

Option A: Direkt an Mixpanel/Amplitude + BigQuery

App/Website --> Mixpanel --> Export nach BigQuery (via Airbyte)

Einfach, aber du bist abhängig von Mixpanel.

Option B: Event-Bus-Architektur

App/Website --> Segment/RudderStack --> Mixpanel
                                    --> BigQuery
                                    --> Amplitude

Flexibler: Du sendest Events einmal und sie werden an alle Tools verteilt.

Option C: Server-Side Tracking

App/Website --> Dein Server (API) --> BigQuery
                                  --> Mixpanel (optional)

Maximale Kontrolle, aber mehr Entwicklungsaufwand. Gut für datenschutzsensible Setups.

Datenqualität sicherstellen

Die beste Infrastruktur nützt nichts, wenn die Daten schlecht sind. Hier sind Strategien:

1. Schema-Validierung

Definiere, wie Events aussehen müssen, bevor sie gesendet werden:

// JSON Schema fuer ein Event
const eventSchema = {
  type: 'object',
  required: ['event_name', 'user_id', 'timestamp'],
  properties: {
    event_name: { type: 'string' },
    user_id: { type: 'string' },
    timestamp: { type: 'string', format: 'date-time' },
    properties: { type: 'object' }
  }
};

2. Automatische Tests mit dbt

-- dbt Test: Jeder Nutzer hat eine eindeutige ID
-- tests/unique_user_id.sql
SELECT user_id, COUNT(*)
FROM {{ ref('dim_users') }}
GROUP BY user_id
HAVING COUNT(*) > 1

3. Data Observability

Tools wie Monte Carlo, Elementary (Open Source) oder Great Expectations überwachen deine Daten automatisch:

  • Ist das Datenvolumen heute ungewöhnlich niedrig?
  • Gibt es plötzlich viele NULL-Werte?
  • Hat sich die Verteilung einer Metrik dramatisch verändert?

Kosten optimieren

BigQuery-Kosten im Griff

  • Nutze partitionierte Tabellen (nach Datum), um Abfragekosten zu senken
  • Verwende materialisierte Views für häufige Abfragen
  • Setze Budgetwarnungen in Google Cloud ein
  • Prüfe regelmässig die teuersten Abfragen

Allgemeine Tipps

  • Starte mit kostenlosen/Open-Source-Tools und upgrade nur bei Bedarf
  • Nutze Förderungen: Die aws und die Wirtschaftsagentur Burgenland fördern Digitalisierungsprojekte -- ein Data Warehouse kann darunter fallen
  • Vermeide Over-Engineering: Du brauchst kein Snowflake, wenn BigQuery reicht

Typische Fehler

Fehler 1: Zu früh zu komplex

Ein Data Warehouse im Pre-Seed-Stadium ist wie ein Ferrari für den Einkauf beim Hofer. Starte einfach.

Fehler 2: Kein Tracking-Plan

Ohne Tracking-Plan (siehe Product Analytics) landest du mit inkonsistenten Daten im Warehouse. Garbage in, garbage out.

Fehler 3: Keine Dokumentation

Wenn nur eine Person weiss, was die Tabelle stg_events_v3_final_FINAL enthält, hast du ein Problem. Nutze dbt docs oder ein Data Catalog.

Fehler 4: Datenschutz vergessen

Personenbezogene Daten im Data Warehouse brauchen besondere Behandlung. Pseudonymisierung, Zugriffskontrollen und Löschkonzepte sind Pflicht -- lies dazu unseren Data Privacy Artikel.

Der Weg nach vorne

Deine Daten-Infrastruktur wächst mit deinem Startup. Hier ist der typische Pfad:

  1. Monat 1-6: GA4 + Mixpanel + Google Sheets
  2. Monat 6-12: BigQuery + Airbyte + einfache dbt-Modelle
  3. Jahr 1-2: Vollständiger Modern Data Stack + Dashboards
  4. Jahr 2+: ML/AI, Predictive Analytics, Reverse ETL

Jeder Schritt baut auf dem vorherigen auf. Und mit jedem Schritt triffst du bessere Entscheidungen.

Zusammenfassung

Daten-Infrastruktur klingt einschüchternd, aber mit dem Modern Data Stack ist sie zugänglicher als je zuvor. Starte einfach, wachse mit deinem Startup und investiere in Datenqualität. Die Rendite -- bessere Entscheidungen, schnelleres Wachstum, zufriedenere Investoren -- ist enorm.


Du brauchst Hilfe bei deiner Daten-Infrastruktur? Bei Startup Burgenland beraten wir dich zur richtigen Architektur für deine Phase. Von der ersten Google-Sheets-Lösung bis zum skalierbaren Data Warehouse -- wir kennen den Weg.

Dieser Artikel ist Teil der Serie "Daten und Analytics" im Startup Burgenland Blog. Die Serie richtet sich an Gründerinnen und Gründer, die ihr Startup mit Daten auf das nächste Level bringen wollen.

Über den Autor: Felix Lenhard ist Program Director und Startup Coach bei Startup Burgenland. Zuvor Managing Director beim 360 Innovation Lab, Innovation Manager bei RHI Magnesita und Serial Entrepreneur mit internationalen Exits. Über 15 Jahre Erfahrung in Innovation und Unternehmensaufbau.

Erstgespräch vereinbaren

Du überlegst zu gründen oder bist schon mittendrin? Schreib uns ein formloses E-Mail -- wir melden uns innerhalb weniger Tage.

E-Mail schreiben