Zum Inhalt springen

Predictive Analytics für Startups -- Daten für die Zukunft nutzen

Felix Lenhard 10 min Lesezeit
Zurück zum Blog

Predictive Analytics für Startups -- Daten für die Zukunft nutzen

Bisher haben wir in dieser Serie geschaut, was passiert ist (descriptive Analytics) und warum es passiert ist (diagnostic Analytics). Jetzt machen wir den nächsten Schritt: Was wird passieren? Predictive Analytics nutzt historische Daten und statistische Modelle, um Vorhersagen zu treffen -- und du brauchst dafür kein Data-Science-Team mit Doktortitel.

Was ist Predictive Analytics?

Predictive Analytics nutzt historische Daten, statistische Algorithmen und Machine Learning, um zukünftige Ereignisse vorherzusagen. Für Startups bedeutet das:

  • Churn Prediction: Welche Kunden werden kündigen?
  • Lead Scoring: Welche Leads werden am wahrscheinlichsten kaufen?
  • Demand Forecasting: Wie viel Umsatz machst du nächsten Monat?
  • Lifetime Value Prediction: Wie viel ist ein neuer Kunde langfristig wert?
  • Feature Impact: Welche Features werden die Retention am meisten verbessern?

Die Analytics-Pyramide

        /\
       /  \
      / AI \        <- Prescriptive: Was sollen wir tun?
     /------\
    / Predict\      <- Predictive: Was wird passieren?
   /----------\
  / Diagnostic \    <- Diagnostic: Warum ist es passiert?
 /--------------\
/ Descriptive    \  <- Descriptive: Was ist passiert?
------------------

Die meisten Startups sind noch auf der Descriptive-Stufe -- mit GA4, Product Analytics und Dashboards. Predictive Analytics ist der nächste logische Schritt.

Wann ist Predictive Analytics sinnvoll?

Nicht jedes Startup braucht Predictive Analytics sofort. Voraussetzungen:

Mindestanforderungen

  • Daten: Mindestens 6 Monate historische Daten
  • Volumen: Mindestens 1.000 Datenpunkte für das zu vorhersagende Ereignis
  • Infrastruktur: Ein Data Warehouse oder zumindest eine strukturierte Datenhaltung
  • Fragestellung: Eine klare Frage, die du beantworten willst

Typische Startpunkte

Use CaseMindestdatenTypische GenauigkeitBusiness Impact
Churn Prediction500+ Kündigungen70-85%Hoch
Lead Scoring200+ abgeschlossene Deals65-80%Hoch
Umsatzprognose12+ Monate Umsatzdaten80-95%Mittel
CLV Prediction6+ Monate Kundendaten60-75%Hoch

Predictive Analytics ohne Data Science Team

Die gute Nachricht: Du brauchst nicht zwingend Machine Learning Experten. Viele Vorhersagen lassen sich mit einfacheren Methoden treffen.

Level 1: Excel/Google Sheets

Ja, du kannst Predictive Analytics in einem Spreadsheet machen:

Einfache Umsatzprognose mit linearer Regression:

  1. Trage deine monatlichen Umsätze in eine Spalte ein
  2. Nutze die TREND()-Funktion für eine lineare Prognose
  3. Oder nutze die FORECAST()-Funktion für einzelne Vorhersagen
=FORECAST(Zielpunkt; bekannte_Y_Werte; bekannte_X_Werte)

Einfacher Churn-Score:

Erstelle ein Scoring-Modell basierend auf Risikofaktoren:

RisikofaktorPunkte
Kein Login seit 7 Tagen+3
Kein Login seit 14 Tagen+5
Support-Ticket offen+2
Kreditkarte läuft ab+4
Weniger als 3 Features genutzt+2
Unter 2 Team-Mitglieder+1

Score 0-3: Niedrig Score 4-7: Mittel Score 8+: Hoch -- sofort handeln!

Level 2: SQL + einfache Statistik

Mit SQL kannst du direkt in deinem Data Warehouse Vorhersagen treffen:

Churn-Wahrscheinlichkeit basierend auf Nutzungsmustern:

-- Churn-Risiko basierend auf Aktivitaet der letzten 30 Tage
WITH user_activity AS (
    SELECT
        user_id,
        COUNT(DISTINCT DATE(event_timestamp)) AS active_days_30d,
        COUNT(*) AS total_events_30d,
        MAX(event_timestamp) AS last_active,
        DATE_DIFF(CURRENT_DATE(), MAX(DATE(event_timestamp)), DAY) AS days_since_active
    FROM events
    WHERE event_timestamp >= DATE_SUB(CURRENT_DATE(), INTERVAL 30 DAY)
    GROUP BY user_id
),

historical_churn AS (
    -- Historische Churn-Rate nach Aktivitaetslevel
    SELECT
        CASE
            WHEN active_days_30d >= 20 THEN 'power_user'
            WHEN active_days_30d >= 10 THEN 'regular'
            WHEN active_days_30d >= 3 THEN 'occasional'
            ELSE 'at_risk'
        END AS user_segment,
        AVG(CASE WHEN churned = true THEN 1.0 ELSE 0.0 END) AS churn_rate
    FROM user_activity_history
    GROUP BY 1
)

SELECT
    ua.user_id,
    ua.active_days_30d,
    ua.days_since_active,
    hc.user_segment,
    hc.churn_rate AS predicted_churn_probability
FROM user_activity ua
JOIN historical_churn hc
    ON CASE
        WHEN ua.active_days_30d >= 20 THEN 'power_user'
        WHEN ua.active_days_30d >= 10 THEN 'regular'
        WHEN ua.active_days_30d >= 3 THEN 'occasional'
        ELSE 'at_risk'
    END = hc.user_segment
ORDER BY predicted_churn_probability DESC

Customer Lifetime Value Berechnung:

-- Einfache CLV-Berechnung
SELECT
    acquisition_channel,
    AVG(total_revenue) AS avg_revenue_per_customer,
    AVG(customer_lifetime_months) AS avg_lifetime_months,
    AVG(total_revenue) / NULLIF(AVG(customer_lifetime_months), 0)
        AS monthly_value,
    -- Projizierter CLV (angenommen 36 Monate durchschnittliche Lebensdauer)
    (AVG(total_revenue) / NULLIF(AVG(customer_lifetime_months), 0)) * 36
        AS projected_clv_36m
FROM customer_summary
GROUP BY acquisition_channel
ORDER BY projected_clv_36m DESC

Level 3: Python / Machine Learning

Für fortgeschrittenere Vorhersagen kommt Python ins Spiel:

Churn Prediction mit scikit-learn:

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Daten laden (aus BigQuery exportiert)
df = pd.read_csv('user_features.csv')

# Features definieren
features = [
    'active_days_30d',
    'total_events_30d',
    'features_used',
    'days_since_signup',
    'support_tickets',
    'team_size'
]

X = df[features]
y = df['churned']  # 1 = gekuendigt, 0 = aktiv

# Train/Test Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Modell trainieren
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Evaluieren
predictions = model.predict(X_test)
print(classification_report(y_test, predictions))

# Feature Importance -- welche Faktoren sind am wichtigsten?
for feature, importance in sorted(
    zip(features, model.feature_importances_),
    key=lambda x: x[1],
    reverse=True
):
    print(f"{feature}: {importance:.3f}")

Level 4: Managed ML Services

Für Startups, die Machine Learning nutzen wollen, ohne Experten einzustellen:

ServicePreisBeste für
BigQuery MLPay-per-QuerySQL-basiertes ML
Google AutoMLab ca. EUR 20/StundeKlassifikation, Prognose
Amazon SageMaker AutopilotPay-per-UsageAWS-Nutzer
MindsDBOpen SourceSQL-natives ML

BigQuery ML Beispiel:

-- Churn-Modell direkt in SQL trainieren
CREATE OR REPLACE MODEL `analytics.churn_model`
OPTIONS(
    model_type='LOGISTIC_REG',
    input_label_cols=['churned']
) AS
SELECT
    active_days_30d,
    total_events_30d,
    features_used,
    days_since_signup,
    support_tickets,
    team_size,
    churned
FROM `analytics.user_features_training`;

-- Vorhersagen fuer aktive Nutzer
SELECT
    user_id,
    predicted_churned,
    predicted_churned_probs[OFFSET(1)].prob AS churn_probability
FROM ML.PREDICT(
    MODEL `analytics.churn_model`,
    (SELECT * FROM `analytics.current_users`)
)
ORDER BY churn_probability DESC;

Praxisbeispiele für österreichische Startups

Beispiel 1: SaaS-Startup -- Churn verhindern

Ein Grazer SaaS-Startup für Gastronomie-Management hat eine Churn Rate von 5% pro Monat. Mit Predictive Analytics:

  1. Daten sammeln: Login-Häufigkeit, Feature-Nutzung, Support-Tickets, Zahlungsverhalten
  2. Modell trainieren: Random Forest auf historischen Churn-Daten
  3. Ergebnis: 78% der Kündigungen werden 2 Wochen im Voraus erkannt
  4. Aktion: At-Risk-Kunden bekommen einen persönlichen Anruf vom Customer Success Team
  5. Impact: Churn Rate sinkt von 5% auf 3.5% -- das sind bei 200 Kunden a EUR 100/Monat zusätzliche EUR 3.600 MRR

Beispiel 2: E-Commerce -- Umsatzprognose

Ein burgenländischer Online-Shop für regionale Produkte nutzt einfache Zeitreihenanalyse:

  1. Daten: 24 Monate tägliche Umsätze
  2. Modell: Saisonale Zerlegung in Google Sheets
  3. Ergebnis: Umsatzprognose für die nächsten 3 Monate mit 85% Genauigkeit
  4. Aktion: Bessere Bestandsplanung, weniger Überbestellungen
  5. Impact: EUR 15.000 weniger gebundenes Kapital pro Quartal

Beispiel 3: Marketplace -- Lead Scoring

Eine Wiener Plattform für Handwerker nutzt Lead Scoring:

  1. Daten: 1.500 abgeschlossene und 3.000 verlorene Leads
  2. Modell: Logistische Regression auf Lead-Eigenschaften
  3. Ergebnis: Top-20%-Leads haben eine 5x höhere Abschlusswahrscheinlichkeit
  4. Aktion: Sales-Team konzentriert sich auf High-Score-Leads
  5. Impact: Conversion Rate steigt von 8% auf 14%, gleicher Aufwand

Von Prediction zu Action

Vorhersagen allein sind wertlos. Der Wert entsteht durch Handlungen:

Automatische Interventionen

Churn Score > 0.7  -->  Automatische E-Mail: "Koennen wir dir helfen?"
Churn Score > 0.8  -->  Slack-Benachrichtigung an Customer Success
Churn Score > 0.9  -->  Aufgabe fuer Account Manager: Persoenlicher Anruf

Reverse ETL

Sende Vorhersagen zurück in deine operativen Tools:

BigQuery (Churn Score) --> Reverse ETL --> HubSpot (Lead Property)
                                      --> Intercom (User Tag)
                                      --> Slack (Alert)

Tools wie Census, Hightouch oder Rudderstack machen das einfach.

Dashboard für Predictions

Erstelle ein spezielles Dashboard in deinem BI-Tool:

  • Churn-Risiko-Übersicht: Wie viele Kunden sind at-risk?
  • Umsatzprognose: Erwarteter MRR nächsten Monat
  • Lead Pipeline: Erwarteter Umsatz aus aktuellen Leads
  • Modell-Performance: Wie genau waren die letzten Vorhersagen?

Datenbasierte Fehlentscheidungen

Fehler 1: Overfitting

Dein Modell ist perfekt auf historische Daten, aber schlecht bei neuen Daten. Lösung: Immer einen Test-Datensatz zurückhalten und Cross-Validation nutzen.

Fehler 2: Zu wenig Daten

Machine Learning braucht Daten. Wenn du nur 50 Kündigungen hattest, trainiere kein ML-Modell. Nutze stattdessen regelbasierte Ansätze (Level 1-2).

Fehler 3: Bias in den Daten

Deine historischen Daten spiegeln deine vergangenen Entscheidungen wider. Wenn du bisher nur bestimmte Lead-Typen kontaktiert hast, weiss dein Modell nichts über die anderen.

Fehler 4: Keine Feedback-Schleife

Prüfe regelmässig, ob deine Vorhersagen stimmen. Wenn die Realität abweicht, trainiere das Modell neu.

Fehler 5: Datenschutz ignorieren

Personalisierte Vorhersagen basieren auf personenbezogenen Daten. Stelle sicher, dass du die DSGVO einhaltst -- insbesondere bei automatisierten Entscheidungen (Art. 22 DSGVO).

Der Weg zu Predictive Analytics

Hier ist dein Fahrplan:

Monat 1-2: Regelbasierte Scores in Google Sheets

  • Churn-Risiko-Score basierend auf Aktivität
  • Einfache Umsatzprognose mit TREND()

Monat 3-6: SQL-basierte Analysen

  • Kohortenbasierte Churn-Wahrscheinlichkeiten
  • CLV-Berechnung nach Segment
  • Lead Scoring basierend auf historischen Daten

Monat 6-12: Erste ML-Modelle

  • BigQuery ML für einfache Modelle
  • Python-Skripte für spezifische Use Cases
  • Automatische Alerts und Interventionen

Jahr 1+: Skalierung

  • Automatisiertes Modell-Training
  • A/B-Tests der Interventionen (siehe A/B-Testing)
  • Erweiterung auf neue Use Cases

Zusammenfassung

Predictive Analytics klingt nach Zukunftsmusik, ist aber für viele Startups schon heute erreichbar. Du brauchst kein Data-Science-Team -- starte mit einfachen Methoden und werde schrittweise anspruchsvoller. Der Schlüssel ist: Mache aus Vorhersagen Handlungen. Denn eine Vorhersage, die in einem Dashboard verstaubt, ist wertlos.

Im letzten Artikel unserer Serie schauen wir uns an, wie du eine Datenkultur in deinem Team etablierst -- denn die besten Tools und Modelle nützen nichts, wenn dein Team sie nicht nutzt.


Du willst Predictive Analytics in deinem Startup einsetzen? Bei Startup Burgenland beraten wir dich zum richtigen Einstieg -- von einfachen Scoring-Modellen bis zu Machine Learning. Sprich uns an!

Dieser Artikel ist Teil der Serie "Daten und Analytics" im Startup Burgenland Blog. Die Serie richtet sich an Gründerinnen und Gründer, die ihr Startup mit Daten auf das nächste Level bringen wollen.

Über den Autor: Felix Lenhard ist Program Director und Startup Coach bei Startup Burgenland. Zuvor Managing Director beim 360 Innovation Lab, Innovation Manager bei RHI Magnesita und Serial Entrepreneur mit internationalen Exits. Über 15 Jahre Erfahrung in Innovation und Unternehmensaufbau.

Erstgespräch vereinbaren

Du überlegst zu gründen oder bist schon mittendrin? Schreib uns ein formloses E-Mail -- wir melden uns innerhalb weniger Tage.

E-Mail schreiben