⚠️ Hybrid Zuletzt geprüft: Juni 2026

MediaPipe

Google

4/5

Googles Open-Source-Framework für [Computer Vision](/glossar/#computer-vision) und On-Device-Machine-Learning. Erkennt in Echtzeit Körperhaltung, Hände, Gesichter und Gesten, läuft lokal auf CPU, GPU, Mobilgeräten und im Browser, ohne Cloud-Abhängigkeit und ohne API-Kosten. Seit dem Umbau zur einheitlichen Tasks-API unter dem Dach von Google AI Edge deckt MediaPipe auch Text, Audio und On-Device-LLM-Inferenz ab.

Kosten: Vollständig kostenlos, Open Source (Code unter Apache 2.0, Doku unter CC BY 4.0). Keine API- oder Lizenzkosten. Rechenkosten für eigene CPU/GPU/Edge-Hardware trägt man selbst.

Kategorien

Computer Vision Machine Learning

Stärken

Vollständig kostenlos und Open Source (Code Apache 2.0)
Läuft lokal, Videorohdaten verlassen das Gerät nicht
Echtzeit-fähig auf normaler Hardware (CPU reicht für viele Anwendungen)
Vortrainierte Modelle für Pose (33 Landmarks), Hände (21 pro Hand), Gesicht (478 Landmarks), Gesten
Breite Plattformunterstützung: Python, C++, Android, iOS, Web (JavaScript/WASM)
Model Maker und MediaPipe Studio zum Anpassen und Benchmarken eigener Modelle

Einschränkungen

Erfordert Entwicklerkenntnisse, kein vollwertiges No-Code-GUI, MediaPipe Studio ist nur zum Testen
Vortrainierte Modelle decken Standardszenarien ab; spezielle Aktivitäten brauchen eigenes Training via Model Maker
Genauigkeit bei Kindern, kleinen Körpern und Verdeckungen schlechter als bei erwachsenen Referenzposen
Kein integriertes Dashboard oder Auswertungsmodul, Datenanalyse und Visualisierung muss man selbst bauen
Kein deutschsprachiger Support, keine deutsche Doku, kein offizieller Enterprise-Support
Die ältere Legacy-Solutions-API (mp.solutions) ist abgekündigt, Migration auf die Tasks-API nötig

Passt gut zu

Forschungsprojekte mit Körperhaltungsanalyse und Bewegungserkennung Prototypen für Verhaltens-, Gesten- und Bewegungsanalyse ohne API-Kosten Datenschutzsensible Umgebungen, in denen Videorohdaten lokal bleiben müssen Integration in bestehende Python-, Mobile- oder Web-Pipelines für ML-Projekte

Kurzfazit

MediaPipe ist das Standardwerkzeug für Echtzeit-Computer-Vision, das komplett lokal läuft, ohne Cloud, ohne API-Kosten, ohne dass ein einziges Videobild das Gerät verlässt. Wer Körperhaltung, Hände, Gesichter oder Gesten erkennen will und dabei volle Kontrolle über die Daten behalten muss, findet hier vortrainierte Modelle, die auf einer normalen CPU in Echtzeit arbeiten. Genau das ist seine Stärke: datenschutzfreundlich, kostenlos, breit auf Python, Mobile und Web verfügbar. Seine Grenze ist genauso klar, es ist ein Entwickler-Framework, kein fertiges Produkt. Es gibt kein No-Code-Interface, kein Auswertungs-Dashboard, keinen deutschen Support. Wer programmieren kann, bekommt eines der besten Open-Source-CV-Toolkits überhaupt. Wer eine schlüsselfertige Lösung sucht, ist hier falsch.

Für wen ist MediaPipe?

Forschung & Wissenschaft: Wer Bewegung, Körperhaltung oder Gestik quantifizieren will, in Sportwissenschaft, Physiotherapie, Psychologie, Mensch-Maschine-Interaktion, bekommt mit MediaPipe reproduzierbare Landmark-Daten, ohne teure Motion-Capture-Anlagen. Die 33 Pose-Landmarks pro Frame lassen sich direkt in Python weiterverarbeiten.

Entwickler & ML-Teams: MediaPipe integriert sich sauber in bestehende Python- oder C++-Pipelines und läuft als Tasks-API einheitlich über Android, iOS und Web. Für Prototypen und Produktintegrationen, die Echtzeit-CV brauchen, ist es oft der schnellste Weg von der Idee zur lauffähigen Demo.

Startups & Produktentwicklung: Fitness-Apps mit Haltungskorrektur, Gesten-Steuerung, virtuelle Anproben, Barrierefreiheits-Werkzeuge, überall, wo Kamera-Input in Echtzeit interpretiert werden soll und API-Kosten pro Aufruf den Business-Case kaputtmachen würden, ist On-Device-Inferenz mit MediaPipe ein echter Hebel.

Datenschutzsensible Projekte: Weil die Verarbeitung lokal stattfindet, ist MediaPipe für Anwendungen mit Videodaten (Patienten, Mitarbeitende, Kinder) deutlich einfacher DSGVO-konform zu betreiben als jede Cloud-API. Keine Übermittlung an Dritte, keine Server in den USA.

Weniger geeignet für: Anwender ohne Programmierkenntnisse (es gibt kein produktives No-Code-GUI), Teams, die ein fertiges Analyse-Dashboard erwarten, Unternehmen, die offiziellen Support mit SLA und deutschem Ansprechpartner brauchen, und alle, die hochpräzise medizinische oder forensische Messungen benötigen, dafür sind kalibrierte Spezialsysteme die richtige Wahl.

Preise im Detail

Plan	Preis	Was du bekommst
MediaPipe (Open Source)	0 €	Alle Tasks (Vision, Text, Audio, Generative AI), alle vortrainierten Modelle, Model Maker, MediaPipe Studio, sämtliche Plattform-SDKs
Eigene Infrastruktur	variabel	Rechenkosten für CPU/GPU/Edge-Hardware, die du selbst betreibst, fällt nur an, wenn du in der Cloud rechnest statt lokal
Offizieller Support	nicht verfügbar	Es gibt keinen kostenpflichtigen Support- oder Enterprise-Tarif; Hilfe kommt über GitHub-Issues, Doku und Community

Einordnung: MediaPipe ist im Wortsinn kostenlos, kein Freemium, kein versteckter Cloud-Zwang, keine Token-Abrechnung. Der Code steht unter Apache 2.0, die Dokumentation unter Creative Commons. Die einzigen Kosten, die entstehen, sind die für Hardware oder Cloud-Rechenzeit, die du ohnehin selbst kontrollierst, und weil die Inferenz lokal läuft, kann man sie auf einem vorhandenen Laptop oder Smartphone praktisch auf null drücken. Der Preis, den man stattdessen zahlt, ist Entwicklungszeit: Es gibt keinen Hersteller-Support, keine SLA, kein Onboarding. Wer Programmieraufwand und Eigenbetrieb einkalkuliert, bekommt eines der wirtschaftlichsten CV-Werkzeuge am Markt.

Stärken im Detail

Lokale Verarbeitung ist das Alleinstellungsmerkmal. Anders als Cloud-CV-Dienste (AWS Rekognition, Google Cloud Vision, Azure) schickt MediaPipe keine Bilder an einen Server. Die gesamte Erkennung läuft auf dem Gerät, auf dem Laptop, dem Smartphone, im Browser per WebAssembly. Das löst zwei Probleme auf einmal: keine laufenden API-Kosten und keine datenschutzrechtliche Grauzone, weil personenbezogene Videodaten das System nie verlassen.

Echtzeit auf Alltags-Hardware. MediaPipe wurde von Anfang an auf Effizienz getrimmt. Die Pose-, Hand- und Gesichtsmodelle laufen flüssig auf einer normalen CPU, GPU-Beschleunigung ist optional. Selbst ein Mittelklasse-Smartphone schafft Echtzeit-Tracking, das ist der Grund, warum die Technik in unzähligen Apps steckt.

Reichhaltige vortrainierte Modelle. Pose Landmarker liefert 33 Körperpunkte, der Hand Landmarker 21 Punkte pro Hand, der Face Landmarker bis zu 478 Gesichtspunkte, dazu kommen Gestenerkennung, Objekterkennung, Bildsegmentierung und Holistic-Tracking (Körper, Hände und Gesicht gleichzeitig). Für die meisten Standardanwendungen muss man kein eigenes Modell trainieren.

Echte Cross-Plattform-Einheitlichkeit. Mit der Tasks-API ist derselbe Anwendungsfall in Python, C++, Android (Kotlin/Java), iOS (Swift) und Web (JavaScript) mit nahezu identischer Logik umsetzbar. Ein Prototyp in Python lässt sich später ohne konzeptionellen Bruch auf eine Mobile-App übertragen.

Anpassbar über Model Maker. Wer die vortrainierten Modelle nicht ausreichend findet, kann mit MediaPipe Model Maker eigene Daten einspielen und Modelle für spezifische Gesten, Objekte oder Klassifikationen nachtrainieren, ohne ML-Architektur von Grund auf bauen zu müssen. MediaPipe Studio erlaubt es, Modelle im Browser zu visualisieren und zu benchmarken, bevor man sie produktiv einsetzt.

Breiter Funktionsumfang unter Google AI Edge. Seit dem Umbau ist MediaPipe nicht mehr nur Vision: Es deckt auch Text (Klassifikation, Embedding, Spracherkennung), Audio (Klassifikation) und generative KI (On-Device-LLM-Inferenz, RAG, Function Calling) ab. Damit lässt sich auf einem Gerät eine komplette ML-Kette bauen, ohne je in die Cloud zu gehen.

Schwächen ehrlich betrachtet

Kein produktives No-Code-Werkzeug. MediaPipe Studio klingt nach einem GUI, ist aber nur eine Test- und Benchmark-Oberfläche im Browser. Für eine echte Anwendung musst du Code schreiben, Python mindestens, für Mobile und Web entsprechend Kotlin/Swift/JavaScript. Wer nicht programmieren kann, kommt mit MediaPipe nicht weit. Workaround: Es gibt fertige Beispiel-Skripte, die man als Startpunkt nimmt; trotzdem bleibt Eigenentwicklung Pflicht.

Genauigkeit ist nicht für jeden Fall gut genug. Die Modelle sind auf typische Szenen mit gut sichtbaren erwachsenen Körpern optimiert. Bei Kindern, kleinen oder weit entfernten Personen, starker Verdeckung, schlechtem Licht oder ungewöhnlichen Perspektiven sinkt die Erkennungsqualität spürbar. Für medizinische, sportwissenschaftliche oder forensische Präzisionsmessungen ist MediaPipe nicht kalibriert, Ergebnisse müssen kritisch geprüft werden.

Du baust die halbe Lösung selbst. MediaPipe liefert Roh-Landmarks pro Frame. Was du daraus machst, Zeitreihenanalyse, Schwellenwerte, Visualisierung, Speicherung, Auswertung, musst du komplett selbst entwickeln (typischerweise mit Pandas, NumPy, OpenCV). Es gibt kein Dashboard, keine fertigen Reports, keine Datenbankanbindung. Das ist viel Arbeit zwischen “Landmark erkannt” und “verwertbares Ergebnis”.

Legacy-API abgekündigt. Die früher weit verbreitete mediapipe.solutions-API (z. B. mp.solutions.pose) gilt als veraltet, Google hat den Support für die Legacy Solutions zum 1. März 2023 beendet und entwickelt sie nicht mehr weiter. Wer alte Tutorials oder Code aus 2021–2023 verwendet, läuft in Deprecation-Warnungen und muss auf die neue Tasks-API migrieren. Das erschwert den Einstieg, weil viel kursierende Anleitung veraltet ist.

Kein Support, keine Garantie. Als Open-Source-Projekt gibt es keinen Hersteller-Support mit Reaktionszeiten. Probleme klärt man über GitHub-Issues und die Community. Für ein produktkritisches System ist das ein reales Risiko, niemand haftet, niemand garantiert Weiterentwicklung. Google hat einzelne Komponenten in der Vergangenheit umgebaut oder eingestellt; Verlass ist die Roadmap nicht.

Alternativen im Vergleich

Wenn du…	…nimm stattdessen
Bilder generieren oder bearbeiten statt analysieren willst
Eine reine Cloud-API ohne eigene Hardware willst	(siehe Hinweis unten)
Tiefe Sprach-/Textanalyse statt Vision brauchst

Im Computer-Vision-Bereich hat MediaPipe wenige direkte Open-Source-Pendants mit eigener Tool-Seite bei uns. Erwähnenswert ohne eigene Seite: OpenPose (forschungsnahe Pose Estimation, deutlich rechenhungriger und mit restriktiverer Lizenz), YOLO / Ultralytics (Objekterkennung und Pose, ebenfalls Open Source, breiter im Objektkontext), OpenCV (klassische CV-Bibliothek, oft als Ergänzung statt Ersatz genutzt) sowie die Cloud-Dienste Google Cloud Vision, AWS Rekognition und Azure AI Vision, letztere nehmen einem den Eigenbetrieb ab, kosten aber pro Aufruf und schicken Bilder an US-Server. MediaPipes Nische ist die Kombination aus lokal, kostenlos und echtzeitfähig, genau dort schlägt es die Cloud-Anbieter, während es bei reiner Maximalgenauigkeit gegen spezialisierte Forschungsmodelle zurückfällt.

So steigst du ein

Schritt 1: MediaPipe über pip installieren: pip install mediapipe. Kein Konto, keine API-Keys, kein Cloud-Setup. Die vortrainierten Modell-Dateien (.task) lädst du einmalig aus der Modell-Übersicht der Doku herunter und legst sie lokal ab.

Schritt 2: Mit dem Pose Landmarker der Tasks-API beginnen (nicht der alten mp.solutions-API!). Die offizielle Dokumentation enthält lauffähige Python-Beispiele für Einzelbilder, Videodateien und Live-Webcam-Streams. Ein erster Test mit eigenem Material läuft in rund 30 Minuten.

Schritt 3: Die erkannten Landmarks pro Frame in ein DataFrame oder CSV schreiben und mit Pandas/NumPy auswerten, etwa Bewegungsfrequenz, Haltungsänderungen oder Schwellenwert-Ereignisse über die Zeit. Hier beginnt die eigentliche Eigenentwicklung: MediaPipe liefert die Rohdaten, die Analyse-Logik baust du.

Schritt 4 (optional): Reicht ein vortrainiertes Modell nicht, eigene Daten in Model Maker einspielen und ein spezialisiertes Modell trainieren. Vorher lohnt sich ein Test in MediaPipe Studio, um die Standardmodelle im Browser auf den eigenen Daten zu benchmarken.

Ein konkretes Beispiel

Ein deutsches Spielzeugentwicklungsteam in Nürnberg analysiert Testvideos von Kindern, die ein neues Konstruktionsspielzeug ausprobieren, datenschutzrechtlich heikles Material, das das Haus nicht verlassen darf. MediaPipe läuft lokal auf einem Entwickler-Laptop und extrahiert pro Frame die Körperhaltung: Wann lehnen sich die Kinder nach vorne (Zeichen hoher Konzentration)? Wann weichen sie zurück oder wenden den Blick ab (Desinteresse)? Aus den 33 Landmarks pro Frame entsteht eine Pose-Zeitreihe über die 45-minütige Session, die ein selbst gebautes Pandas-Skript in Engagement-Phasen übersetzt. Das Ergebnis zeigt präzise, in welcher Spielphase die Aufmerksamkeit abfiel, eine Information, die im manuellen Beobachtungsprotokoll nur als “Kind hat kurz aufgehört” vermerkt war, ohne Zeitstempel und Kontext. Kosten für die Auswertung: null Euro Lizenz- und API-Gebühren, investiert wurde ausschließlich Entwicklungszeit für das Analyse-Skript. Weil kein Frame je einen Cloud-Server erreichte, blieb die DSGVO-Bewertung überschaubar.

DSGVO & Datenschutz

Datenhaltung: Keine. MediaPipe verarbeitet alles lokal auf deinem Gerät, Videobilder, Landmarks und Ergebnisse verlassen das System nur, wenn du sie selbst irgendwohin schickst. Das ist der größte Datenschutzvorteil gegenüber jeder Cloud-CV-API.
Datennutzung durch Google: Keine. Es gibt keinen Telemetrie-Rückkanal an Google für die Inferenz selbst; die Modelle laufen offline. (Den Modell-Download solltest du einmalig durchführen und die Dateien lokal vorhalten.)
Verantwortlichkeit: Da die Verarbeitung bei dir stattfindet, bist du als Betreiber datenschutzrechtlich Verantwortlicher, es gibt keinen Auftragsverarbeiter und damit auch keinen AVV mit Google für MediaPipe.
Personenbezug bleibt bestehen: Achtung, auch lokal verarbeitete Videos von Personen sind personenbezogene Daten. Rechtsgrundlage, Aufbewahrung und Löschung der Roh- und Landmark-Daten musst du selbst regeln.
Empfehlung für Unternehmen: Für datensensible Szenarien (Gesundheit, Kinder, Mitarbeitende) ist die lokale Verarbeitung ein starkes Argument. Trotzdem gehören eine Datenschutz-Folgenabschätzung und ein klares Lösch- und Speicherkonzept für die extrahierten Daten dazu.

Gut kombiniert mit

OpenCV, die klassische CV-Bibliothek übernimmt Videoein- und -ausgabe, Vorverarbeitung (Zuschnitt, Skalierung, Farbkonvertierung) und das Zeichnen der Landmarks ins Bild. MediaPipe und OpenCV werden in fast jedem Praxisprojekt zusammen eingesetzt.
Pandas / NumPy, für die eigentliche Auswertung der Landmark-Zeitreihen: Aggregation, Schwellenwert-Logik, statistische Auswertung. Ohne dieses Duo bleiben die MediaPipe-Ausgaben Rohdaten ohne Aussage.
, für die Interpretation und Verschriftlichung der Ergebnisse: Du lieferst die ausgewerteten Kennzahlen, ChatGPT formuliert daraus einen verständlichen Bericht oder hilft beim Schreiben des Analyse-Skripts. Recherche und Code-Hilfe lassen sich so beschleunigen.

Unser Testurteil

MediaPipe verdient 4 von 5 Sternen. In seiner Kerndisziplin, lokale, kostenlose, echtzeitfähige Computer Vision, ist es schwer zu schlagen: Die vortrainierten Modelle sind solide, die Plattformabdeckung beispielhaft, und der Datenschutzvorteil durch On-Device-Verarbeitung ist in der Praxis Gold wert. Dass Google den Funktionsumfang unter Google AI Edge sogar auf Text, Audio und On-Device-LLMs ausgeweitet hat, macht es noch vielseitiger. Den fünften Stern kostet die Tatsache, dass MediaPipe ein reines Entwickler-Framework ist: kein No-Code-Zugang, kein Auswertungs-Dashboard, kein deutscher und kein offizieller Support, dazu eine abgekündigte Legacy-API, die alte Anleitungen wertlos macht. Für Teams mit Programmierkompetenz ist es eine klare Empfehlung. Für alle, die eine schlüsselfertige Lösung suchen, ist es das falsche Werkzeug, nicht weil es schlecht wäre, sondern weil es bewusst eine Bibliothek und kein Produkt ist.

Was wir bemerkt haben

März 2023, Google hat den Support für die alten MediaPipe Legacy Solutions offiziell zum 1. März 2023 beendet. Die alte mediapipe.solutions-API (z. B. mp.solutions.pose, face_mesh) gilt seitdem als Legacy und wird nicht mehr weiterentwickelt, das Framework wurde unter das Dach von Google AI Edge verschoben und auf die einheitliche Tasks-API umgestellt. Ein Bruch, der viele ältere Tutorials und GitHub-Beispiele unbrauchbar macht. Wer Code aus dieser Zeit findet, muss migrieren.
2024, MediaPipe hat über die LLM Inference API On-Device-Generative-KI ergänzt: Sprachmodelle (Gemma-Familie), RAG und Function Calling laufen seither lokal auf dem Gerät. Damit ist aus dem reinen Vision-Framework ein breites On-Device-ML-Toolkit geworden, ein bemerkenswerter Schritt, der MediaPipe weit über Pose- und Hand-Tracking hinaushebt.
Juni 2026, Die LLM Inference API befindet sich laut Doku inzwischen im Maintenance-Modus. Google verweist für neue Funktionen auf LiteRT-LM. Wer On-Device-Sprachmodelle neu aufsetzt, sollte das einplanen, der Vision-Teil von MediaPipe (Pose, Hand, Face, Gesten) ist davon nicht betroffen und bleibt der stabile Kern.
April 2026, Das Projekt ist mit Release v0.10.35 weiterhin aktiv gepflegt (rund 35.600 GitHub-Sterne im Repository google-ai-edge/mediapipe, 66 Releases). Open-Source-Aktivität und regelmäßige Releases sind für ein Google-Projekt nicht selbstverständlich, bei vielen anderen ist die Pflege über die Jahre eingeschlafen.
Hinweis, Trotz Google-Herkunft gibt es keinen offiziellen kostenpflichtigen Support und keine garantierte Roadmap. Google hat in der Vergangenheit einzelne Komponenten und APIs umgebaut oder eingestellt; wer MediaPipe produktiv einsetzt, sollte die Abhängigkeit von einem Open-Source-Projekt ohne SLA bewusst einkalkulieren.

Quellen

MediaPipe – GitHub-Repository (google-ai-edge). https://github.com/google-ai-edge/mediapipe (abgerufen am 2026-06-14). Lizenz Apache-2.0, aktuelles Release v0.10.35 (April 2026), rund 35.600 GitHub-Sterne, aktiv gepflegt.
MediaPipe Solutions – Übersicht. https://developers.google.com/edge/mediapipe/solutions/guide (abgerufen am 2026-06-14). Vier Task-Kategorien (Vision, Text, Audio, Generative AI), Pose-/Hand-/Face-Landmarker und Gestenerkennung, Model Maker und MediaPipe Studio; Legacy-Solutions-Support endete am 1. März 2023.
MediaPipe – LLM Inference API. https://developers.google.com/edge/mediapipe/solutions/genai/llm_inference (abgerufen am 2026-06-14). On-Device-LLM-Inferenz (Gemma-Modelle), RAG und Function Calling; API inzwischen im Maintenance-Modus, Verweis auf LiteRT-LM.
MediaPipe – Pose Landmarker. https://developers.google.com/edge/mediapipe/solutions/vision/pose_landmarker (abgerufen am 2026-06-14). Pose Landmarker erkennt 33 Körper-Landmarks pro Frame.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Empfohlen für diese Branchen

Spielwaren & Spiele

Arthur Atlas

KI-Analyst

So entsteht diese Bewertung

Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.

Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.

Preise geändert, Feature veraltet oder etwas fehlt?

Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Du arbeitest bei Google?

Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.

Testzugang anbieten

Nicht sicher, ob MediaPipe zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen

KI-Tools und Trends

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Zurück zur Tool-Übersicht