OpenAIs Open-Source-Spracherkennungsmodell transkribiert Audio und Video in über 90 Sprachen, Deutsch mit sehr hoher Qualität, auch bei Dialekten und Fachsprache. Lokal betrieben vollständig kostenlos und DSGVO-konform; für Nicht-Entwickler ungeeignet.
Kosten: Open-Source und kostenlos bei lokalem Betrieb; OpenAI API GPT-4o Transcribe: 0,006 USD/Minute (0,36 USD/Stunde); GPT-4o Mini Transcribe: 0,003 USD/Minute
Kategorien
Stärken
- Hervorragende Deutsch-Transkription auch bei Dialekten, Akzenten und Fachvokabular
- Open-Source und kostenlos, keine Lizenzkosten bei lokalem Betrieb
- Datenschutzkonform durch lokale Ausführung ohne Cloud-Verbindung
- Unterstützt über 90 Sprachen mit automatischer Spracherkennung
- Flexible Modellgrößen von tiny (schnell, weniger akkurat) bis large-v3 (langsam, top Qualität), plus turbo für schnellere Transkription
Einschränkungen
- Erfordert Python-Kenntnisse und technisches Setup, keine Benutzeroberfläche
- Auf CPU sehr langsam: 1 Stunde Audio kann Stunden dauern ohne GPU
- Kein Echtzeit-Streaming, Whisper verarbeitet Dateien, keine Live-Aufnahmen
- Keine eingebaute Sprechertrennung (Diarization), muss separat integriert werden
- Halluzinationen bei sehr schlechter Audioqualität oder langen Stille-Passagen
Passt gut zu
Wann ja, wann nein
Wann ja
- Du willst große Mengen Audio kostenlos und datenschutzkonform transkribieren
- Du baust eine eigene Applikation und brauchst Transkription als Basisfunktion
- Dein Team hat technisches Know-how und eine GPU-Infrastruktur
- Du verarbeitest vertrauliche Aufnahmen und willst keine Cloud-Übertragung
Wann nein
- Du brauchst Meeting-Transkription ohne technisches Setup
- Du willst Live-Echtzeit-Transkription während Videokonferenzen
- Du hast kein Python-Wissen und keinen Entwickler im Team
- Du brauchst eine fertige App mit Oberfläche, Export und Teilen-Funktion
Kurzfazit
Whisper ist das beste frei verfügbare Spracherkennungsmodell für Deutsch, mit einer entscheidenden Einschränkung: Es ist ein Werkzeug für Entwickler, keine App. Wer Whisper nutzen will, braucht Python, eine Kommandozeile und idealerweise eine GPU. Wer das mitbringt, bekommt dafür Transkriptionsqualität auf kommerziellem Niveau, vollständige Datenkontrolle und null laufende Kosten. Für alle anderen gibt es bessere Optionen.
Für wen ist Whisper?
Entwickler und technische Teams: Whisper ist die erste Wahl, wenn Transkription als Funktion in eine eigene Anwendung eingebaut werden soll. Die Python-API ist klar dokumentiert, die Modelle frei verfügbar. In wenigen Zeilen Code können Audiodateien jeder Länge verarbeitet werden.
Unternehmen mit hohen Datenschutzanforderungen: Kanzleien, Arztpraxen, Marktforschungsinstitute, wer vertrauliche Gespräche transkribiert und keine Audiodaten an US-Server übermitteln darf, findet in Whisper die einzige praktikable Open-Source-Alternative zu kommerziellen Diensten.
Medienproduktion und Broadcast: Produktionshäuser, Podcaster und Videoplattformen, die regelmäßig große Mengen Audio verarbeiten, profitieren von Whispers Batch-Verarbeitung. Ein GPU-Server amortisiert sich gegenüber kommerziellen APIs schnell.
Forschung und Wissenschaft: Akademiker, die Interview-Korpora transkribieren oder Sprachmodelle feinabstimmen wollen, nutzen Whisper als Grundlage, auch wegen der offenen Lizenz (MIT).
Weniger geeignet für: Teams ohne Entwickler, Unternehmen die eine fertige Lösung mit Oberfläche brauchen, und alle, die Live-Transkription in Videokonferenzen benötigen. Hierfür gibt es spezialisierte Tools wie Otter.ai oder Fireflies.ai.
Preise im Detail
| Option | Kosten | Was du bekommst |
|---|---|---|
| Lokal (Open Source) | 0 € | Vollständiges Modell, keine API-Limits, keine Cloud, eigene Hardware nötig |
| OpenAI API (GPT-4o Mini Transcribe) | 0,003 USD/Minute | Günstigste API-Option mit guter Qualität, keine GPU nötig, Daten auf US-Servern |
| OpenAI API (GPT-4o Transcribe) | 0,006 USD/Minute | Höhere Genauigkeit bei schwierigen Aufnahmen, Managed Inference |
| OpenAI API (gpt-realtime-whisper) | 0,017 USD/Minute | Echtzeit-Transkription über die Realtime-API für Live-Anwendungen |
| Drittanbieter-APIs | 0,001–0,004 USD/Minute | Günstigere Whisper-Hosting-Dienste (z. B. Replicate, Groq) |
Einordnung: OpenAI bietet die klassische Whisper-Transkription inzwischen über die GPT-4o-Transcribe-Modelle an, das ältere whisper-1-API-Modell taucht in der aktuellen Preisliste nicht mehr gesondert auf. Für gelegentliche Transkription über die API sind die Kosten vernachlässigbar: 100 Stunden Audio kosten mit GPT-4o Mini Transcribe ca. 18 USD, mit GPT-4o Transcribe ca. 36 USD. Bei regelmäßigen großen Volumen (>500 Stunden/Monat) lohnt sich eine eigene GPU-Instanz: Eine NVIDIA A10G (ca. 800 EUR/Monat auf AWS) verarbeitet 1 Stunde Audio in ca. 3 Minuten und ist ab einem gewissen Volumen günstiger als die API. Der lokale Betrieb des Open-Source-Modells bleibt dauerhaft kostenlos.
Stärken im Detail
Deutsch-Qualität ist branchenführend. Whisper wurde laut OpenAI auf 680.000 Stunden multilingualer Audiodaten trainiert, davon ein substanzieller Anteil deutschsprachig. In Benchmarks schlägt es viele kommerzielle Dienste bei deutschen Aufnahmen mit Akzenten, Fachvokabular oder Hintergrundgeräuschen. Das Ergebnis: weniger Nachbearbeitungszeit als bei vergleichbaren Tools.
Open-Source bedeutet vollständige Kontrolle. Der Quellcode ist unter MIT-Lizenz veröffentlicht, die Modellgewichte frei herunterladbar. Du kannst Whisper ohne Internetverbindung betreiben, auf eigener Hardware deployen, fine-tunen und kommerziell nutzen, ohne Lizenzgebühren oder Nutzungsbeschränkungen.
Modellgrößen für jeden Anwendungsfall. Von tiny (39M Parameter, läuft auf einem Laptop) über base, small, medium bis large (1,55 Mrd. Parameter, beste Qualität) gibt es mehrere Varianten. Hinzu kommt das turbo-Modell (809M Parameter), eine optimierte Version von large-v3 für deutlich schnellere Transkription bei nur geringem Qualitätsverlust. Für Batch-Verarbeitung auf einem Server ist large-v3 oder turbo die richtige Wahl; für Echtzeit-ähnliche Anwendungen auf eingeschränkter Hardware small oder base.
Automatische Sprachkennung und Übersetzung. Whisper erkennt die Sprache einer Aufnahme automatisch und kann direkt ins Englische übersetzen, nützlich für internationale Teams, die mehrsprachige Aufnahmen verarbeiten, ohne für jede Sprache ein eigenes Modell zu betreiben.
Schwächen ehrlich betrachtet
Kein Setup ohne Python-Kenntnisse. Es gibt keine offizielle Benutzeroberfläche. Die Installation (pip install openai-whisper) und Nutzung über die Kommandozeile sind für nicht-technische Nutzer unzumutbar. Inoffizielle GUI-Apps existieren (Whisper Desktop, MacWhisper), sind aber Drittanbieter-Projekte mit eigenem Support-Aufwand.
Lokaler Betrieb braucht eine GPU. Auf einem modernen MacBook M3 dauert die Transkription einer 1-stündigen Aufnahme mit dem large-Modell ca. 15–20 Minuten, akzeptabel für gelegentliche Nutzung, untauglich für Produktivbetrieb. Ohne dedizierte GPU oder Cloud-API wird Whisper zum Bottleneck.
Kein Echtzeit-Streaming. Whisper arbeitet auf vollständigen Audiodateien und kann keine laufenden Audio-Streams verarbeiten. Für Live-Untertitel oder Echtzeit-Protokollierung während Meetings braucht man zusätzliche Infrastruktur (z.B. das Paket faster-whisper mit Chunking-Logik).
Halluzinationen bei schlechter Qualität. Bei sehr rauscharmen Passagen, langen Stille-Abschnitten oder stark verzerrtem Audio neigt Whisper dazu, Texte zu erfinden, die im Original nicht gesprochen wurden. Das ist bekannt und dokumentiert, bei qualitätskritischen Transkriptionen sollte immer eine Plausibilitätsprüfung stattfinden.
Alternativen im Vergleich
| Wenn du… | …nimm stattdessen |
|---|---|
| Meeting-Transkription ohne technisches Setup willst | Otter.ai oder Fireflies.ai |
| Medizinische Diktate in Deutschland transkribieren willst | Dragon Medical |
| Podcasts und Videos mit fertiger App schneiden und transkribieren willst | Descript |
| Auf der OpenAI-Infrastruktur bleiben, aber mehr Kontrolle willst | Azure ML mit Whisper-Deployment |
Whisper ist kein Fertigprodukt, es ist eine Technologie. Wer eine Anwendung baut oder Datenverarbeitungs-Pipelines betreibt, findet hier die beste Open-Source-Basis. Wer eine fertige Lösung braucht, ist besser bei spezialisierten Tools aufgehoben.
So steigst du ein
Schritt 1: Installiere Whisper via pip: pip install openai-whisper. Transkribiere eine erste Audiodatei mit einem Befehl: whisper audio.mp3 --language de --model medium. Das Modell wird beim ersten Aufruf automatisch heruntergeladen (ca. 1,5 GB für medium). Für beste Qualität bei deutschen Aufnahmen empfiehlt sich medium oder large-v3.
Schritt 2: Integriere Whisper in deinen Python-Workflow: Lade das Modell einmalig (model = whisper.load_model("medium")), dann kannst du Dateien in einer Schleife verarbeiten und erhältst Transkriptionen als Text mit Zeitstempeln, direkt verwendbar für automatische Protokolle, Untertitel (SRT/VTT) oder Volltext-Suche in Audio-Archiven.
Schritt 3: Für datenschutzsensible Umgebungen installiere Whisper auf einem eigenen Server ohne Internetverbindung. Nutze faster-whisper (Drittanbieter-Reimplementierung) statt des Original-Pakets, es ist 2–4x schneller bei gleichem Speicherverbrauch. Eine NVIDIA A10G GPU verarbeitet 1 Stunde Audio in ca. 3 Minuten, was 200 Stunden/Monat in einem Arbeitstag erlaubt.
Ein konkretes Beispiel
Ein Münchner Marktforschungsinstitut transkribiert monatlich 200 Stunden Interviewaufnahmen mit deutschen Teilnehmern. Bisher wurden externe Transkriptionsdienste für ca. 1,20 EUR/Minute genutzt, monatlich 14.400 EUR. Mit Whisper auf einem gemieteten GPU-Server (ca. 800 EUR/Monat) werden dieselben 200 Stunden in unter 12 Stunden verarbeitet. Alle Audiodaten bleiben im eigenen Netzwerk, ein zentrales Datenschutzargument für die Klienten des Instituts, von denen mehrere dem Berufsgeheimnis unterliegen. Die Kosteneinsparung liegt bei über 160.000 EUR pro Jahr. Der einmalige Integrationsaufwand betrug ca. 3 Entwicklertage.
DSGVO & Datenschutz
- Lokaler Betrieb: Vollständig DSGVO-konform, keine Datenübertragung, keine Cloud, keine Drittparteien. Ideal für besonders sensible Aufnahmen (Arzt-Patienten-Gespräche, anwaltliche Mandate).
- OpenAI API: Daten werden auf US-Servern verarbeitet. Kein AVV für Standardpläne; für Enterprise auf Anfrage verfügbar. Für DSGVO-kritische Anwendungen ungeeignet ohne Rechtsgrundlage.
- Datennutzung: OpenAI nutzt über die API eingereichte Daten laut eigenen Nutzungsbedingungen standardmäßig nicht zum Training der Modelle; der lokale Betrieb schließt jede Datenübertragung ohnehin technisch aus. Prüfe die jeweils aktuellen API-Bedingungen, bevor du sensible Daten verarbeitest.
- Empfehlung: Für Unternehmen mit Datenschutzpflichten (Gesundheit, Recht, Finanzen) den lokalen Betrieb wählen. Die Einrichtung dauert einen Tag, und schützt dauerhaft vor Datentransfer-Risiken.
- Auftragsverarbeitung: Lokal kein AVV nötig. Bei OpenAI API: AVV über die Enterprise-Vereinbarung oder den Data Processing Addendum (DPA) von OpenAI abschließen.
Gut kombiniert mit
- Fireflies.ai für automatische Meeting-Transkription ohne Setup; Whisper für programmatische Batch-Verarbeitung und datenschutzkritische Aufnahmen, komplementäre Einsatzgebiete
- Notion AI mit Whisper-Transkriptionen als Basis: Audio transkribieren, Transkript in Notion einfügen, dort per Notion AI zusammenfassen und in durchsuchbares Wiki-Wissen verwandeln
- Make.com für Automatisierungspipelines: Neue Audiodatei in Dropbox → Whisper-API → Transkript in Google Docs speichern → Team per Slack benachrichtigen, ohne eine Zeile Code zu schreiben
Unser Testurteil
Whisper verdient 4 von 5 Sternen. Die Transkriptionsqualität für Deutsch ist herausragend, besser als viele kommerzielle Dienste, und das kostenlos. Den fünften Stern verhindert die fehlende Benutzerfreundlichkeit: Wer kein Python kann, kann Whisper nicht nutzen. Für Entwickler und technische Teams, die Transkription als Basistechnologie brauchen, ist Whisper schlicht das beste verfügbare Werkzeug.
Was wir bemerkt haben
- November 2023, OpenAI veröffentlichte Whisper large-v3 mit deutlich verbesserter Genauigkeit, besonders für Nicht-Englisch-Sprachen wie Deutsch. Das Modell ist auf Hugging Face frei verfügbar.
- 2024, OpenAI stellte zwei neue API-Transkriptionsmodelle vor: GPT-4o Transcribe (höhere Qualität, 0,006 USD/Minute) und GPT-4o Mini Transcribe (günstiger, 0,003 USD/Minute).
- 2024/2025, mit dem
turbo-Modell (809M Parameter, optimierte Version von large-v3) wurde eine deutlich schnellere Open-Source-Variante ergänzt, die bei nur geringem Qualitätsverlust spürbar weniger Rechenzeit braucht. - Juni 2026, in der aktuellen OpenAI-Preisliste taucht das klassische
whisper-1-API-Modell nicht mehr gesondert auf; die API-Transkription läuft jetzt über die GPT-4o-Transcribe-Modelle. Neu hinzugekommen istgpt-realtime-whisper(0,017 USD/Minute) für Echtzeit-Transkription über die Realtime-API. Das frei herunterladbare Open-Source-Modell bleibt davon unberührt und kostenlos. - Laufend, lokaler Betrieb bleibt vollständig kostenlos und ist für datenschutzsensible Anwendungen die empfohlene Option; die OpenAI-API verarbeitet Audiodaten auf US-Servern.
Quellen
- OpenAI API – Pricing (Transcription models). https://developers.openai.com/api/docs/pricing (abgerufen am 2026-06-14). GPT-4o Transcribe 0,006 USD/Minute, GPT-4o Mini Transcribe 0,003 USD/Minute; zusätzlich gpt-realtime-whisper 0,017 USD/Minute.
- OpenAI Whisper – GitHub-Repository (README). https://github.com/openai/whisper (abgerufen am 2026-06-14). MIT-Lizenz für Code und Modellgewichte; Modellgrößen tiny (39M) bis large (1550M) plus turbo (809M); large-v3 und turbo als aktuelle Modelle.
Diesen Inhalt teilen:
Empfohlen in 48 Use Cases
Handwerk & Baugewerbe
Medien & Verlag
Unternehmensberatung
Öffentliche Verwaltung
Branchenübergreifend
Facility Management
+ 31 weitere Use Cases in 22 Branchen anzeigen
Forschung & Entwicklung
Gesundheitswesen
Kreativwirtschaft
Medizintechnik
Produktion & Industrie
Sicherheitsdienste
Tierdienstleistungen
Verlag & Medienproduktion
Weiterbildung & Coaching
Architektur & Bauwesen
Finanzwesen & Versicherung
Forstwirtschaft
Sachverständige & Gutachter
Luft- & Raumfahrt
Messe & Events
Möbel & Holzverarbeitung
Recht & Compliance
Spielwaren & Spiele
Steuerberatung & Kanzleien
Personaldienstleistung
Empfohlen für diese Branchen
Arthur Atlas
KI-Analyst
So entsteht diese Bewertung
Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.
Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.
Preise geändert, Feature veraltet oder etwas fehlt?
Wir freuen uns über Hinweise und Ergänzungen.
Du arbeitest bei OpenAI?
Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.
Nicht sicher, ob Whisper zu euch passt?
Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.
KI-Tools und Trends
KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools
Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.