Zum Inhalt springen
Pharmaindustrie labordatencdiscbiostatistik

Labordaten aus klinischen Studien automatisch auswerten

KI verarbeitet klinische Labordaten, identifiziert statistisch auffällige Werte, erstellt vorformatierte Tabellen für den Clinical Study Report und markiert potenzielle Sicherheitssignale.

⚡ Auf einen Blick
Problem
Biostatistiker und Data Manager verbringen Wochen mit Datentransformation, Ausreißeridentifikation und Tabellengenerierung aus klinischen Labordaten für den CSR.
KI-Lösung
Regelbasierte ML-Pipeline (KNIME, SAS Viya oder Medidata Clinical Data Studio): automatisierte CDASH→SDTM-Transformation, Isolation-Forest-gestützte Ausreißerdetektion und Tabellengenerierung für den CSR, Laborwerte jenseits protokolldefinierter Schwellenwerte werden sofort markiert.
Typischer Nutzen
Datenverarbeitungszeit sinkt von 3–8 Arbeitstagen auf 4–8 Stunden je Lieferung (–50 %). Sicherheitssignale innerhalb von 24–48 statt bis zu 336 Stunden nach Dateneingang identifiziert.
Setup-Zeit
4–7 Monate bis valider Einsatz (ICH E6(R3)-Validierung)
Kosteneinschätzung
20.000–50.000 € Einrichtung, 1.500–4.000 €/Monat laufend
KNIME on-premises (Open-Source, kein Vendor-Lock-in)Medidata Rave + Clinical Data Studio (wenn Rave-EDC vorhanden)SAS Viya Enterprise (höchste regulatorische Reife)
Worum geht's?

Es ist Montag, 8:47 Uhr.

Dr. Sabine Hauer, Biostatistikerin bei einem mittelständischen Pharmaunternehmen in Frankfurt, öffnet die E-Mail aus dem Datenzentrum. Die letzten Laborwerte der Phase-II-Studie sind endlich eingetroffen, drei Wochen nach dem ursprünglichen Liefertermin. Vor ihr liegt ein Export aus dem Labor-LIMS: 48.000 Zeilen, sieben Laborparameter, 120 Probanden, vier Messzeitpunkte. Alles in einem proprietären Format, das nicht mit den CDISC-Feldnamen übereinstimmt. Das klingt nach einer Routineaufgabe. Es ist keine.

Zuerst müssen die Feldnamen manuell auf die SDTM-Domäne LB gemappt werden, das Mapping-Log aus der letzten Studie passt nicht, weil das Labor seine Exportstruktur geändert hat. Dann müssen Ausreißer identifiziert werden: Werte, die mehr als drei Standardabweichungen vom Baselinemittelwert abweichen, müssen für den Sicherheitsbericht einzeln dokumentiert werden. Jeder auffällige Wert braucht einen Query an den Prüfarzt, jeder Query eine Antwort, jede Antwort eine Einbuchung. Und irgendwo in diesen 48.000 Zeilen könnte ein erhöhter ALT-Wert vergraben sein, der auf eine unerwünschte Arzneimittelwirkung hindeutet, oder auch auf einen Laborfehler. Das wird sie erst in zwei Wochen wissen.

Drei Datenmanagement-Runden, sechs Wochen Cleaning-Zyklus, dann das Schreiben der Labordatentabellen für den Clinical Study Report. Das klingt überschaubar. Bis die Sponsoraufsicht um 11:42 Uhr fragt, ob die Zwischenauswertung für den Data Safety Monitoring Board bis Freitagabend fertig sein kann.

Sabine schreibt zurück: „Freitagabend ist nicht realistisch.” Irgendwo in den 48.000 Zeilen könnte der DSMB-relevante ALT-Wert stecken. Sie weiß es noch nicht.

Für Unternehmen

Nicht nur lesen, umsetzen.

Wir entwickeln KI-Lösungen für genau deinen Anwendungsfall und begleiten dich bei der Einführung.

Für Unternehmen

Das echte Ausmaß des Problems

Klinische Labordaten sind das Rückgrat jeder Studie mit Sicherheitsendpunkten, aber ihre Verarbeitung ist einer der personalintensivsten und fehleranfälligsten Schritte im klinischen Datenmanagement. Das hat strukturelle Gründe, keine organisatorischen.

Drei Probleme überlagern sich regelmäßig:

Heterogene Rohdaten. Jedes Zentrallabor liefert Daten in einem anderen Format. Shire- oder Covance-Exporte sehen anders aus als die des lokalen Krankenhauslabors. LIMS-Exporte enthalten teils proprietäre Codes statt LOINC-Begriffe, Einheiten weichen ab (mmol/L vs. mg/dL), Zeitstempel fehlen oder sind inkonsistent. Bevor eine einzige Analyse laufen kann, steht zunächst ein manuelles Mapping-Projekt.

CDISC-Compliance als Pflicht, nicht Option. FDA und EMA akzeptieren seit Jahren keine Submissions mehr ohne CDISC-konforme Datensätze. Die SDTM-Domäne LB (Laboratory Test Results) hat über 40 vorgeschriebene Variablen. Das Mapping von Rohdaten auf diese Struktur, inklusive Supplemental Qualifier-Domänen für abgeleitete Werte, ist nicht automatisierbar ohne systematischen Ansatz.

Sicherheitsdaten unter Zeitdruck. Data Safety Monitoring Boards tagen nach festem Plan, unabhängig davon, ob die Daten clean sind. Ein erhöhter Leberenzymwert, der sich drei Wochen nach Messzeitpunkt noch im Query-Stack befindet, ist ein regulatorisches Risiko, nicht nur ein Workflow-Problem. Laut einer 2023 veröffentlichten Analyse von Saama Technologies verbringen klinische Datenmanagement-Teams bis zu 50 % ihrer Zeit allein mit Datentransformations- und Query-Resolution-Aufgaben, Zeit, die bei der eigentlichen Analyse fehlt.

Die Kostenfolgen sind direkt messbar: Jede Woche Verzögerung im Datencleaning schiebt den Datenlock nach hinten, der Lock schiebt die statistische Auswertung, die Auswertung schiebt den CSR, der CSR schiebt die Einreichung. Bei einem Medikamentenkandidaten in Phase II oder III bedeutet ein Monat Verzögerung schnell siebenstellige Umsatzeinbußen pro Monat nicht genutzter Marktexklusivität, auch wenn die Verzögerung im klinischen Datamanagement verursacht wurde.

Mit vs. ohne KI, ein ehrlicher Vergleich

KennzahlManueller ProzessKI-gestützte Datenpipeline
Datentransformation Rohdaten → SDTM LB3–8 Arbeitstage je Lieferung4–8 Stunden (nach Mapping-Setup)
Query-Generierung für AusreißerwerteManuell, 1–3 Tage je DurchlaufAutomatisch innerhalb von Stunden nach Dateneingang
Cleaning-Zyklen bis Datenlock3–5 Runden à 5–10 Tage2–3 Runden à 2–4 Tage ¹
Anteil auffälliger Werte übersehen bei Erstprüfung3–8 % (manuelle Prüfung)unter 1 % bei regelbasierter Automatisierung
Tabellengenerierung für CSR-Abschnitt 112–4 Wochen je Studie2–3 Tage nach Datenlock
SAE-Flag-Latenz (Zeit bis Sicherheitshinweis)Bis zu 14 Tage nach Messung24–48 Stunden nach Dateneingang

¹ Erfahrungswerte aus mehreren klinischen Datenpipeline-Implementierungen; stark abhängig von EDC-Datenqualität und Protokollkomplexität.

Der Vergleich zeigt: Der größte Gewinn liegt nicht beim Schreiben der Tabellen, sondern beim Cleaning-Zyklus. Jede automatisch generierte Query, die sofort nach Dateneingang geschickt wird statt drei Wochen später, verkürzt den Zeitplan direkt.

Einschätzung auf einen Blick

Zeitersparnis, hoch (4/5) Die 30–50 % Zeitersparnis bei der Datenverarbeitung ist durch die Saama-Analyse (2023) mit realen Kundendaten belegt, darunter eine Zusammenarbeit mit Pfizer, bei der klinische Datensätze in Tagen statt Monaten cleaning-fertig waren. In dieser Kategorie ist das ein starker Wert, nur das Batch-Record-Review (5/5) schneidet besser ab, weil dort die manuelle Prüfzeit pro Einheit noch höher ist.

Kosteneinsparung, mittel (3/5) Die Einrichtungskosten sind real: 20.000–50.000 € für Pipeline-Aufbau, Validierung und CDISC-Mapping-Setup. Laufend kommen 1.500–4.000 € monatlich für Infrastruktur und Wartung dazu. Die Einsparungen entstehen primär über Studientimelines, nicht direkt als Kostenlinie, das macht ROI-Kalkulation möglich, aber indirekt. Vergleichbar mit Use Case 01 (Klinische Studiendokumentation) und 04 (Pharmakovigilanz-Berichte).

Schnelle Umsetzung, niedrig (2/5) Vier bis sieben Monate realistischer Zeitrahmen bis zum validierten produktiven Einsatz, das ist der pharma-typische Aufwand für CSV nach ICH E6(R3). Kein Shortcut möglich: Ohne Validierungsdokumentation ist der Output nicht submissionstauglich. Ähnlich einzuschätzen wie Use Case 01 (Studiendokumentation, ebenfalls 2/5).

ROI-Sicherheit, hoch (4/5) Die Messbarkeit ist hier besser als bei vielen anderen pharmazeutischen KI-Anwendungen: Query-Auflösungszeiten, Cleaning-Zyklen und Tabellengenerierungszeiten sind direkt in Stunden und Projekttagen messbar. Wer den Zeitplan des Datenlocks verkürzt, kann das direkt in Projektkalendern ablesen. Nicht ganz so sicher wie Compliance-Erfassung (5/5), aber deutlich messbarer als Medical Writing (3/5).

Skalierbarkeit, mittel (3/5) Einmal aufgebaut, skaliert eine CDISC-Pipeline für gleichartige Studien gut. Aber: Jeder neue Studientyp (onkologisch vs. kardiovaskulär), jedes neue Labor und jede neue SDTM-Version erfordert eigene Mapping-Validierungen. Das macht das System weniger skalierbar als reine Dokumenten-KI-Anwendungen, aber besser als Use Cases mit starken Einzelfallabhängigkeiten wie Regulatory Submissions (2/5).

Richtwerte, stark abhängig von Studienvolumen, vorhandenem EDC-System und CDISC-Reifegrad der Organisation.

Was die Datenpipeline konkret macht

Klinische Labordaten durchlaufen in modernen KI-gestützten Systemen typisch vier automatisierte Stufen:

Stufe 1: Ingestion und Format-Normalisierung. Rohdaten aus Zentrallaboren (LIMS-Exporte, HL7-Feeds, CSV-Lieferungen) werden automatisch eingelesen. Das System erkennt bekannte Exportformate, normalisiert Einheiten (mg/dL → mmol/L nach einheitlichem Umrechnungsprotokoll), bereinigt Zeitstempelinkonsistenzen und mappt LOINC-Codes auf studienspezifische Parameter. Was früher manuelle Mapping-Arbeit war, wird durch trainierte Erkennungsmodelle beschleunigt, aber nicht ersetzt: Der Biostatistiker genehmigt jedes neue Mapping-Schema einmalig.

Stufe 2: CDASH → SDTM-Transformation. Das Herzstück der Pipeline: Rohdaten aus dem Electronic Data Capture (EDC)-System, die im CDASH-Format vorliegen, werden auf das SDTM-Modell transformiert. Die Domäne LB (Laboratory Test Results) mit über 40 vorgeschriebenen Variablen wird automatisch befüllt. Die Transformationslogik wird einmalig im Validation Master Plan dokumentiert und bei jeder Änderung versioniert, Anforderung aus 21 CFR Part 11 und EU Annex 11.

Stufe 3: Regelbasierte Ausreißer- und Anomaliedetektion. Das System vergleicht jeden Laborwert gegen protokolldefinierte Grenzen (Primary Concern Criteria), gegen laborspezifische Normalwerte und gegen intraindividuelle Verläufe (Shift-Analyse Baseline vs. Post-Baseline). Potenzielle unerwünschte Ereignisse werden nach ICH E3-Kriterien kategorisiert: Welche Werte sind berichtspflichtig als Adverse Event (AE), welche als Serious Adverse Event (SAE)? Automatische Queries gehen direkt an die Prüfarztteams, ohne Warte-Puffer durch manuelle Prüfung.

Stufe 4: Tabellengenerierung für den CSR. Tabellen nach ICH E3-Standard (Table 11.4 et seq.) werden aus dem sauberen SDTM-Datensatz automatisch generiert: Deskriptive Statistik nach Behandlungsgruppen, Shift-Tabellen für kategorisierte Laborparameter, Listing mit auffälligen Werten. Ausgabeformat: direkt in RTF, Word oder SAS-Output für den Medical Writer.

Was das System nicht kann

Der Machine Learning-Ansatz für Anomalieerkennung stößt bei seltenen Ereignissen an Grenzen: Wenn ein Wirkstoffkandidat ein bisher unbekanntes Toxizitätsmuster erzeugt, das in keinem historischen Datensatz vorhanden ist, wird das System es nicht als Auffälligkeit klassifizieren. Für die explorative Sicherheitsanalyse ist menschliches biostatistisches Urteil unersetzbar, das automatisierte System liefert den Ausgangspunkt, nicht das Urteil.

CDISC-Datenstandards: Was das System wirklich können muss

Wer eine Labordaten-Pipeline in der klinischen Forschung aufbaut, stößt früh auf CDISC, und sollte verstehen, was das in der Praxis bedeutet.

CDASH (Clinical Data Acquisition Standards Harmonization) definiert, wie Daten im EDC erfasst werden: Feldnamen, Codelisten, Plausibilitätsprüfungen. CDASH ist die Eingabelogik.

SDTM (Study Data Tabulation Model) definiert, wie Daten für die regulatorische Einreichung strukturiert sein müssen. Die SDTM-Domäne LB ist der Standard für Labordaten, mit über 40 Pflichtfeldern wie LBTEST (Labortest), LBORRESU (Einheit), LBSTRESN (standardisierter numerischer Wert), LBBLFL (Baseline-Flag) und LBNRIND (Normalbereich-Indikator). SDTM ist die Ausgabelogik.

ADaM (Analysis Data Model) liegt eine Ebene darüber: Es definiert, wie die analysierten Datensätze für die statistische Auswertung strukturiert sein müssen. Der häufigste ADaM-Datensatz für Labordaten ist ADLB, er enthält abgeleitete Variablen wie Veränderung zum Baseline, Shift-Klassifikationen und Flags für die klinische Relevanz.

Was eine KI-Pipeline für Labordaten konkret beherrschen muss:

  • CDASH → SDTM LB-Transformation mit vollständiger Traceability-Dokumentation
  • Supplemental Qualifier (SUPPQUAL) für nicht-standardisierte Variablen
  • ADaM ADLB-Erstellung inkl. DTYPE (Record-Typ-Flags), ANL01FL (Analyse-Flags) und AVAL (Analysewert)
  • Automated Validation nach Pinnacle 21 Enterprise (Standardtool für CDISC-Regelprüfung)

Ohne dieses Fundament ist jede Analyseautomatisierung für regulatorische Einreichungen wertlos, die Daten kommen dann nicht durch den Validierungscheck der FDA.

Regulatorische Voraussetzungen: ICH E6(R3), 21 CFR Part 11, EU Annex 11

Das ist der Abschnitt, den Teams häufig unterschätzen, und der Projekte um Monate verzögern kann, wenn er nicht früh eingeplant wird.

ICH E6(R3) GCP (Good Clinical Practice), die aktuell gültige Version (2023/2025), verpflichtet Sponsoren dazu, jedes computergestützte System, das in klinischen Studien eingesetzt wird, vor dem ersten produktiven Einsatz zu validieren. Das gilt explizit auch für KI-Systeme, die Daten flaggen oder transformieren: “Any AI systems used in the trial process will need to be validated under the data governance framework.” Das bedeutet: Validation Master Plan, User Requirements Specification, Design Qualification, Operational Qualification, nicht als Empfehlung, sondern als Pflicht.

FDA 21 CFR Part 11 und EU GMP Annex 11 definieren, was ein valides elektronisches System für klinische Daten bedeutet:

  • Lückenloser Audit Trail: Wer hat wann welche Daten verändert?
  • Elektronische Signaturen für kritische Datenoperationen
  • Zugriffskontrollen und Rollen-/Rechteverwaltung
  • Backup- und Wiederherstellungsprozeduren

Die FDA hat in einer 2024 veröffentlichten Q&A-Guidance (29 Fragen zu Electronic Systems in Clinical Investigations) klargestellt: Auch wenn eine KI Daten verarbeitet hat, trägt die verantwortliche Person im Sponsor-Unternehmen die regulatorische Verantwortung für die Korrektheit. Es gibt keine KI-Haftungsdelegation.

Praktische Konsequenz: Jede Komponente der Datenpipeline, die submissionsrelevante Daten berührt, braucht einen Validierungsstatus. Das umfasst auch die KI-Komponente für Ausreißerdetektion: Werden Flags durch einen Algorithmus gesetzt, muss dieser Algorithmus dokumentiert, getestet und freigegeben sein. Undokumentierte Skripte, auch wenn sie technisch korrekt arbeiten, sind nicht akzeptabel.

SAE-Flagging: Sicherheitskritische Automatisierung mit doppeltem Boden

Das automatisierte Flaggen von Serious Adverse Events (SAEs) ist die heikelste Komponente der Labordatenpipeline. Hier ist Vorsicht keine Bürokratie, sondern Patientenschutz.

Warum Automatisierung allein nicht ausreicht: Eine 2025 veröffentlichte Multicenter-Studie (erschienen in eBioMedicine) testete Large Language Models auf die Erkennung von immunvermittelten unerwünschten Ereignissen in klinischen Notizen. Das Ergebnis: GPT-4o erzielte F1-Scores zwischen 56 % und 66 %, je nach Studienzentrum. Das genügt weder für regulatorische Entscheidungen noch für klinisches Safety-Monitoring.

Das konkrete Risiko heißt nicht “System erkennt zu viele Flags”. Es heißt “System erkennt zu wenige.” Ein Modell kann eine hohe Spezifität (wenige falsche Alarme) zeigen und dabei gleichzeitig echte SAEs übersehen, was bei häufigen Laborwertverläufen als normal klassifiziert wird. Die Konsequenz ist eine trügerische Zuverlässigkeit: Das System klingt präzise, weil es wenig flaggt, aber übersieht gerade die kritischen Ausnahmen.

Was ein sicheres SAE-Flagging-System leisten muss:

  1. Maximale Sensitivität vor Spezifität. Falsche Alarme sind teuer (Queries, Arztzeit), aber tolerierbar. Übersehene SAEs sind gefährlich. Die Regeln müssen konservativ sein.
  2. Manuelles Review jedes automatischen Flags. Kein Flag geht ohne qualifizierte Prüfung an den Prüfarzt. Das System schlägt vor, der Biostatistiker oder Safety-Officer entscheidet.
  3. Safety-Datenbank-Abgleich. SAE-Daten aus dem EDC und Safety-Daten aus der Pharmakovigilanz-Datenbank (z.B. Argus Safety) müssen täglich abgeglichen werden, Diskrepanzen zwischen beiden Systemen sind ein bekanntes Risiko bei automatisierten Prozessen.
  4. Eskalationsprotokoll bei System-Ausfall. Was passiert, wenn das automatische Flagging-System nicht läuft? Das manuelle Backup-Verfahren muss dokumentiert und trainiert sein, nicht nur als theoretischer Notfallplan.

Empfehlung: Automatisches SAE-Flagging als Vorfilter einsetzen, nicht als Entscheider. Das System beschleunigt die Triage, ersetzt sie nicht. Genau diesen Ansatz hat Pfizer bei der Zusammenarbeit mit Saama Technologies gewählt: KI als Beschleuniger für die initiale Datensichtung, qualifiziertes Personal für die finale Einschätzung.

Bestätigende vs. explorative Analyse: Was die KI darf und was nicht

Diese Unterscheidung ist in der klinischen Biostatistik fundamental, und wird bei der Einführung von KI-Automatisierung häufig verwischt.

Konfirmatorische (bestätigende) Analyse ist durch das Studienprotokoll und den Statistical Analysis Plan (SAP) vorab festgelegt: welche primären Endpunkte, welche statistischen Tests, welche Populationen, welche Schwellenwerte. Diese Analyse darf nach dem Unblinding nicht mehr verändert werden, das ist der Kern von GCP. Eine KI, die “bessere” statistische Ansätze für die Primäranalyse vorschlägt, verletzt die Protokollintegrität.

Explorative Analyse ist alles, was darüber hinausgeht: Hypothesengenerierung, unerwartete Signale, Subgruppenanalysen. Hier hat KI ihren legitimen Platz, mit einem wesentlichen Unterschied: Exploratorische Ergebnisse dürfen nicht konfirmatorisch kommuniziert werden. Sie generieren Hypothesen für Folgestudien, sie beweisen nichts.

Praktische Regel: Die KI-Pipeline macht die Datenvorbereitung, Transformation und Tabellengenerierung für den SAP-fixierten konfirmatorischen Teil automatisierbar. Das SAE-Flagging ist regelbasiert und im Protokoll definiert, auch das automatisierbar. Was nicht automatisiert werden sollte: die statistischen Tests der primären Wirksamkeitsendpunkte selbst. Deren Ausführung in SAS oder R durch den Biostatistiker nach SAP ist sowohl Pflicht als auch professioneller Standard, KI beschleunigt die Vorbereitung, tritt aber beim finalen Analyseschritt zurück.

Konkrete Werkzeuge, was wann passt

Die Toolwahl hängt davon ab, ob du auf ein bestehendes EDC-System aufbaust oder eine eigenständige Pipeline für Batch-Analysen baust.

Medidata Rave EDC mit Clinical Data Studio, Wenn Medidata Rave bereits euer EDC ist (und das ist bei einem erheblichen Teil mittelgroßer Pharmaunternehmen der Fall), ist Clinical Data Studio der natürliche nächste Schritt: Die KI-gestützte Datenstandardisierung und CDISC-Mapping-Pipeline ist direkt integriert, kein Drittanbieter-Anschluss nötig. Veröffentlicht Juni 2024. Preis auf Anfrage, typisch im Enterprise-Bereich.

SAS Viya, Der Industriestandard für regulatorische Biostatistik. SAS-Code für SDTM- und ADaM-Transformationen ist in nahezu jeder Pharmaorganisation vorhanden, Viya bringt diese Logik in eine validierbare Cloud-Umgebung mit Model-Governance und vollständiger Audit-Trail-Dokumentation. Für Teams, die bereits SAS-Expertise haben, ist Viya die risikoärmste Plattform für die regulatorisch-kritische Analyse. Typisch 80.000–300.000 €/Jahr für Enterprise-Lizenzen.

KNIME Analytics Platform, Open-Source, on-premises betreibbar, EU-Datenhaltung möglich. KNIME hat einen spezialisierten Pharma-and-Life-Sciences-Extension-Node-Set für CDISC-Datentransformationen und wird in der Life-Sciences-Community eingesetzt. Keine native GxP-Validierungsunterstützung out of the box, aber die Workflows sind auditierbar und dokumentierbar, was Validierung ermöglicht. Desktop-Version dauerhaft kostenlos; KNIME Business Hub für Teamarbeit und Automatisierung kostenpflichtig (Preis auf Anfrage). Geeignet für Teams mit eingeschränktem Budget und eigenem IT-Team.

Veeva Vault (CTMS/eTMF), Nicht für die eigentliche Laboranalyse, aber als vorgelagerte Infrastruktur: Veeva Vault CTMS hält den Studienplan, eTMF die Studiendokumentation, beides sind Voraussetzungen dafür, dass eine Labordaten-Pipeline den richtigen SDTM-Metadaten-Kontext bekommt (Studienphasen, Besuchspläne, Protokollversionen). Wenn Veeva bereits im Haus ist, ist die Integration einfacher.

Zusammenfassung: Wann welcher Ansatz

  • Medidata Rave vorhanden → Clinical Data Studio für CDISC-Pipeline
  • SAS-Expertise im Team, hohe regulatorische Anforderungen → SAS Viya
  • Eigenentwicklung mit eingeschränktem Budget, IT-Team vorhanden → KNIME on-premises
  • Neues Setup ohne EDC-Entscheidung → erst EDC evaluieren (Medidata, Oracle Clinical, OpenClinica), dann Pipeline

Newsletter

Solche Praxis-Analysen, regelmäßig in deinem Postfach

Neue KI-Use-Cases, ehrliche Tool-Tests und DSGVO-Updates, verständlich aufbereitet. Kein Spam, jederzeit abbestellbar.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Datenschutz und Datenhaltung

Klinische Labordaten sind in Deutschland besonders schutzwürdig nach § 22 BDSG (Gesundheitsdaten als besondere Kategorie personenbezogener Daten) und Art. 9 DSGVO. Das gilt auch für pseudonymisierte Studiendaten: Solange der Sponsor-Code zur Re-Identifizierung existiert, sind die Daten nicht anonym.

Verpflichtende Maßnahmen vor dem Produktivbetrieb:

  • Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO mit jedem Cloud-Anbieter, der Zugriff auf Studiendaten hat
  • Datenschutz-Folgenabschätzung (DSGVO Art. 35) für automatisierte Verarbeitungssysteme mit Gesundheitsdaten
  • Klärung mit dem Datenschutzbeauftragten: Ist der Einsatz von US-basierten Cloud-Services (z.B. bestimmte AWS- oder Azure-Regionen außerhalb EU-Boundaries) für diese Daten zulässig?

Für die genannten Tools:

  • SAS Viya: EU-Rechenzentren verfügbar, on-premises Einsatz möglich, die sicherste Option für sensible Studiendaten in Deutschland
  • Medidata Rave: EU-Datenresidenz verfügbar; ISO 27001 und SOC 2 Type II; 21 CFR Part 11 und EU Annex 11 validiert
  • KNIME: On-premises Betrieb vollständig möglich, Daten verlassen das Unternehmensnetzwerk nicht; für DSGVO-kritische Umgebungen die transparenteste Option
  • Veeva Vault: EU-Datenresidenz verfügbar; ISO 27001 und SOC 2 Type II; GxP-validiert

Ein Sonderfall in der klinischen Forschung: Wenn der Datentransfer an einen CRO (Contract Research Organization) stattfindet, der die Pipeline betreibt, ist zusätzlich zum AVV ein Clinical Trial Agreement und ggf. eine Ergänzung zum Sponsorenvertrag nötig, die die Datenverarbeitungsverantwortlichkeiten klar regelt.

Was es kostet, realistisch gerechnet

Einmalige Einrichtungskosten

  • CDISC-Mapping-Setup (CDASH → SDTM LB, ADaM ADLB): 8.000–20.000 € (externe Biostatistiker oder CDISC-Experten, typisch 3–6 Wochen Aufwand)
  • Validierungsdokumentation (VMP, URS, DQ/OQ/PQ nach GAMP 5): 5.000–15.000 €, je nach Tool-Komplexität und vorhandener Infrastruktur
  • Pipeline-Integration (EDC → Transformations-Layer → CSR-Output): 5.000–15.000 € (je nach Eigenentwicklung vs. SaaS-Modul)
  • Gesamt: 20.000–50.000 € für einen vollständig validierten, submissionstauglichen ersten Einsatz

Laufende Kosten (monatlich)

  • SAS Viya Enterprise: 7.000–25.000 €/Monat (Jahresvertrag, abhängig von Ressourcen)
  • KNIME Business Hub: 1.500–4.000 €/Monat (Team-Betrieb)
  • Medidata Rave Clinical Data Studio: im Rahmen der Rave-EDC-Lizenz, Preise auf Anfrage
  • Wartung und Mapping-Updates bei neuen Studientypen: 100–200 Stunden/Jahr interner Aufwand

Konservatives ROI-Szenario: Eine mittelgroße Pharmaorganisation mit 5 gleichzeitigen Phase-II-Studien und je einem 6-wöchigen manuellen Cleaning-Zyklus spart durch Automatisierung 3 Wochen pro Studie. Bei einem Data-Manager-Tagessatz von 400–700 € (Gehalt inkl. Nebenkosten) ergibt das 6.000–10.500 € je Studie, bei 5 Studien jährlich: 30.000–52.500 € direkte Einsparung. Dazu kommen die schwerer messbaren Effekte: früherer Datenlock, frühere Analyse, frühere Einreichung.

Wie du den Nutzen tatsächlich misst: Führe vor dem Projekt eine Baseline-Messung ein: Cleaning-Zyklen je Studie in Tagen, Query-Resolution-Zeit in Stunden, Datentransformationsaufwand in Personen-Tagen. Drei Studien nach Einführung der Pipeline misst du dieselben Kennzahlen. Die Differenz ist dein ROI, belegt mit internen Zeiterfassungsdaten, nicht mit Schätzungen.

Typische Einstiegsfehler

1. Die Pipeline ohne CDISC-Setup in Betrieb nehmen. Das häufigste und teuerste Missverständnis: Teams bauen eine Automatisierung, die Labordaten verarbeitet und Ausreißer markiert, aber die Ausgabe entspricht nicht dem SDTM-Standard. Das Ergebnis ist ein System, das intern nützlich erscheint, aber für Regulatory Affairs wertlos ist. Ein Pinnacle-21-Validierungscheck auf den Output zeigt das sofort. Lösung: CDISC-Compliance als nicht-verhandelbare Anforderung von Anfang an, nicht als nachträgliche Anpassung.

2. Das SAE-Flagging als vollautomatische Entscheidungsebene einsetzen. Automatisches Flagging setzt potenzielle Sicherheitssignale auf die Prioritätsliste, es entscheidet nicht, ob ein SAE vorliegt. Diese Entscheidung trifft ein qualifizierter Medical Monitor oder Biostatistiker. Teams, die das Flagging-System als finale Instanz behandeln, riskieren übersehene Sicherheitssignale (bei konservativ kalibriertem System) oder Query-Flut (bei zu sensitiv kalibriertem System). Und: Wenn ein SAE im automatisierten System nicht gemeldet wird, weil das Flag nicht gesetzt wurde, trägt der Sponsor die regulatorische Konsequenz, nicht der Algorithmus.

3. Validierungsdokumentation als Nacharbeit behandeln. Viele Projekte schreiben die Validierungsdokumentation nach der Implementierung, weil die Pipeline ja “schon läuft”. Das ist ein 21 CFR Part 11-Problem: Ohne prospektive Dokumentation (VMP vor Projektstart, URS vor Design, DQ/OQ/PQ vor Go-live) ist das System nicht regulatorisch akzeptabel. Nachdokumentieren ist möglich, aber aufwändig und rechtlich riskant, weil die Dokumentation nicht den tatsächlichen Entwicklungszustand widerspiegelt. Lösung: Validation Master Plan in der Initiierungsphase schreiben, nicht nach dem Go-live.

4. Die Pipeline nach der ersten Studie nicht pflegen. Das ist der stille Langzeitfehler. Nach der ersten erfolgreichen Studie wird die Pipeline als “fertig” betrachtet. Aber: CDISC veröffentlicht jährlich neue SDTM-Versionen, Pinnacle 21 aktualisiert Validierungsregeln, das Labor ändert seinen Export, der Sponsor wechselt das EDC-System. Eine Datenpipeline ohne definierten Update-Prozess, ohne namentliche Verantwortlichkeit und ohne Change-Control-Verfahren degradiert still, sie gibt weiterhin Output aus, aber der Output wird leiser falsch. Wer keine Person benennt, die für den Maintenance des Mapping-Schemas verantwortlich ist, hat in 18 Monaten ein System, das submissionsrelevante Fehler macht.

Was mit der Einführung wirklich passiert, und was nicht

Die Technik ist das Einfachste. Das Schwierigste ist das Vertrauen.

Das “Das-hat-uns-die-Behörde-nicht-bestätigt”-Problem. Biostatistiker, die seit 15 Jahren SAS-Skripte für SDTM-Transformationen schreiben, werden von einer Pipeline, die das “automatisch” macht, erst dann überzeugt, wenn sie den Pinnacle-21-Check-Report gesehen haben. Das ist verständlich und richtig: In klinischen Studien ist Skepsis gegenüber neuen Systemen eine professionelle Tugend. Lösung: Zeig die Validierungsdokumentation, nicht nur die Pipeline-Ausgabe. Die erste Studie sollte parallel laufen, manuell und automatisiert, damit die Ergebnisse direkt verglichen werden können.

Das SAE-Flagging-Misstrauen. Safety-Teams sind zu Recht vorsichtig. Wenn ein automatisiertes System ein Flag setzt, das nachher als False Positive gilt, verlieren Medical Monitor und Data Manager schnell das Vertrauen in das System. Wenn das System ein SAE nicht flaggt und es einem menschlichen Reviewer erst spät auffällt, ist das System für das Team “kaputt”, egal wie selten das passiert. Lösung: Transparenz über die Flagging-Regeln (welche Schwellenwerte, welche Protokollreferenz) und einen klaren Prozess für False-Positive-Feedback.

Das “Jetzt müssen wir weniger Personal einstellen”-Missverständnis. Automatisierung im klinischen Datenmanagement ersetzt keine Stellen, sie ermöglicht mehr Studien mit demselben Team. Das ist keine Sprachregelung, sondern Realität in wachsenden mittelständischen Pharmaunternehmen. Data Manager, die weniger Zeit mit Datentransformation verbringen, übernehmen anspruchsvollere Aufgaben: Datenqualitätsstrategie, SAP-Entwicklung, DSMB-Vorbereitung. Wenn das Team das Projekt als Rationalisierungstool versteht statt als Kapazitätserweiterung, ist die Einführung deutlich schwieriger.

Realistischer Zeitplan mit Risikohinweisen

PhaseDauerWas passiertTypisches Risiko
Anforderungsanalyse & ScopingWoche 1–3EDC-System dokumentieren, CDISC-Reifegrad bewerten, SDTM/ADaM-Anforderungen aus SAP ableiten, Laborformate inventarisierenMehr Laborformate als erwartet, jedes braucht eigenes Mapping
CDISC-Mapping-EntwicklungWoche 4–8CDASH→SDTM LB-Mapping erstellen, ADaM ADLB-Ableitung definieren, SUPPQUAL-Domänen klärenLOINC-Codes fehlen im Labor-Export, manuelle Klärung mit Zentrallabor nötig
ValidierungsdokumentationWoche 5–12VMP, URS, DQ/OQ schreiben; Test-Cases für UAT definieren; erste Pinnacle-21-ChecksValidierungsressourcen fehlen intern, externer Berater nötig, Verzögerung wahrscheinlich
User Acceptance Test (UAT)Woche 10–16Biostatistiker und QA testen mit echten (anonymisierten) Studiendaten; Abweichungen dokumentiert und behobenUAT deckt unerwartete Mapping-Fehler auf, Schleife zurück zu Phase 2
Go-live erste StudieWoche 14–20Produktiver Betrieb mit paralleler manueller Kontrolle; Discrepancy-Log geführtVertrauen im Team niedrig bei erstem False-Positive-Flag, Kommunikationsprozess vorbereiten
Einführung weiterer StudientypenAb Monat 6Mapping-Schema auf neue Indikationen erweitern; neue CDISC-Versionen einpflegenChange-Control-Prozess nicht definiert, unkontrollierte Schema-Änderungen

Häufige Einwände, und was dahintersteckt

“Unsere Biostatistiker schreiben lieber selbst in SAS.” Das ist kein Einwand gegen Automatisierung, sondern ein Hinweis auf den richtigen Scope. SAS-Skripte für SDTM-Transformationen sind validierbar, das ist ihr Vorteil. Die Frage ist nicht “Automation vs. SAS”, sondern: Werden die SAS-Skripte in einer Umgebung mit Versionskontrolle, Audit Trail und Change Control geführt? Oder existieren sie als Einzeldateien auf lokalen Laufwerken? Wenn Letzteres, dann ist die Pipeline kein Ersatz für SAS, sondern die Governance-Schicht, die SAS regulatorisch akzeptabel macht.

“Wir haben zu wenige Studien, um den Aufwand zu rechtfertigen.” Das stimmt unter zwei Bedingungen: wenn wirklich weniger als drei gleichzeitige Studien laufen und wenn alle ähnliche Laborparameter messen. Ab drei Studien amortisiert sich das initiale Mapping-Setup typisch innerhalb von 12–18 Monaten. Wer heute drei Studien hat und plant, in zwei Jahren fünf zu führen, sollte die Pipeline jetzt aufbauen, nicht wenn der Druck schon auf dem Team lastet.

“Was, wenn die Pipeline einen SAE übersieht?” Das ist die richtige Frage, und die ehrliche Antwort ist: Das kann passieren, wenn das System falsch kalibriert oder nicht vollständig validiert ist. Deswegen ist das SAE-Flagging kein vollautomatischer Prozess, sondern eine Priorisierungs-Schicht. Der Biostatistiker oder Safety Officer sieht immer alle Flags, das System setzt die Priorität, der Mensch entscheidet. Wer das System als Entscheider betreibt statt als Filter, hat das Sicherheitskonzept falsch implementiert.

Woran du merkst, dass das zu dir passt

  • Du führst gleichzeitig mindestens drei klinische Studien mit Laborendpunkten und bemerkst, dass die Cleaning-Zyklen alle ähnlich ablaufen, dasselbe manuelle Mapping, dieselben Queries, dieselben Tabellen für jeden CSR
  • Dein Data Manager verbringt mehr als 30 % der Arbeitszeit mit CDISC-Transformationen und Query-Generierung statt mit Datenqualitätsstrategie
  • Ihr habt bereits ein validiertes EDC im Einsatz (Medidata Rave, Oracle Clinical, Veeva Vault CTMS), die Grundinfrastruktur existiert, der nächste Schritt ist die Pipeline darüber
  • Regulatory Affairs fordert CDISC-konforme SDTM-Pakete für Submissions, der manuelle Prozess ist fehlerbehaftet oder langsam
  • Ihr habt Data Safety Monitoring Board-Sitzungen, bei denen Labordaten nicht rechtzeitig ready sind

Drei harte Ausschlusskriterien, wann es sich noch nicht lohnt:

  1. Weniger als drei gleichzeitige Studien oder alle Phase I (kleine n). Der Aufwand für Mapping-Setup, Validierungsdokumentation und Pipeline-Maintenance übersteigt den Nutzen. Phase-I-Studien mit 10–30 Probanden und wenigen Laborparametern lassen sich schneller manuell cleanen als eine vollständige CDISC-Pipeline aufzubauen. Kein EDC und kein CDISC-Prozess vorhanden? Erst das Fundament legen.

  2. Kein validiertes EDC oder kein CDISC-Prozess etabliert. Eine KI-Datenpipeline braucht strukturierte Eingabedaten. Wenn Rohdaten aus dem Labor direkt in Excel-Sheets landen und das SDTM-Mapping noch nirgends dokumentiert ist, ist die erste Investition nicht in KI, sondern in CDISC-Implementierung und EDC-Setup. Die Pipeline kommt danach, nicht davor.

  3. Keine validierte GxP-IT-Infrastruktur (CSV-Fähigkeit fehlt). Wenn das Unternehmen noch keine Erfahrung mit Computerized System Validation (CSV) nach GAMP 5 hat, kein VMP, kein Change-Control-Prozess, keine Qualified Person für IT-Systeme, dann ist der regulatorische Aufwand für die Validierung der KI-Pipeline größer als der operative Nutzen. Zuerst CSV-Kompetenz aufbauen, dann skalieren.

Das kannst du heute noch tun

Der schnellste Einstieg ohne regulatorischen Aufwand: Hol dir einen aktuellen Labordaten-Export aus einer abgeschlossenen Studie (vollständig pseudonymisiert) und teste, wie gut dein bestehendes CDISC-Mapping zu automatisieren wäre. Konkret:

  1. Exportiere 200–500 Zeilen Labordaten aus eurem EDC (nur pseudonymisierte Testdaten)
  2. Öffne das kostenlose Pinnacle 21 Community, das Standardwerkzeug zum Prüfen von SDTM-Datensätzen
  3. Lad deinen aktuellen manuell erstellten SDTM-Output hoch und lass den Validator laufen
  4. Die Fehlerliste zeigt dir, wo heute Lücken in eurem Prozess sind, das ist der Scope für die Automatisierung

Für eine erste Einschätzung, welche Laborparameter-Ausreißer am häufigsten manuellen Aufwand erzeugen, hilft dieser Prompt direkt:

Prompt: Laborwert-Ausreißeranalyse und Query-Generierung
Du bist ein erfahrener klinischer Biostatistiker mit CDISC-Expertise. Ich habe folgende Labordaten aus einer klinischen Studie (SDTM-Domäne LB): [LABORDATEN-EXPORT HIER EINFÜGEN, nur pseudonymisierte Werte, keine personenbezogenen Identifikatoren] Bitte analysiere diese Daten und: 1. Identifiziere alle Werte, die mehr als 3× die Standardabweichung vom Baseline-Mittelwert abweichen (pro Laborparameter und Behandlungsgruppe) 2. Kennzeichne Werte, die nach ICH E3 §11.4 als "potentially clinically significant" einzustufen wären, basierend auf den ULN-/LLN-Angaben im Datensatz 3. Erstelle eine tabellarische Übersicht: USUBJID | VISIT | LBTEST | LBORRES | LBNRIND | Bewertung 4. Formuliere für jeden auffälligen Wert einen standardisierten Query-Text an den Prüfarzt (auf Englisch, nach CDISC-Konvention) 5. Weise auf fehlende SDTM-Pflichtfelder oder Inkonsistenzen im Datensatz hin Studienprotokoll-Kontext: - Studienphase: [PHASE I/II/III/IV] - Indikation: [INDIKATION] - Primäre Sicherheits-Laborparameter: [LISTE DER PARAMETER] - Protokolldefinierte Grenzwerte für SAE-Bewertung: [SCHWELLENWERTE]
Funktioniert mit Claude, ChatGPT (Enterprise), SAS Viya (mit LLM-Modul)
Beispiel-Ausgabe

Mitarbeiter:in

LBTEST: ALT | LBORRES: 187 | LBORRESU: U/L | LBNRIND: HIGH | LBBLFL: N | VISITNUM: 3 | VISIT: WEEK 8 | USUBJID: STUDY001-0042 | ULN: 40 U/L

KI-Assistent

Auffälliger Laborwert identifiziert: USUBJID: STUDY001-0042 | VISIT: WEEK 8 | LBTEST: ALT | Wert: 187 U/L | ULN: 40 U/L | Abweichung: 4,7× ULN Bewertung nach ICH E3 §11.4: Potentially clinically significant, ALT >3× ULN gilt als hepatotoxizitäts-relevanter Schwellenwert (FDA/EMA-Guidance). SDTM-Prüfung: LBNRIND ist 'HIGH', jedoch fehlt LBSTNRHI (standardisierter oberer Normalbereich) im vorliegenden Datensatz. Pinnacle-21-Fehler: LB.LBSTNRHI fehlt für 23 % der Datensätze, Mapping anpassen. Generierter Query an Prüfarzt (EN): "STUDY001-0042, WEEK 8: ALT value of 187 U/L exceeds 3× ULN (40 U/L). Please confirm: (1) Was a repeat measurement taken within 7 days? (2) Was the subject symptomatic? (3) Were any concomitant medications introduced between Visit 2 and Visit 3? Please provide source documentation." Hinweis: Dieser Wert erfüllt die Kriterien für eine potenzielle SAE-Bewertung (Hy's Law: ALT >3× ULN + klinische Symptomatik). Bitte Medical Monitor einbeziehen.

Quellen & Methodik

  • Saama Technologies + Pfizer (2023): Saama dokumentierte in einem 2023 veröffentlichten Case-Study-Bericht, dass klinische Datensätze durch ihre Plattform innerhalb von Tagen statt Monaten cleaning-fertig waren; spezifisch: bis zu 90 % Reduktion der Query-Generierungszeit pro Query, 50 % Zeitersparnis bei Datentransformationen. Quelle: Saama Technologies, Business Wire (20. Juni 2023): saama.com/news/saama-launches-industrys-first-ai-driven-data-platform
  • AbbVie ML-Modul für SDTM-Transformation: Applied Clinical Trials Online, „The Future of SDTM Transformation: AI and HITL”, AbbVie deployment of ML for SDTM transformation using legacy datasets. Quelle: appliedclinicaltrialsonline.com/view/the-future-of-sdtm-transformation-ai-and-hitl
  • SAE-Flagging Failure Mode (F1-Score 56–66 %): Multicenter-Studie (eBioMedicine 2025): GPT-4o für die Erkennung immunvermittelter unerwünschter Ereignisse zeigte F1-Scores zwischen 56 % und 66 % je nach Studienzentrum, nicht ausreichend für regulatorische Entscheidungsunterstützung. Abgerufen über: pmc.ncbi.nlm.nih.gov/articles/PMC12317250
  • ICH E6(R3) GCP-Leitlinie (2023): Draft-Guideline veröffentlicht Mai 2023, finalisiert 2025. Explizite Anforderung: KI-Systeme in klinischen Studien müssen validiert werden. EMA-Quelle: database.ich.org/sites/default/files/ICH_E6(R3)_DraftGuideline_2023_0519.pdf
  • FDA 21 CFR Part 11 / EU Annex 11: FDA Q&A-Guidance „Electronic Systems, Electronic Records, and Electronic Signatures in Clinical Investigations” (Oktober 2024), 29 Fragen zu AI/ML, Datenintegrität und Validierungsanforderungen. Quelle: IntuitionLabs Zusammenfassung: intuitionlabs.ai/articles/21-cfr-part-11-compliance-ai-systems
  • CDISC SDTM LB-Domäne: CDISC SDTM Implementation Guide (SDTMIG), aktuelle Version unter cdisc.org/standards/foundational/sdtmig
  • Implementierungskosten: Erfahrungswerte aus Pharma-KI-Projekten; ergänzt durch IntuitionLabs-Analyse zu Build-vs-Buy-Entscheidungen im Pharma (2024): typisch $25.000–$100.000 pro Use-Case-Implementierung. Quelle: intuitionlabs.ai/articles/build-vs-buy-ai-pharma-strategy
  • Medidata Clinical Data Studio: Medidata Solutions, Produktankündigung Juni 2024 (globaler Launch). Quelle: medidata.com

Du willst wissen, welche Schritte für eure CDISC-Pipeline als nächstes sinnvoll wären, abhängig von eurem EDC-System und Studienvolumen? Meld dich für ein kurzes Gespräch.

Diesen Inhalt teilen:

🤝

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Viele, die diesen Use Case lesen, versuchen es danach allein. Das kostet Wochen: Datenschutzfragen, Toolauswahl, Prompt-Engineering, interne Überzeugungsarbeit. Wir kennen diese Stolperstellen, weil wir das Setup schon gebaut haben. Schreib uns kurz, das Erstgespräch ist kostenlos und unverbindlich.

Deine Daten werden ausschließlich zur Bearbeitung deiner Anfrage verwendet (Art. 6 Abs. 1 lit. b DSGVO). Mehr in unserer Datenschutzerklärung.

Frieda Funke

Konzeptentwicklerin

Ich frage nicht, was KI kann. Ich frage, was du in deinem Alltag damit anfängst. Erst wenn ich eine ehrliche Antwort habe, entsteht daraus ein konkreter Use Case. Fehlt ein Anwendungsfall, der zu dir passt? Schreib mir kurz.

Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–4 Themen, du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar