Mit GenAI zur Strukturierung unstrukturierter Daten in RWE-Studien
DATUM
16. Oktober 2024
AUTOR
Dragan | Co-Founder & CTO
Einführung
Real-World Evidence (RWE) Studien stützen sich auf ein vielfältiges Maß an Datenquellen, um aussagekräftige Schlussfolgerungen zu ziehen. Trotz ihrer Wichtigkeit bleiben viele dieser Daten unstrukturiert, was Forscher:innen und Pharmaunternehmen vor große Herausforderungen stellt. Unstrukturierte Daten, wie klinische Notizen, Patientenfeedback und Aufzeichnungen aus externen Datenbanken, liegen oft in Formaten vor, die mit herkömmlichen Methoden wie relationalen Datenbanken, manueller Überprüfung und regelbasierten Systemen nur schwer zu verarbeiten sind. Infolgedessen werden diese Quellen häufig nicht ausreichend genutzt, wodurch das Potenzial von RWE, verwertbare Erkenntnisse zu liefern, verringert wird.
Hier kommt generative künstliche Intelligenz (engl. “Generative Artificial Intelligence” oder “GenAI”) ins Spiel. In diesem Beitrag werden wir untersuchen, wie GenAI den Umgang mit unstrukturierten Daten in RWE-Studien revolutioniert. Wir werden uns mit ihrer Fähigkeit beschäftigen, chaotische, unstrukturierte Informationen zu verarbeiten, zu kategorisieren und in gut organisierte Datensätze umzuwandeln, die leichter zu analysieren, zu überwachen und Erkenntnisse daraus abzuleiten sind.
Darüber hinaus werden wir bewährte Verfahren für die Integration von GenAI in Datenmanagement-Workflows erläutern. Von Datenschutz und ethischen Erwägungen bis hin zur Maximierung der Kapitalrendite bieten wir strategische Leitlinien, die sicherstellen, dass Ihre GenAI-Implementierung sowohl erfolgreich als auch gesetzeskonform ist. Durch die Nutzung der Leistungsfähigkeit von GenAI können Forscher:innen klare und besser verwertbare Erkenntnisse gewinnen, die letztendlich zu einer schnelleren und effektiveren Arzneimittelentwicklung führen und die Ergebnisse für die Patient:innen verbessern.
1. Die Herausforderung von unstrukturierten Daten in RWE-Studien
RWE-Studien sind für das Verständnis von Patientenerfahrungen, Arzneimittelwirksamkeit und langfristigen Sicherheitsergebnissen in der medizinischen Routineversorgung unerlässlich geworden. Im Gegensatz zu randomisierten kontrollierten klinischen Studien (RCTs) stützen sich RWE-Studien auf eine Vielzahl von Datenquellen, die von elektronischen Patientenakten (ePA) und Versicherungsansprüchen bis hin zu klinischen Aufzeichnungen, von Patient:innen gemeldeten Ergebnissen und sogar sozialen Medien oder tragbaren Geräten reichen. Viele dieser Daten, insbesondere klinische Aufzeichnungen und Patientenfeedback, sind unstrukturiert, was die Analyse und die Gewinnung verwertbarer Erkenntnisse erschwert.
Eigenschaften unstrukturierter Daten in RWE-Studien
Unstrukturierte Daten sind Informationen, die sich nicht in herkömmliche Datenbanken oder Tabellenkalkulationen einordnen lassen. Im Gesundheitswesen zählen dazu:
- Klinische Notizen: Ärzt:innen dokumentieren Patientenbeobachtungen oft im Freitextformat, verwenden Abkürzungen, Kurzschrift und unterschiedliche Terminologien, die sich nur schwer systemübergreifend standardisieren lassen.
- Patienten-Feedback: Von Patient:innen gesammelte Informationen – sei es in Form von Umfrageantworten, Krankengeschichten oder subjektiven Symptombeschreibungen – enthalten wertvolle qualitative Erkenntnisse, sind jedoch oft schwer zu quantifizieren oder zu kategorisieren.
- Externe Datenbanken und Berichte: Verschiedene Datenbanken (etwa Zulassungsanträge, Berichte zur Arzneimittelsicherheit und Literaturberichte) enthalten Daten in unterschiedlichen Formaten, was die Datenintegration weiter erschwert.
Schätzungsweise 80% der Daten im Gesundheitswesen sind unstrukturiert. Die Herausforderung besteht darin, diese unstrukturierten Daten so zu verarbeiten, dass sie wertvolle, verwertbare Erkenntnisse liefern. Herkömmliche Methoden sind unzureichend, da sie für die Verarbeitung strukturierter Daten konzipiert sind, die in Spalten und Zeilen organisiert sind, wie Laborergebnisse oder Abrechnungscodes, was ihre Fähigkeit einschränkt, mit narrativen Texten oder qualitativen Daten umzugehen.
Grenzen der traditionellen Methoden
Herkömmliche Datenanalysetools, die gut mit strukturierten Daten arbeiten, haben Schwierigkeiten mit unstrukturierten Formaten. Relationale Datenbanken und Statistiksoftware eignen sich beispielsweise hervorragend für die Verarbeitung numerischer Daten, können jedoch Freitextnotizen oder subjektive Patientenberichte nicht richtig verarbeiten und interpretieren.
Zwar wurden Technologien zur Verarbeitung natürlicher Sprache (NLP) auf unstrukturierte Gesundheitsdaten angewandt, doch stoßen viele NLP-Modelle an ihre Grenzen, wenn es um die Komplexität des medizinischen Jargons, multimodale Datenformate oder die informelle Sprache der Patienten geht. So enthalten klinische Notizen häufig Abkürzungen, medizinische Akronyme und nuancierte Beschreibungen, die ohne spezielle Algorithmen nur schwer zu interpretieren sind. Selbst fortschrittliche NLP-Tools können wichtige Zusammenhänge übersehen, was zu einer ungenauen oder unvollständigen Datenextraktion führt.
Die manuelle Datenüberprüfung ist zwar eine Option, aber sowohl zeitaufwändig als auch anfällig für menschliche Fehler. Dies kann sich negativ auf wichtige Leistungsindikatoren (KPIs) wie Datenverarbeitungszeit und Datenqualität auswirken, was zu ineffizienten Arbeitsabläufen und potenziell fehlerhaften Erkenntnissen führt.
GenAI als Lösung
GenAI bietet eine leistungsstarke Lösung für die Herausforderungen, die unstrukturierte Daten in RWE-Studien mit sich bringen. Im Gegensatz zu herkömmlichen Ansätzen sind GenAI-Modelle, die auf fortschrittlichen Algorithmen des maschinellen Lernens basieren, in der Lage, große Mengen an unstrukturierten Texten, Bildern und anderen Datentypen zu analysieren und zu interpretieren. Diese Modelle nutzen Deep Learning, um Muster zu erkennen und Bedeutungen aus komplexen Datensätzen zu extrahieren, was sie bei der Strukturierung unstrukturierter Gesundheitsdaten äußerst effektiv macht.
Automatisierte Datenstrukturierung
GenAI-Modelle können die Kategorisierung und Zusammenfassung unstrukturierter Daten automatisieren und so den Zeit- und Arbeitsaufwand für die Verarbeitung komplexer Datensätze erheblich reduzieren. So kann ein GenAI-Tool beispielsweise klinische Aufzeichnungen analysieren, wichtige Informationen (z. B. Diagnosen, Behandlungen und Ergebnisse) extrahieren und sie zur leichteren Analyse in strukturierte Formate wie Tabellen oder Diagramme einordnen. Tools wie IBM Watson Health haben gezeigt, dass sie in der Lage sind, große Mengen unstrukturierter medizinischer Texte mit hoher Genauigkeit zu verarbeiten und klinische Aufzeichnungen automatisch in strukturierte Daten umzuwandeln, die für die Forschung in der Praxis geeignet sind.
Verbesserung der Datenqualität und -vollständigkeit
Bei RWE-Studien ist die Vollständigkeit der Daten eine wichtige Schlüsselkennzahl, insbesondere bei der Bewertung der Sicherheit und Wirksamkeit von Arzneimitteln. Während herkömmliche Tools oft nicht in der Lage sind, alle verfügbaren Datenquellen einzubeziehen, kann GenAI Informationen aus einer Vielzahl unstrukturierter Quellen synthetisieren. Indem GenAI Erkenntnisse aus klinischen Aufzeichnungen, Patientenfeedback und externen Datenbanken abruft, sorgt es für einen vollständigeren Datensatz, der zu qualitativ hochwertigeren Ergebnissen führt. Dies verbessert den KPI für die Datenqualität, da mehr relevante Informationen erfasst und analysiert werden.
Beschleunigte Generierung von Erkenntnissen
Ein weiterer entscheidender Vorteil des Einsatzes von GenAI ist die Fähigkeit, die Geschwindigkeit der Erkenntnisgewinnung zu erhöhen. So kann GenAI beispielsweise große Mengen an von Patient:innen gemeldeten Ergebnissen oder Daten aus sozialen Medien nahezu in Echtzeit analysieren und Trends, potenzielle unerwünschte Wirkungen oder Behandlungspfade identifizieren. Dadurch können Pharmaunternehmen und andere Gesundheitsdienstleister schnellere Entscheidungen auf der Grundlage realer Daten treffen und sowohl die Effizienz als auch die Wirksamkeit von RWE-Studien verbessern.
2. GenAI in Aktion: Strukturierung unstrukturierter Daten für bessere Einblicke
GenAI verändert die Art und Weise, wie Unternehmen im Gesundheitswesen unstrukturierte Daten in RWE-Studien verwalten. Dies bietet praktische Lösungen zur Kategorisierung, Zusammenfassung und Ableitung verwertbarer Erkenntnisse aus komplexen Datensätzen. Diese Fähigkeiten haben transformative Auswirkungen auf die Überwachung der Arzneimittelsicherheit und -wirksamkeit, wo eine zeitnahe Datenanalyse entscheidend ist. Im Folgenden untersuchen wir, wie GenAI-Technologien in realen Anwendungen eingesetzt werden, um diese Herausforderungen zu bewältigen.
2.1 Zusammenfassung des Patientenfeedbacks
GenAI ist zudem sehr effektiv bei der Zusammenfassung großer Mengen von Patientenfeedback aus Quellen wie Umfragen, sozialen Medien oder tragbaren Geräten. In großen klinischen Studien oder bei der Überwachung nach der Markteinführung ist das Sammeln von Erkenntnissen aus diesem Feedback entscheidend für die Überwachung der realen Wirksamkeit von Arzneimitteln oder Medizinprodukten.
Die manuelle Überprüfung von Daten aus Tausenden von Patientenberichten wäre sehr zeitaufwändig. Mit einem GenAI-Tool hingegen kann das Feedback automatisch zusammengefasst werden, um häufige Nebenwirkungen, die Einhaltung der Behandlung durch Patient:innen und die allgemeine Zufriedenheit hervorzuheben. Diese Fähigkeit hilft Forscher:innen, schnell kritische Trends zu erkennen, wie etwa unerwartete (schwerwiegende) unerwünschte Ereignisse (S(AEs)) oder Unterschiede in der Wirksamkeit von Medikamenten in verschiedenen Bevölkerungsgruppen.
2.2 Überwachung der Arzneimittelsicherheit in Echtzeit
Eine weitere wichtige Anwendung von GenAI ist die Pharmakovigilanz, d.h. die Überwachung der Arzneimittelsicherheit in Echtzeit. Traditionell stützt sich die Überwachung der Arzneimittelsicherheit auf regelmäßige Überprüfungen von Berichten über unerwünschte Ereignisse, die von Gesundheitsdienstleistern eingereicht werden, was die Erkennung ernsthafter Sicherheitsbedenken verzögern kann. Mit GenAI können Unternehmen unstrukturierte Daten aus verschiedenen Quellen wie klinischen Berichten, Patientenforen und sogar sozialen Medien in Echtzeit analysieren.
Ein Beispiel aus der Praxis ist der Einsatz von KI bei Pfizer zur Verbesserung der Pharmakovigilanz. Durch den Einsatz von GenAI-Modellen zur Verarbeitung unstrukturierter Berichte über unerwünschte Ereignisse und Erwähnungen in sozialen Medien war Pfizer in der Lage, Sicherheitsbedenken in Bezug auf ein neues Medikament in einem Bruchteil der Zeit zu erkennen, die bei manuellen Methoden erforderlich wäre. Durch den Einsatz von GenAI für die Echtzeitüberwachung konnte das Risikoprofil des Medikaments schnell aktualisiert werden, was rechtzeitige Maßnahmen ermöglichte.
2.3 Strukturierung verstreuter Sekundärdaten
GenAI bietet vielversprechende Fortschritte bei der Analyse des Gesundheitswesens, indem es verstreute Sekundärdaten wie EHRs und andere klinische oder operative Quellen strukturiert. GenAI kann unstrukturierte Daten effizient organisieren und klassifizieren und aussagekräftige Muster aus elektronischen Patientenakten, klinischen Studiendaten und Versicherungsansprüchen extrahieren. Dies beschleunigt die Forschung und verbessert die Entscheidungsfindung im Gesundheitswesen.
McKinsey & Company berichtet von einem starken Anstieg bei KI-gesteuerten Tools für die Verwaltung von Big Data im Gesundheitswesen und prognostiziert Effizienzgewinne von bis zu 100 Milliarden US-Dollar jährlich durch verbesserte klinische Studiendesigns und verbesserte operative Arbeitsabläufe. KI kann die Lücke zwischen Rohdaten und verwertbaren Erkenntnissen schließen, insbesondere beim Umgang mit ePAs und anderen unstrukturierten Datensätzen.
3. Implementierung von GenAI: Bewährte Verfahren und strategische Überlegungen
Die erfolgreiche Implementierung von GenAI in Datenmanagement-Workflows erfordert eine sorgfältige Planung und strategische Überlegungen, um zentrale Herausforderungen wie den Datenschutz, die Einhaltung ethischer Grundsätze und die Maximierung der Investitionsrendite (ROI) zu bewältigen. Ob bei klinischen Studien oder in anderen Bereichen des Gesundheitswesens – ein robuster Rahmen ist für die effektive Nutzung von GenAI unerlässlich.
3.1 Einhaltung des Rechtsrahmens
Datenschutz und die Einhaltung ethischer Grundsätze sind bei der Implementierung von GenAI in sensiblen Bereichen wie dem Gesundheitswesen von entscheidender Bedeutung. Das Gesetz der Europäischen Union über künstliche Intelligenz (EU AI Act), das sich auf die Regulierung von KI-Technologien in der EU konzentriert, bietet Leitlinien für den verantwortungsvollen Einsatz von KI im Gesundheitswesen und anderen kritischen Sektoren. Diese Verordnung legt den Schwerpunkt auf Transparenz, Fairness und Sicherheit und kategorisiert KI-Anwendungen nach Risikostufen. So müssen beispielsweise Anwendungen mit hohem Risiko, wie sie in der Gesundheitsdiagnostik oder -behandlung eingesetzt werden, strenge Standards in Bezug auf Datenqualität, Datenschutz und ethische Grundsätze erfüllen. Um diese Vorschriften einzuhalten, müssen Gesundheitsunternehmen, die GenAI für Datenmanagement-Workflows nutzen, sicherstellen, dass ihre Modelle überprüfbar und transparent sind. Dies kann regelmäßige Bewertungen, die Einführung menschlicher Aufsicht und die Verwendung erklärbarer KI-Technologien beinhalten. Darüber hinaus ist die strikte Einhaltung der DSGVO (Datenschutz-Grundverordnung) zum Schutz personenbezogener Gesundheitsdaten beim Einsatz von KI in der EU verpflichtend.
3.2 Nutzung von Open-Source-Modellen mit lokalem Hosting
Die Verwendung lokal gehosteter, quelloffener GenAI-Modelle ist eine weitere bewährte Praxis, die die Datensicherheit erhöht und die Abhängigkeit von Diensten Dritter verringert. Plattformen wie Hugging Face, die ein umfangreiches Repository von Open-Source-KI-Modellen anbieten, ermöglichen es Unternehmen, Modelle auf ihren eigenen Servern einzusetzen und zu optimieren. Dadurch wird sichergestellt, dass sensible Gesundheitsdaten im Unternehmen verbleiben, was das Risiko von Datenschutzverletzungen verringert und die Einhaltung von Datenschutzvorschriften wie GDPR und dem Health Insurance Portability and Accountability Act (HIPAA) in den USA gewährleistet.
3.3.Auswahl von Modellen, die auf medizinisches Wissen spezialisiert sind
Für das Gesundheitswesen ist der Einsatz von GenAI-Modellen, die speziell in medizinischem Wissen geschult sind, von entscheidender Bedeutung, um Genauigkeit und Relevanz zu gewährleisten. In den letzten Jahren haben KI-Systeme beim MedQA-Benchmark, einem wichtigen Test zur Bewertung des klinischen Wissens von KI, bemerkenswerte Verbesserungen erzielt. Das herausragende Modell des Jahres 2023, GPT-4 Medprompt, erreichte eine Genauigkeitsrate von 90,2 %, was eine Steigerung von 22,6 Prozentpunkten gegenüber der höchsten Punktzahl des Jahres 2022 bedeutet. Seit der Einführung des Benchmarks im Jahr 2019 hat sich die KI-Leistung bei MedQA fast verdreifacht. Diese Modelle sind sehr leistungsfähig bei der Verarbeitung unstrukturierter Gesundheitsdaten und können dabei helfen, Aufgaben wie die Zusammenfassung der Patientenhistorie, die Identifizierung potenzieller Behandlungsoptionen oder die Kennzeichnung unerwünschter Ereignisse in Echtzeit zu automatisieren und dabei ein hohes Maß an Genauigkeit zu gewährleisten.
3.4 Maximierung der Investitionsrendite (ROI)
Um den ROI zu maximieren, sollten sich Unternehmen darauf konzentrieren, arbeitsintensive Aufgaben mit GenAI zu automatisieren. Die Interpretation und Gewinnung aussagekräftiger Erkenntnisse aus unstrukturierten Daten erfordert Fachwissen, da es darum geht, komplexe Informationen zu analysieren und sie in ein brauchbares Format zu bringen. Dies stellt eine große Herausforderung für Gesundheitsdienstleister und Forscher:innen dar, die solche Daten zur Verbesserung der Patientenversorgung nutzen wollen. Der Einsatz von GenAI-Modellen für solche Aufgaben kann die Effizienz steigern, indem manuelle Eingriffe des Menschen reduziert werden.
Die Verfolgung von KPIs wie Kostensenkungen bei der Datenverarbeitung, eine schnellere Gewinnung von Erkenntnissen und Verbesserungen bei den Patientenergebnissen können quantifizierbare Messgrößen für die Auswirkungen der Implementierung von GenAI liefern. Laut einem Bericht des Stanford AI Index 2024 berichteten 42 % der Unternehmen von Kostensenkungen durch die Implementierung von KI und 59 % von Umsatzsteigerungen, was die Fähigkeit von KI zur Steigerung der Effizienz und des Geschäftswachstums unterstreicht.
Schließlich ist die Zusammenarbeit mit Unternehmen oder Forschungseinrichtungen, die auf KI im Gesundheitswesen spezialisiert sind, ein entscheidender Schritt. Diese Expert:innen können GenAI-Tools an spezifische Anforderungen anpassen. Dank ihrer Erfahrung können vergangene Fehler vermieden werden, was die erfolgreiche Implementierung beschleunigt. In der McKinsey-Umfrage Q1 2024 gaben 59 % der Befragten aus dem Gesundheitswesen – darunter Kostenträger, Anbieter und Healthcare Services and Technology (HST)-Gruppen – an, mit externen Anbietern zusammenzuarbeiten, um maßgeschneiderte GenAI-Lösungen zu entwickeln oder zu integrieren.
Fazit
Der Einsatz von GenAI zur Strukturierung unstrukturierter Daten in RWE-Studien bietet ein bahnbrechendes Potenzial für die Umgestaltung der Gesundheitsforschung. Die Fähigkeit von GenAI, unstrukturierte Datenquellen intelligent zu kategorisieren, zusammenzufassen und Erkenntnisse daraus zu gewinnen, stellt sicher, dass kritische Informationen, die aufgrund ihrer Komplexität oft übersehen werden, in vollem Umfang genutzt werden. Diese Fähigkeit kann die Tiefe und Qualität von RWE-Studien erheblich verbessern und letztlich zu einer besseren Entscheidungsfindung in Bezug auf Arzneimittelsicherheit, Wirksamkeit und Patientenversorgung beitragen.
Climedo steht an der Spitze der Integration von KI-gesteuerten Technologien in RWE-Studien. Unser Team ist in der Lage, Kunden durch die Herausforderungen des Managements unstrukturierter Daten zu führen und die Einhaltung ethischer Standards und Datenschutzbestimmungen zu gewährleisten. Durch eine Partnerschaft mit Climedo können Sie die Vorteile modernster GenAI-Tools voll ausschöpfen, um wertvolle Erkenntnisse zu gewinnen, Arbeitsabläufe zu rationalisieren und zu besseren Patientenergebnissen sowie effektiveren Gesundheitslösungen beizutragen.
Wir freuen uns darauf, in einer persönlichen Demo näher auf diese Möglichkeiten einzugehen.