Evidenzbasierte Medizin

Wie werden Studien bewertet?

Wie kann man herausfinden, ob eine Studie etwas taugt? Diese Frage ist für viele Menschen erst einmal überraschend, denn sie gehen davon aus, dass jede Studie neue und verwertbare Erkenntnisse liefert. Doch so einfach ist es leider nicht: Es gibt viele Studien, die keine verlässlichen Informationen liefern.

Umso wichtiger ist es, jede einzelne Studie sorgfältig zu prüfen. Das kann zum Beispiel im Rahmen einer systematischen Übersicht geschehen, die alle verfügbaren Studien zu einer bestimmten medizinischen Frage analysiert.

Um zu bewerten, ob eine Studie verlässliche Daten liefert, muss zunächst einmal geprüft werden, weshalb sie überhaupt gemacht worden ist und welche Fragestellung sie untersucht hat. Das klingt banal, ist aber entscheidend, um erkennen zu können, ob die Studie die gestellte Forschungsfrage überhaupt beantworten kann. Zum Beispiel wird in vielen Studien ein neues Medikament im Vergleich zu einem Scheinmedikament (Placebo) getestet. Wenn es für die Erkrankung aber bereits eine wirksame Behandlung gibt, wird das neue Medikament meist mit der bereits bewährten Behandlung verglichen. Schließlich ist es für Patientinnen und Patienten wichtig, welche Behandlung die besten Erfolgsaussichten hat.

Dann wird geschaut, ob die Methodik der Studie der Forschungsfrage angemessen ist, ob sie sauber durchgeführt wurde oder ob es systematische Fehler (Bias) gab, die das Ergebnis verzerren können.

Wichtige Fragen zur Bewertung einer Studie sind:

  • Ist das Studiendesign zur Beantwortung der Forschungsfrage geeignet? Beispielsweise kann man mit einer Umfrage nicht herausfinden, ob ein neues Operationsverfahren besser ist als ein bewährtes. Dazu braucht man eine randomisierte kontrollierte Studie (RCT).
  • Wie wurden die Teilnehmenden angesprochen und ausgewählt? Wer wurde in die Studie aufgenommen und wer ausgeschlossen? Oft werden etwa Personen mit mehreren Gesundheitsproblemen ausgeschlossen. Das kann dazu führen, dass die Studienergebnisse nur bedingt auf solche Patientinnen und Patienten übertragbar sind.
  • Haben die Forscherinnen und Forscher die Durchführung und die Ergebnisse vollständig und verständlich beschrieben, sodass sich die Studie auch wiederholen und überprüfen ließe?
  • War die Teilnehmerzahl groß genug, um die Forschungsfrage beantworten zu können? Wenn Behandlungen verglichen werden, zeigen sich fast immer kleine Unterschiede in den Ergebnissen. Wissenschaftler berechnen dann, mit welcher Wahrscheinlichkeit diese Unterschiede durch Zufall zustande gekommen sein könnten. Bei diesen Berechnungen spielen zum einen die Größe des Unterschieds und zum anderen die Teilnehmerzahl eine Rolle: Je kleiner der Unterschied, desto mehr Teilnehmer braucht eine Studie, damit ein Unterschied als „echt“ akzeptiert werden kann.
  • Sind die gemessenen Endpunkte geeignet, um den Nutzen der untersuchten Behandlung zu zeigen? Zum Beispiel reicht es bei einer Studie zu einem Diabetes-Medikament nicht aus, nur den Blutzucker zu messen. Wichtig ist, ob das Medikament hilft, Spätfolgen des Diabetes wie Amputationen zu vermeiden. Ein Laborwert wie der Blutzucker (auch Surrogatparameter genannt) allein ist nicht immer aussagekräftig.
  • Ist die Studie lange genug gelaufen? Um etwa den Erfolg einer Ernährungsumstellung bei der Gewichtsabnahme zu bewerten, sollte das Gewicht auch noch nach einem halben oder einem Jahr nach Studienende geprüft werden – vielleicht sogar über einen noch längeren Zeitraum.
  • Wie viele Teilnehmende sind während der Studie ausgeschieden und warum? Wie viele Teilnehmende konnten in der Nachbeobachtung (Follow-up) nicht mehr beobachtet werden und warum? Diese Zahlen erfasst eine gute Studie und gibt an, ob dies die Ergebnisse beeinflusst hat. Das kann etwa der Fall sein, wenn viele Menschen wegen starker Nebenwirkungen die Teilnahme beenden.
  • War die begleitende Behandlung in den Gruppen gleich? Unterschiede kann es vor allem geben, wenn es nicht möglich war, Studienteilnehmende oder Behandelnde zu verblinden.
  • War der Vergleich wirklich fair? Problematisch ist zum Beispiel, ein neues Medikament mit einem Standardmedikament zu vergleichen, wenn es in der Studie schwächer als üblich dosiert wurde.
  • Wurden in beiden Gruppen die gleichen Verfahren verwendet, um den Behandlungserfolg zu messen? Wenn zum Beispiel in der einen Gruppe ein Laborwert erhoben wurde, in der anderen aber zusätzlich geröntgt wurde, kann auch dies das Ergebnis verzerren.

Um RCTs zu bewerten, sind außerdem folgende Informationen nötig:

  • Wie wurden die Gruppen randomisiert? War die Verteilung wirklich zufällig oder was hat die Auswahl beeinflusst?
  • Wurde – falls möglich – sichergestellt, dass weder die Teilnehmenden noch die Ärztinnen und Ärzte noch die Auswertenden wussten, wer in welcher Gruppe war (Verblindung)?
  • Sind alle Teilnehmenden während des Studienzeitraums in der Studiengruppe geblieben, der sie anfangs zugeteilt wurden? Das ist wichtig, damit die Gruppen auch bei der Auswertung am Ende der Studie noch vergleichbar sind.