Validierung von Immunoassay-Testkits

Navigation laden:

Validierung in der Bioanalytik

Besonderheiten am Beispiel der Validierung von Immuno-Assay Testkits

Eine Strategie zur objektiven Bewertung von Analysenverfahren auf der Basis statistischer Methodik

Nicht erst seitdem Ergebnisse von BSE-Tests im Lichte der Öffentlichkeit stehen werden schnelle, kostengünstige Testverfahren nachgefragt. Schnelligkeit, einfache Handhabung, hohe Kapazität und Durchsatz und/oder die mögliche Anwendung vor Ort lassen solche Analysenverfahren attraktiv erscheinen für Labors in den Bereichen:
- Umwelt,
- Biotechnologie,
- Lebensmittel,
- Medizin,
- Pharmazeutische Entwicklung und
- Industrie
Die Frage der Interpretation der Ergebnisse solcher Testverfahren führt sehr schnell zur Bewertung der Richtigkeit und Präzision, d.h. zu zentralen Punkten der Validierung.
Der Einsatz von Referenzsubstanzen, Referenzverfahren oder Ringversuchen dient im Vergleich mit bekannt richtigen und ausreichend präzisen Ergebnissen zur Beurteilung der Eignung des Analysenverfahrens für den vorgesehenen Zweck. Die geforderte Rückführbarkeit auf entsprechende Standards spielt hier eine zentrale Rolle.

Die Aufgabenstellung:

Analysenergebnisse unterschiedlichster Methoden im Vergleich bewerten
Wie können mit gutem Recht als normalverteilt angenommene Messwerte einer Referenzmethode klassischer Analytik mit Ergebnissen von Schnelltests oder Assaytests verglichen werden?
Testkits liefern oft keine stetigen Messwerte sondern Bereichszuordnungen; also qualitative Ergebnisse. Solche Bereichsangaben sind zu allem Überfluss mit verschiedenen Testverfahren auch noch beliebig differenziert, von der
- einfachsten Angabe 'enthalten' bzw. 'nicht enthalten' über
- Gehaltsangaben 'hoch', 'mittel' 'tief' bis hin zu
- fünf und mehr im Beiblatt von Tests genannten einstellbaren Konzentrationsbereichen.
Auch Nichtanalytikern ist das pH-Papier bekannt. Tatsächlich wird hier die pH-Messung durch Farbzuordnung auf 14 oder je nach Hersteller auch weniger Bereichzuordnungen reduziert. Die Angabe des pH-Wertes ist deshalb aber nicht unrichtig oder unpräzise:

Validierung: ‘falsch positiv’/‘falsch negativ’-Ergebnisse oder mit Messwerten?

Nicht jeder quantitative Test ist a-priory geeigneter als ein qualitativer Test
Hintergrund zur Entwicklung der im Vortrag vorgestellten statistischen Strategie zur Bewertung qualitativer und quantitativer Tests im Vergleich ist der in Veröffentlichungen, Normen und Richtlinien immer wieder genannte Vorschlag, die Wahrscheinlichkeit ‘falsch positiver’ bzw. ‘falsch negativer’ Analysenergebnisse als Bewertungskriterium heranzuziehen.
Oft wird von den Autoren nicht genannt, wie solche Ergebnisse mit vertretbarem Aufwand erhalten werden können. Forschungsarbeiten bestimmen mit einer Vielzahl von Messwerten direkt die Häufigkeit ‘falsch positiver’ und ‘falsch negativer’ Ergebnisse in der Nähe der Bereichsgrenzen. In der praktischen Routine ist dieser Aufwand nicht durchführbar.
Zielsetzung und Datenbasis
Auf der Grundlage realer Messwerte von TNT- bzw. PAH-Gehalten einer Vielzahl von Bodenproben wird die Eignung verschiedenster Testverfahren übersichtlich darzustellen sein.
Ein möglicher Anwender sollte sich danach für das Verfahren entscheiden können, das seiner beabsichtigen Anwendung gerecht wird. Kriterium der Validierung ist die Gebrauchstauglichkeit.
Trotz der Vielzahl der angewandten Kombinationen von Verfahren und Proben liegen der Bewertung in jedem Einzelfall durchschnittlich nicht mehr als 6 Wiederholmessungen zugrunde. Die maximale Zahl der Wiederholmessungen in wenigen Messreihen betrug 20, in einigen nur 2. Selbst die äußerst unterschiedlichen Anzahlen von Wiederholmessungen sind in der vorgestellten Auswertestrategie adäquat berücksichtigt.
Projektspezifische Aufgabenstellung - mögliche Bewertungsrahmen zur Validierung von Immuno-Assay-Testkits
Es gibt für die vorliegenden Immuno-Assays keine verbindlichen Spezifikationsgrenzen.
Damit steht zunächst die Frage im Zentrum "Was soll oder was muss ein Testverfahren leisten können?

Lösungsansätze zur Bestimmung der Methoden- und Analysenfähigkeit - Spezifikationsforderungen

Möglichkeit A: Die am Markt befindlichen Tests definieren selbst die zulässige Bandbreite einer Genauigkeit oder Zuverlässigkeit. Spezifikationsgrenzensind dann mit einer für den "Stand der Technik" repräsentativen Präzision zugänglich und die Fähigkeit eines bestimmten Verfahrens in diesen Vorgabegrenzen bestimmbar. Ein aufwendiger Ringversuch wäre erforderlich.
Möglichkeit B: Die Festlegung von Spezifikationsgrenzen orientiert sich an Vorgaben für etablierte Verfahren z.B. einer Wiederfindung zwischen 85%-115% oder zwischen 70%-130%. Solche Festlegungen - aus FDA-, EPA- oder ISO-Richtlinien - sind jedoch oft genug branchenspezifisch. Daneben laufen von außen willkürlich getroffene Festlegungen Gefahr, dem aktuellen "Stand der Technik" neu entwickelter und tatsächlich zu bewertender Verfahren nicht gerecht zu werden.
Möglichkeit C: Jeder Test wird in der ihm eigenen Streuung bewertet.

Vorteile der Lösungstrategie unter Möglichkeit C:

Es gibt keine Einschränkungen zur Verteilung der Ergebnisse oder Ausschlusskriterien wie z.B. "inhomogene Varianz"
Jeder Test setzt seinen eigenen Maßstab zur Bewertung seiner Leistungsfähigkeit in Form der gemessenen Streubreite.
Die eigene Streubreite als Maßstab ist ebenso differenzierbar nach den jeweiligen Messbedingungen. Die Bewertung der Analysenmethode wird damit in jedem Fall der Methode gerecht.
Nur die Frage, ob ein Analysenverfahren hält was es selbst verspricht, ist Maßstab der Beurteilung.
Ein direkter Vergleich qualitativer und quantitativer Tests ist über den Anteil von Falschanalysen untereinander und(!) wechselseitig möglich.
Das Auswahlkriterium aus Anwendersicht ist in Form der Wahrscheinlichkeit von Falschanalysen mit Vertrauensbereich unabhängig von der zutreffenden Verteilung der Messergebnisse.

Bewertungskriterium: Die Angabe des Anteils und des Risikos von Falschanalysen

Die Angabe des Anteils und der Wahrscheinlichkeit von Falschanalysen ist von gleicher Aussagekraft wie Angaben der Wahrscheinlichkeiten von 'falsch-positiven' bzw. 'falsch-negativen' Analysenergebnissen.
Auf das ausdrückliche Zählen der gemessenen Häufigkeiten kann verzichtet werden.
Das Ermitteln des Anteils von Falschanalysen mit Vertrauensbereich als Entscheidungskriterium aus der Sicht des Anwenders ist möglich als Vertrauensbereich:
- des Überschreitungsanteils für normalverteilte Ergebniswerte
- des Fehleranteils für binomialverteilte Ergebniswerte
Aussage als Auswahlkriterium:
Bei einem akzeptierten Anwenderrisiko von 10% (Irrtumswahrscheinlichkeit zur statistischen Berechnung der Vertrauensgrenzen) wird das Risiko der Falschanalyse ermittelt.

Ein Analysenverfahren, das ein Risiko zur Falschanalyse < 50% ergibt, ist prinzipiell besser geeignet als "Münze-Werfen"

Damit bringt die Anwendung eines solchen Tests ein Mehr an Entscheidungssicherheit als sein Nicht-Anwenden.
Die Entscheidung eines sinnvollen Einsatzes hängt dann weiterhin nur noch von Kriterien ab, die allein der Anwender überschauen kann, z.B. von Fragen
- der gewählten statist. Sicherheit P und zugehörigen α- und β-Risiken,
- der Handhabung,
- der Schnelligkeit und
- des Preises.

Ergebnis: Bewertung und Auswahl sinnvoller Analysenverfahren in der Grafik:

Abb 1: qualitative und quantitative Immuno-Assay Tests geordnet nach dem Auswahlkriterium "Risiko der Falschanalyse"Ergebnisse Immunoassays - Risiko der Falschanalyse
Ergebnisse zu unterschiedlichen Tests, Zielsubstanzen, Konzentrationen, Bodenmatrizes und Temperatur während der Analyse sind für Labor und Kunden direkt rückverfolgbar.
Die Grafik zeigt in den oberen Spannweiten den Vertrauensbereich von Falschanalysen, also den mit kalkuliertem Risiko auf der Basis der Anzahl zur Verfügung stehender Wiederholmessungen annehmbaren "worst Case". Überschreitet dieser Fall die 50%, wird die Anwendung eines Analysenverfahrens sinnlos.

Eine kritische Bewertung:

Auf den ersten Blick erscheint dem Praktiker ein Analysenverfahren mit weit mehr als 10% Risiko der Falschanalyse suspekt und inakzeptabel.
Ist das tatsächlich so?

Ein einfaches Zahlenbeispiel soll deshalb das Kriterium 50%-Falschanalysen vorstellen, um mit der neuen Sichtweise vertraut zu machen:
Stellen Sie sich vor, Sie wenden ein Verfahren an, dessen Wiederfindung in einer mit Standard dotierten Probe langfristig im Mittel 100% beträgt. Sie führen eine Regelkarte und stellen fest, dass 0,27% ihrer Analysenergebnisse außerhalb der 3s-Grenzen liegen.
Ihr Analysenverfahren ist damit zweifellos ausreichend präzise und richtig.
Tun wir nun so, als ob wir von dem Verfahren vorher nichts gehört hätten und investieren, je nach Zeit, Person oder apparativer Ausstattung gerade mal in den Aufwand von 2, 5 oder 10 Wiederholmessungen, um das Verfahren zu bewerten oder zwischen verschiedenen Verfahren auszuwählen.
Das "Risiko der Falschanalyse" im worst Case (abgeschätzt bei 10% Irrtumswahrscheinlichkeit einseitig) zeigt:
Das Auswahlkriterium erkennt die präzise und richtige Analysenmethodedas Auswahlkriterium liefert somit eine korrekte Entscheidungsgrundlage auch bei wenigen Wiederholmessungen.
In allen drei Fällen ist mit ca. 3 (genau 2,7) falschen Analysenergebnissen von 1000 zu rechnen. Das Risiko für Falschanalysen ist mit wachsender Erfahrung natürlich exakter bestimmbar. Es ergibt sich ein Risiko von
- 45,9% für n=2
- 8,11% für n=5
- 3,22% für n=10.
Auch mit geringer Zahl von Wiederholmessungen ist der Test als geeignet erkannt und die Analysenfähigkeit bestätigt.
Die Aussage bei n=2 bedeutet ja nicht, langfristig tatsächlich 45,9% Falschanalysen in Kauf nehmen zu müssen, sondern Sie liefert lediglich sehr früh, d.h. bereits nach den ersten beiden Ergebnissen eine Entscheidungsgrundlage.
Entsprechend den Forderungen von QM-Normen läßt sich unser Kriterium vorab zur ersten Qualifizierung für den geplanten Einsatz anwenden.
Die langfristige Beobachtung des Verfahrens und seine Validierung im Routineeinsatz im Hinblick auf Kundenforderungen mit Spezifikationsgrenzen sind natürlich weiterhin erforderlich und ausdrücklich nicht Ziel dieser Erstqualifizierung.

Fazit

Das vorgestellte Auswerteverfahren liefert eine erste Entscheidungsgrundlage für den Vergleich, die Bewertung, Auswahl und Erstqualifizierng von Analysenverfahren.
Das Auswahlkriterium "Risiko der Falschanalyse" eignet sich gerade dann zur Bewertung, wenn keine Spezifikationen als äußere Bezugsgröße vorgegeben sind.
Das Auswahlkriterium ist unabhängig von Testdesign, also der Art der Analysenmethoden oder der Art der Messergebnisse und damit in jedem Fall anwendbar und kompatibel.
Die Auswertestrategie kann genutzt werden, um Analysenverfahren vorab mit begrenztem Aufwand im QM-System zu qualifizieren oder in der Methodenentwicklung eine erste Auswahl geeigneter Verfahren zu treffen.

Referenzen - konkrete Ergebnisse

Projekt-Abschlussbericht: Prof. Dr. A.A. Kettrup, Dr. Petra M. Krämer, Oliver Eikenberg, Konstanze Ebert, "Validierung kommerziell verfügbarer Immunoassays..."
für PAKs (PAHs): Konstanze Ebert, "Validierung von Immunoassay Test-Kits .... ", Diss. TU München 2000
für TNT: Oliver Eikenberg, "Validierung immunochemischer Test-Kits ...", Diss. TU München, 2000; Hieronymus, Buchreproduktions GmbH, München; ISBN 3-89791-159-0

Wir stehen Ihnen gerne für Ihre Fragen zur Verfügung.
Ihr Ansprechpartner ist Dr. Stefan Schömer