Internationale Studie untersucht die Leistung von KI-Modellen zur Hautkrebsdiagnose und identifiziert Sicherheitsrisiken in realen Szenarien.
Frühere Studien haben gezeigt, dass KI in der Dermatologie unter bestimmten Voraussetzungen eine sehr hohe diagnostische Genauigkeit erreichen kann, zum Teil sogar eine höhere als erfahrene Dermatologen. Diese Studie zielt darauf ab, die Leistung von KI-Systemen in realistischen klinischen Szenarien zu bewerten, insbesondere bei Bildern von Krankheitskategorien, die nicht im Trainingsdatensatz enthalten sind, oder bei Bildern mit signifikanten statistischen Verteilungen. Ziel ist es, Kliniker und Regulierungsbehörden über die Sicherheit und Genauigkeit von KI-Systemen im realen Einsatz zu informieren.
Die Studie umfasste 8.238 Bilder, die retrospektiv aus Hautkrebskliniken weltweit gesammelt wurden, darunter Bilder aus der Türkei, Neuseeland, Schweden und Argentinien. Die Bilder wurden nicht individuell nach Ethnizität, Hautfarbe oder Nationalität gekennzeichnet.
Die Studie sah sich einer großer Bildklassifizierungs-Herausforderung gegenüber, bei der die Leistung von Algorithmen zur Hautkrebsdiagnose aus Dermoskopiebildern quantifiziert wurde. Die Algorithmen wurden sowohl auf ihre Fähigkeit getestet, die acht trainierten Kategorien zu erkennen, als auch darauf, ob sie sicher scheitern können, indem sie diagnostische Kategorien korrekt identifizieren, auf die sie nicht trainiert wurden.
Ergebnisse, Schlussfolgerungen und Kritikpunkte
Die besten Algorithmen erreichten eine balancierte Genauigkeit von 58,8% auf dem BCN20000-Datensatz, der realistischere klinische Szenarien widerspiegelt, verglichen mit 82,0% auf HAM10000. Verschobene statistische Verteilungen und Krankheitskategorien, die nicht in den Trainingsdaten enthalten sind, führten zu Genauigkeitsverlusten. Bildartefakte wie Haare, Stiftmarkierungen und Geschwüre verringerten die Genauigkeit auf komplexe Weise.
Die Studie identifiziert spezifische Mängel und Sicherheitsprobleme in KI-Diagnosesystemen für Hautkrebs, die in zukünftigen diagnostischen Bewertungsprotokollen angegangen werden sollten, um Sicherheit und Zuverlässigkeit in der klinischen Praxis zu verbessern.
Die Studie zeigt, dass etwa 50% der Bilder aus Kategorien, die nicht in den Trainingsdaten enthalten sind, fälschlicherweise als bösartig klassifiziert wurden, was zu einer erheblichen Anzahl unnötiger Biopsien führen könnte, wenn aktuelle KI-Technologien klinisch eingesetzt würden.
Fazit
Die Validierung von KI-Modellen zur Hautkrebsdiagnose zeigt vielversprechende Ergebnisse, identifiziert jedoch auch Sicherheitsrisiken, die vor der klinischen Implementierung angegangen werden müssten.
Autor: Redaktion/KI-gestützt
Quelle: Combalia, M., Codella, N., Rotemberg, V., Carrera, C., Dusza, S., Gutman, D., Helba, B., Kittler, H., Kurtansky, N. R., Liopyris, K., Marchetti, M. A., Podlipnik, S., Puig, S., Rinner, C., Tschandl, P., Weber, J., Halpern, A., & Malvehy, J. (2022). Validation of artificial intelligence prediction models for skin cancer diagnosis using dermoscopy images: the 2019 International Skin Imaging Collaboration Grand Challenge. Lancet Digital Health, 4, e330–39.
Bilderquelle: ©-MedicalWorks_stock.adobe_.com_Hautkrebsdiagnose_klein.jpg



