Nieuwe standaarden voor prospectieve dubbel blinde studies met Artificial Intelligence in zorg
Kunstmatige intelligentie oftewel Artificial Intelligence heeft in de zorg al enige tijd veel aandacht gekregen. Problematisch is dat veel studies en publicaties, die de zegeningen van de AI verkondigen, veelal niet voldoen aan basiscriteria die wetenschappers stellen aan gedegen onderzoek en publicatie. De gouden standaard is daarbij de prospectieve dubbelblinde gerandomiseerde onderzoeksopzet (Randomised Controlled Trial). Vanwege de vaak slechte kwaliteit van de RCT’s publiceerde een multinationale werkgroep in 1996 het Consolidated Standards of Reporting Trials (CONSORT) Statement en nadien in 2013 het bijbehorende Standard Protocol Items: Recommendations for Interventional Trials (SPIRIT) Statement. De CONSORT-richtlijn onderging revisie in 2001 en 2010. Het CONSORT-statement gaat over de rapportage-richtlijnen en het SPIRIT-statement over de onderzoeksopzet. Na revisies in 2001 en 2010. Op 9 september 2020 maakten Nature Medicine, het British Medical Journal en de Lancet tegelijk bekend dat beide richtlijnen uitgebreid waren. Het gaat om de CONSORT-AI en de SPIRIT-AI.
Hard nodig
Het beschikbaar komen van dergelijke richtlijnen voor AI is van groot belang. Makers van dat soort toepassingen claimen met de door hen gepresenteerde resultaten vaak een gelijkwaardigheid maar ook superioriteit van de AI boven de menselijke beoordeling. Bij nadere beschouwing valt er dan veel op af te dingen. Op 30 december 2019 schreef ik daar al een keer een artikel: “Overhaaste invoering kunstmatige intelligentie in zorg verhoogt risico’s voor patiënt”. Het British Medical Journal publiceerde op 25 maart 2020 ook een zeer kritisch artikel over AI-onderzoeken in de zorg met de titel: “Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies”.
Kritiek in BMJ
De conclusie van het onderzoek toon ik graag integraal:
“Deep learning AI is an innovative and fast moving field with the potential to improve clinical outcomes. Financial investment is pouring in, global media coverage is widespread, and in some cases algorithms are already at marketing and public adoption stage. However, at present, many arguably exaggerated claims exist about equivalence with or superiority over clinicians, which presents a risk for patient safety and population health at the societal level, with AI algorithms applied in some cases to millions of patients. Overpromising language could mean that some studies might inadvertently mislead the media and the public, and potentially lead to the provision of inappropriate care that does not align with patients’ best interests. The development of a higher quality and more transparently reported evidence base moving forward will help to avoid hype, diminish research waste, and protect patients”
Kaf van koren scheiden
Met de nieuwe CONSORT-AI en SPIRIT-AI protocollen gaat het eenvoudiger worden om de kwaliteit van de onderzoeksopzet en de rapportage in wetenschappelijke publicaties op waarde te schatten. Geen patiënt is gebaat met opgeblazen en niet geverifieerde beweringen over de effectiviteit van bepaalde digitale hulpmiddelen. Het gaat dan niet alleen om “tools” om beeldvormend onderzoek “beter” en sneller digitaal te onderzoeken maar ook bijvoorbeeld de digitale chatbot Babylon van het bedrijf Babylon Health. Dat bedrijf beweerde in 2018 dat de resultaten van de Babylon-app op basis van AI gelijk op gingen men die van echte huisartsen. Die bewering stuitte toen ook op duidelijke kritiek van huisartsen(organisaties). Met de Babylon-appp is ook nooit een deugdelijke RCT opgezet.
Door de mand vallen
Het moge duidelijk zijn dat door de CONSORT-AI en de SPIRIT-AI gehypete digitale toepassingen in de zorg genadeloos door de mand gaan vallen. De Babylon-app hoort daar ook bij. Babylon Health weet dat ook dondersgoed, want op hun website staat:
“Babylon’s AI services provide health information only, and do not provide a diagnosis. The AI services respond to the information entered, and the information provided is based on risk factors and statistics, rather than a personalised assessment. The AI services are not a substitute for a doctor, and should not be used in a medical emergency”.
Validering
Ook bij digitale toepassingen in de zorg is validering van cruciaal belang is. Die validering kan uitsluitend op basis van deugdelijke onderzoek en rapportage. De eisen daaraan zijn nu duidelijk geformuleerd en aan de wetenschappelijke wereld kenbaar gemaakt. Ongetwijfeld zullen de makers van AI-toepassingen gaan stellen dat digitale toepassingen andere protocollen behoeven dan de niet-digitale, maar dat kan en mag niet als een deugdelijke verdediging gezien worden. Zoiets zal ook eerst bewezen moeten worden.
W.J. Jongejan 17 september 2020
Leuk artikel, bedankt voor het delen.