Sloppy thinking, sloppy statistics, sloppy science bij eHealthpromotie

iWatch en iPhoneHet Nederlandstalige internet magazine Computerworld kwam op 15 maart 2017 met een artikel voorzien van een opzienbarende kop. “Zo redt de Apple Watch levens met deep learning. De Apple Watch ontdekt diabetes en meer aan de hand van hartslag.” Bij kritische lezing van het stuk blijkt de vlag de lading niet te dekken. Aan een elektronisch apparaat en de bijbehorende software worden eigenschappen toegeschreven die in genen dele waar te maken zijn. De bewering dat met een smartwatch van Apple een ziekte als diabetes vastgesteld kan worden, epileptische aanvallen tijdig ontdekt kunnen worden, men vrij nauwkeurig een hoog cholesterolgehalte en slaap-apnoe kan vaststellen wekt zeer grote verwachtingen. De smartwatch zou dat doen op basis van de geregistreerde hartfrequentie en bewegingssensor, waarbij een algoritme kijkt naar verschillen en patronen. Data-analyse, machine learning en deep learning zouden de methodieken zijn waarmee deze afwijkingen vastgesteld kunnen worden. Grote woorden met weinig inhoud.  Met wat basale medische en statistische kennis is dit soort eHealth-propaganda snel te ontzenuwen. Ook blijkt deze berichtgeving mede gebaseerd te zijn op onderzoek dat eerder dit jaar, in januari 2017 gepubliceerd werd door de Stanford University uit de V.S. Die publicatie is gewoonweg “sloppy science”. In de laatste alinea staat er een verwijzing naar. Diagnostische eigenschappen worden daarin toegeschreven aan de zogenaamde wearables, smartwatches en handheld meters, die niet waar te maken zijn.

Nauwkeurigheid

In het artikel van Computerworld laat de auteur de onderzoeker en oprichter van het Cardiogram-project Bradon Ballinger aan het woord. Cardiogram is een app bestemd voor de Apple smartwatch. Hij stelt :

“Het verrassende is hoe nauwkeurig een deep learning-algoritme kan zijn – we hadden een accuratesse van meer dan 80 procent bij veel aandoeningen.” Op een congres zei hij eerder dit jaar dat een neuraal netwerk betere resultaten toonde dan klassiekere methodes van meetbare ziekteprocessen. Abnormale hartritmes worden zelfs meer dan 95 procent correct gemeten.”

Het aardige is dat in deze paar zinnen al duidelijk is dat er een veel hogere nauwkeurigheid is voor hartritme-afwijkingen dan voor andere toepassingen. Dat is op voorhand logisch omdat het vastleggen van de hartfrequentie de manier is om abnormale hartritmes op te sporen. De sensortechniek is geschikt, is specifiek voor die afwijking. Nauwkeurigheden van 80 procent zijn, hoe hoog ze ook lijken, toch absoluut niet voldoende. Bovendien is het alleen praten in termen van nauwkeurigheid geen correcte voorstelling van zaken. Je wilt immers weten of de test niet teveel mensen als ziek aanwijst die het niet zijn, de fout-positieven. Ook wil je niet dat er mensen gemist worden die de ziekte wel hebben, de fout-negatieven.

Sensitiviteit en specificiteit

Bij het vaststellen van een bepaalde ziekte/gezondheidstoestand gaat het er altijd om dat de methodiek nauwkeurig is, correct het wel of niet aanwezig zijn van de ziekte vaststelt.  De sensitiviteit van een geneeskundige test is het percentage terecht positieve uitslagen onder de zieke personen. Hoe hoger de sensitiviteit van een test, hoe groter de kans dat iemand die daadwerkelijk de ziekte heeft, dus een positieve testuitslag krijgt. De specificiteit van een test is het percentage terecht negatieve testuitslagen onder de niet-zieke personen. Beide begrippen worden aangeduid in percentages. Idealiter heeft een volmaakte medische test een sensitiviteit en specificiteit van 100 %. Dat wordt vaak niet bereikt bij een testmethode, maar men dient daar wel zeer dicht in die buurt te komen. 80 procent is te weinig.

Als met bovenstaande vermelding van een nauwkeurigheid van 80 procent gesproken wordt kan het niet anders zijn dan dat men het over de sensitiviteit heeft. Dat betekent dan wel dat er bij gebruik van zo’n test 20 % van de geteste mensen de mededeling krijgt dat ze als ziek gediagnosticeerd zijn zonder dat dat zo is. Loos alarm dus bij 20% van de testgroep. Dat is zeer veel.

Denkfout

Bij de voorbeelden van het vaststellen d.m.v. een smartwatch van diabetes, epileptische aanvallen etc. focust men zich op veranderingen in hartritme- en bewegingspatroonveranderingen die daarbij optreden. Ongetwijfeld zijn die veranderingen er. Maar omgekeerd komen die veranderingen bij een bijzonder groot scala van andere ziektebeelden ook. Het is het verhaal dat een koe een dier met vier poten is, maar niet elk dier met vier poten een koe. Het probleem met het willen gebruiken van niet ziekte-specifieke sensoren is dat nimmer een hoge sensibiliteit en specificiteit gevonden zal worden.  Men vindt correlaties, maar de causaliteit ervan dient men eerst anderszins te bewijzen alvorens uit te gaan van de validiteit van de correlaties. Het is een basisvereiste bij big-data-analyse om die causaliteit met een andersoortige methodiek aan te tonen.

Collateral damage

Door smartwatches te propageren voor diagnostiek op terreinen waar ze a priori niet voor geschikt zijn laat men de verdenking op zich het helemaal niet erg te vinden als een groot aantal mensen ongerust gemaakt worden met een diagnose die ten onrechte gesteld is. Daarnaast neemt men dan ook genoegen met een flink aantal mensen die ten onrechte gerustgesteld worden. Het is niet voor niets dat voor diabetes, een te hoog cholesterolgehalte etc specifieke laboratoriumbepalingen bestaan die gevalideerd zijn en waarvan de sensitiviteit en specificiteit bekend en onomstreden zijn.

eHealth is absoluut niet gebaat met dit soort artikelen die wetenschappelijk geen hout snijden. Het is een soort nep-nieuws. Ze lijken er meer voor te zijn om de geldstroom naar de ontwikkelaars van eHealthtoepassingen in stand te houden.

W.J. Jongejan