PIV-Bulletin 2012-3, Mag het een onsje meer zijn? – Statistisch/methodologische overpeinzingen bij de letselschadepraktijk (Sensitiviteit & specificiteit …)

Samenvatting:

Mag het een onsje meer zijn? – Statistisch/methodologische overpeinzingen bij de letselschadepraktijk (Sensitiviteit & specificiteit …) Drs. J. Lok, arts – Delta Lloyd Groep In mijn dagelijks werk als medisch adviseur valt het mij op dat deskundigenrapporten nog al eens tot de absolute waarheid worden verheven en daarmee een obstakel in de schaderegeling worden in […]

Mag het een onsje meer zijn? – Statistisch/methodologische overpeinzingen bij de letselschadepraktijk (Sensitiviteit & specificiteit …)

Drs. J. Lok, arts – Delta Lloyd Groep

In mijn dagelijks werk als medisch adviseur valt het mij op dat deskundigenrapporten nog al eens tot de absolute waarheid worden verheven en daarmee een obstakel in de schaderegeling worden in plaats van een hulpmiddel. Dat kan gebeuren als uit een deskundigenbericht conclusies worden getrokken die bij kritische analyse niet door het rapport kunnen worden gedragen.
In deze bijdrage wil ik u laten zien op welke wijze u deskundigenrapporten, wetenschappelijke verhandelingen en onderzoekgegevens beter kunt interpreteren om waar nodig de opstellers ervan kritisch te bevragen. Dat alles met als doel tot een snellere schaderegeling te komen.

Als u boodschappen doet, maakt u onbewust gebruik van begrippen die een natuurwetenschappelijke oorsprong hebben. U bestelt bij de groenteman vijf kilogram aardappelen zonder dat u zich daarbij realiseert dat u hem hiermee de opdracht geeft zijn koopwaar af te meten in de grootheid massa en die massa uit te drukken in de eenheid gram. Dat is echter minder vanzelfsprekend dan u denkt.

De kans is groot dat uw grootouders hun aardappelen nog bestelden per mud. Een mud was een inhoudsmaat, overeenkomend met 111 liter. Toen mat men dus aardappelen af in de grootheid inhoud – wat natuurlijk een afgeleide is van de grootheid lengte – en drukte die uit in mud. Dat een mud krieltjes een andere massa vertegenwoordigde dan een mud Eigenheimers deed er kennelijk niet toe.
Met de tijd en de plaats varieerden de grootheden en eenheden waarin goederen werden verhandeld. De keuze van de eenheden hing ook nog wel eens af van het soort koopwaar dat werd verhandeld. Stoffen werden tot heel recent nog in ellen (1 el = 69,4 cm) afgemeten en ruwe olie tot op heden in barrels (159,6 liter).Sinds de invoering van het Système International des Unités (SI) bestaat er een mondiale uniformiteit in grootheden en eenheden.
Voorbeelden van grootheden zijn lengte, tijd, massa of spanning. Eenheden zijn de maten waarin we die grootheden meten; zoals seconde, gram en Volt. Te Sèvres bij Parijs worden de standaardmaten bewaard waaraan meetinstrumenten eventueel kunnen worden geijkt, de zogenaamde “gouden standaarden”.

Zoals ik hierboven al aangaf, maakt u hiervan in het dagelijks leven achteloos gebruik. Ook als u jurist of letsel schadebehandelaar bent zonder natuurwetenschappelijke interesse. U neemt de 5 kg aardappelen in vol vertrouwen van uw groenteboer aan omdat u ervan uitgaat dat de methode waarmee hij de aardappelen weegt goed is, zijn weegschaal geijkt is en u weet dat het gewicht achteraf eventueel controleerbaar is. Als medisch adviseur verbaas ik mij er dan wel eens over dat het gemak waarmee wij ons in het dagelijks leven bedienen van grootheden, eenheden en meetmethoden plotseling omslaat in onbegrip en weerstand als het de letselschaderegeling betreft.
Ik ontmoet dat onbegrip en die weerstand bijvoorbeeld als ik een collega vraag de gestelde beperkingen van zijn cliënt te kwantificeren in grootheden en eenheden. Het kost vaak heel wat moeite om uit te leggen dat de kwalificaties als ‘matig beperkt in lopen’ of ‘licht beperkt in tillen’ niet werkbaar zijn en niet kunnen worden gebruikt om een schade te begroten. Zo verwoord, zijn beperkingen immers niet te meten, te ijken of te controleren. Beperkingen uitgedrukt in uren, meters en kilogrammen zijn dat wel.
Ik neem aan dat iedereen na enige overdenking hier wel begrip voor zal kunnen opbrengen en zijn gevoelsmatige weerstand zal kunnen overwinnen. Immers, als de medisch adviseur heeft aangegeven dat betrokkene tot 10 kg kan tillen dan is het duidelijk dat hij geen zak gips van 25 kg kan tillen. Als de medisch adviseur had aangegeven dat betrokkene matig beperkt is in het tillen dan blijft dat in het ongewisse.

Moeilijker wordt het als sprake is van cognitieve beperkingen als geheugenstoornissen en concentratiestoornissen.
In deze bijdrage zal ik proberen uit te leggen dat we ook deze beperkingen zoveel mogelijk dienen uit te drukken in controleerbare eenheden en dat we aan de wijze waarop we die beperkingen meten dezelfde eisen moeten stellen als aan het afmeten van 5 kg aardappelen omdat we anders niet zinvol kunnen spreken over deze beperkingen en het gestelde niet kunnen controleren.
We moeten ons dan als eerste realiseren dat het meten van een grootheid in feite een test is die tot doel heeft de werkelijkheid te voorspellen. Het is de bedoeling dat als de weegschaal bij de groenteman 5 kg aanwijst de afgewogen hoeveelheid aardappelen werkelijk een massa van 5 kg vertegenwoordigt.

Afhankelijk van het soort meting zijn er getallen waarmee kan worden aangegeven hoe goed een meting is geweest. In het geval van de weegschaal bij de groenteman spreken we van de afwijking. Dat is een getal dat aangeeft hoeveel het werkelijke gewicht kan afwijken van de op de weegschaal aangegeven waarde. Verispect, de geprivatiseerde rechtsopvolger van het IJkwezen, controleert in Nederland allerlei soorten meetinstrumenten die voor handelsdoeleinden worden gebruikt en geeft van ieder instrument de afwijking aan. Is de afwijking van het meetinstrument te groot dan wordt het instrument afgekeurd en mag het niet voor handelsdoeleinden worden gebruikt. U kent allemaal de eenvoudige en goedkope timmermansduimstok (let op ouderwetse eenheidaanduiding van dit meetinstrument) van de hobbymarkt waarop dat vermeld staat.

Met diagnostische testen, ook meetinstrumenten, kunnen we hetzelfde doen, wat zich eenvoudig laat uitleggen aan de hand van een zwangerschapstest omdat men achteraf na negen maanden een goede controle heeft op de eerder verkregen uitslag van de test. Realiseert u zich dat we hier het al of niet baren van een kind als ‘gouden standaard’ hanteren voor de controle op de uitslag van de eerder uitgevoerde test. Om de afwijking van de test van de realiteit aan te geven introduceer ik u twee termen als equivalent van de afwijking van de weegschaal. Twee voor u wellicht nieuwe begrippen.

Sensitiviteit en diagnostische specificiteit

Stelt u zich eens voor dat we in een jonge nieuwbouwwijk als Leidsche Rijn bij Utrecht bij 1000 vrouwen van 25 tot 40 jaar, bij wie de menstruatie al een maand is uitgebleven, een zwangerschapstest zouden uitvoeren en die vrouwen negen maanden vervolgen om te zien of zij een kind krijgen. We zouden dan de volgende tabel kunnen maken (Zie tabel 1).

Tabel 1

Hierin is te lezen dat in de geteste populatie 500 vrouwen een positieve test hadden en 500 vrouwen een negatieve test. Na 9 maanden bleken achteraf ten tijde van de test 550 vrouwen zwanger te zijn geweest en 450 niet. Zoals u ziet lopen de testresultaten niet helemaal parallel met de realiteit. Kennelijk is de test niet in staat geweest om de realiteit voor 100% goed te voorspellen.

Zo bestaan er vals positieve testresultaten. Dat zijn hier de 50 gevallen waarin een vrouw wel een positieve test had maar bij wie later toch geen zwangerschap bleek te bestaan.

Er bestaan ook vals negatieve testuitslagen, in dit voorbeeld de 100 vrouwen met een negatieve testuitslag die later toch een kind baarden. Voor de zorgvuldigheid merk ik hier op dat ik allerlei bijzondere gynaecologische voor deze afwijkingen verklarende uitzonderingen buiten beschouwing heb gelaten doch voor dit verhaal maakt dat niet uit.

Nu kunnen we de kwaliteit van de zwangerschaptest met getallen aangeven. Zo kunnen we aangeven hoe groot de kans is dat de test positief uitvalt als betrokkene echt zwanger is. Dat is de breuk 450/550. Van de werkelijk 550 zwangeren hadden er (slechts) 450 een positieve test. De breuk 450/550 = 0,82 noemen we de sensitiviteit van de test. De sensitiviteit geeft dus de kans aan dat de test positief uitvalt als je werkelijk zwanger bent. Dit getal beschrijft dus het vermogen van de test een zwangerschap te detecteren.
Ook kunnen we de kans berekenen dat de test negatief uitvalt als een vrouw niet zwanger is. Dat is de breuk 400/450 = 0,89 en die noemen we de diagnostische specificiteit. Deze zegt iets over het vermogen andere oorzaken voor het uitblijven van de menstruatie aan te tonen dan zwangerschap.
De sensitiviteit en de diagnostische specificiteit zijn getallen die de testprestaties aangeven en kunnen door de fabrikant van de test worden gebruikt om de kwaliteit van hun product aan te geven. Het is belangrijk zich te realiseren dat de sensitiviteit en de diagnostische specificiteit kengetallen zijn van een test en dat die per test kunnen verschillen.

Afhankelijk van het doel waarvoor de test wordt gebruikt zal men testen uitkiezen met ofwel een hoge sensitiviteit ofwel een hoge diagnostische specificiteit.
Als men op een voettocht van acht maanden door de Andes gaat en voor vertrek zwangerschap wil uitsluiten, zal men voor een test met een hoge sensitiviteit kiezen. Is men op zoek naar andere oorzaken voor het uitblijven van de menstruatie dan zwangerschap, bijvoorbeeld hormoonafwijkingen of tumoren, dan zal men kiezen voor een test met een hoge diagnostische specificiteit. Als belangenbehartiger zult u bij het gebruik van een diagnostische test dus alert zijn op de sensitiviteit ervan, omdat u niet het risico wilt lopen dat de test de schade van uw cliënt mist. Anders geformuleerd wilt u de kans op een vals negatieve testuitslag minimaliseren. Als aangesproken partij zult u alert zijn op de specificiteit van de test, omdat u niet wilt dat ook andere factoren dan het litigieuze moment van invloed zijn op de uitslag van de test. In dat geval wilt u dus de kans op vals positieve uitslagen minimaliseren.
Het voert voor deze bijdrage te ver om uit te leggen hoe de sensitiviteit en de diagnostische specificiteit met elkaar samenhangen. Hier volstaat te melden dat er geen testen voorhanden zijn die op beide kengetallen tegelijkertijd goed presteren.
Daar waar voor de fabrikanten van de test en in sommige gevallen ook de gebruikers van de test de sensitiviteit en specificiteit van de test van belang zijn zullen de meeste kopers van de test daarin nauwelijks geïnteresseerd zijn. Een vrouw echter die wil weten of zij zwanger is zal meer geïnteresseerd zijn in de kans dat zij zwanger is bij een positieve of negatieve testuitslag. Realiseert u zich dat dit een geheel andere kans is dan de hierboven beschreven kansen. Met andere woorden: zij is geïnteresseerd in de kans dat zij zwanger is op voorwaarde dat de test positief uitvalt. Vergelijk dit met de definitie van sensitiviteit als de kans dat de test positief uitvalt op voorwaarde dat de geteste vrouw zwanger is. Hiermee introduceer ik dus een nieuwe kans.

De voorspellende waarde

De sensitiviteit en de diagnostische specificiteit van een test zeggen nog niets over de kans dat een testuitslag ook de werkelijkheid voorspelt; in dit geval dus de kans dat een vrouw bij een positieve test ook daadwerkelijk zwanger is. In het bovengenoemde voorbeeld is dat de breuk 450/500=0,89 (Zie tabel 2) Er waren immers bij 500 vrouwen positieve testuitslagen waarvan er (maar) 450 achteraf zwanger bleken te zijn. Als een vrouw bij deze test een positieve uitslag heeft, dan is de kans dat zij zwanger is dus 89%

Tabel 2

Met deze voorspellende waarde is echter iets vreemds aan de hand.
Stel, we gaan hetzelfde onderzoek met dezelfde zwangerschapstest nog eens overdoen met 1000 vrouwen, bij wie de menstruatie al een maand is uitgebleven, in een oude buitenwijk van Aerdenhout waar we een populatie vrouwen tegenkomen van 35-50 jaar.

We komen dan tot de volgende tabel (Zie tabel 3).

Tabel 3

Deze populatie vrouwen is (natuurlijk) veel minder vruchtbaar en achteraf blijken er maar 10 van de 1000 vrouwen zwanger te zijn geweest. Er waren ook veel minder positieve testen. 117 van de 1000 in Aerdenhout tegen 500 van de 1000 in Leidsche Rijn.
Voor de goede orde vraag ik u nog even te controleren dat de kengetallen van de gebruikte test echt hetzelfde zijn als die van de test die we in Leidsche Rijn gebruikten (omdat vrouwen zich niet laten opdelen in breuken zit er een kleine afrondingsfout van 2% in, doch dat doet aan het principe niet af).
Wat is nu de voorspellende waarde van een positieve test bij een vrouw uit deze populatie uit Aerdenhout? (Zie tabel 4)

Tabel 4

Dat is de breuk 8/117= 0.07

Ondanks dat we dezelfde test als in het onderzoek in Leidsche Rijn hebben gebruikt, is de voorspellende waarde van een positieve testuitslag in het onderzoek in Aerdenhout maar liefst meer dan twaalf maal lager dan in het onderzoek in Leidsche Rijn. Dat klinkt vreemd, maar klopt wel.

De voorspellende waarde van een testuitslag is namelijk afhankelijk van de frequentie van de geteste conditie (hier zwangerschap) in de populatie.
Het is van groot belang zich bij het interpreteren van testuitslagen rekenschap te geven van bovenstaande overwegingen met betrekking tot de sensitiviteit, de diagnostische specificiteit en de voorspellende waarde van een testuitslag. Zonder kennis van de kengetallen van een test en de voorspellende waarde van een testuitslag bij de betreffende populatie kan men aan een testuitslag geen consequenties verbinden. Als u niet weet wat de afwijking is van de weegschaal van uw groenteman kunt u ook niet schatten wat de kans is dat u daadwerkelijk uw 5 kg aardappels heeft gekregen.

Nu terug naar de letselschadepraktijk

Op ongeacht welke test dan ook, kan bovenstaande theorie worden losgelaten. Van een arthroscopie van een knie tot een concentratietest. Ervaren behandelaren van letselschade weten dat een kort na het ongeval genomen röntgenfoto van de pols een naviculare fractuur niet voor 100% kan uitsluiten. Relatief vaak laat een dergelijke fractuur zich kort na het ongeval nog niet afbeelden en wordt de fractuur pas na verloop van tijd zichtbaar. Bij een controlefoto drie weken later wordt de fractuur dan pas gediagnosticeerd. Er is dan bij de vroeg gemaakte foto kennelijk sprake geweest van een vals negatieve uitslag en het zou onjuist zijn om op grond van de in een vroeg stadium gemaakte foto de causaliteit tussen ongeval en fractuur te ontkennen.
U mag uit dit praktijkvoorbeeld nog eens concluderen dat we de kengetallen van de gebruikte test en de voorspellende waarde van de met deze test verkregen testuitslagen onder de gegeven omstandigheden moeten weten om de uitslag van een test te kunnen interpreteren.

Proportionaliteit

Veelal nemen we de juistheid van een testuitslag voor zoete koek aan, net als bij het afwegen van de 5 kg aardappelen. Het is echter nog maar de vraag of dat terecht is en we mogen elkaar zeker niet verhinderen te vragen naar de kengetallen van de gebruikte test en de voorspellende waarde van een testuitslag.

U zult het immers met mij eens zijn dat zonder kennis hiervan u in de bovengenoemde voorbeelden de kans dat een vrouw bij een positieve testuitslag daadwerkelijk zwanger is, niet had kunnen schatten.

Ik weet ook vrijwel zeker dat u bij de aankoop van uw
5 kg aardappels geen genoegen zou nemen met weging daarvan op een weegschaal zonder schaalverdeling en zonder getallen en de weigering van uw groenteman u te vertellen hoe hij dan weet dat hij 5 kg aardappelen heeft afgewogen.

In de letselschadepraktijk hebben we daarbij ook nog vaak te maken met diagnostische testen en uitslagen daarvan zonder dat er achteraf een toets mogelijk is op de juistheid van een uitslag zoals bij de zwangerschapstest. Er is dan geen ‘gouden standaard’. In een dergelijke situatie moeten we dubbel opletten en de testuitslag extra kritisch benaderen. Soms probeert men de uitslag van de test tot de gouden standaard te verheffen en het is maar de vraag of dat juist is.

Iets dergelijks doet zich voor bij testen op cognitieve eigenschappen zoals geheugen, concentratie en afleidbaarheid. Meestal zal het doel van een dergelijke test zijn te meten of, en zo ja in welke mate, een ongeval van invloed is geweest op deze cognitieve vaardigheden. Een controlemogelijkheid achteraf op de uitslag van de test ontbreekt. Meestal ontberen we ook testresultaten van voor het ongeval. We kunnen dan niet rechtstreeks berekeningen maken zoals we hierboven hebben gemaakt.

Via wat omwegen is dat echter deels wel mogelijk. Voordat we een testuitslag kunnen interpreteren zal van de test moeten worden onderzocht of niet ook andere factoren dan een ongeval de testresultaten beïnvloeden. Als we bijvoorbeeld de kwaliteit van een concentratietest willen beoordelen zouden we kunnen nagaan of alcoholgebruik, slaapdeprivatie, medicatie, scholing of leeftijd invloed hebben op de testresultaten. Hoe meer factoren zijn uitgesloten als beïnvloedende factor op de testresultaten hoe hoger de diagnostische specificiteit wordt.

U begrijpt dat dit geen sinecure is en dat mede daarom het ontwikkelen van een test kostbaar is en tijd vergt. Een en ander ontslaat onderzoekers en gebruikers van de test er echter niet van hierover rekenschap af te leggen als ze een test gebruiken voor diagnostische doeleinden of gebruiken als basis voor de regeling van een schade, waarbij in de regel grote financiële belangen spelen.

Een aantal onder u zult mij tegenwerpen dat dit niet afdoet aan het feit dat een expert om een deskundigenbericht wordt gevraagd en dat zijn bevindingen zwaar moeten wegen. Ook de groenteman waar u al jaren uw boodschappen doet is echter als expert aan te merken en is meestal in staat binnen redelijke grenzen zonder weegschaal te schatten hoeveel aardappelen hij u moet leveren.

Toch durf ik te veronderstellen dat u geen genoegen zou nemen met de hiervoor beschreven weegschaal zonder schaalverdeling en getallen en die weigering tot een nadere onderbouwing van de hoeveelheid geleverde waar.

Hoewel ik niet goed op de hoogte ben van de aardappelprijzen, weet ik zeker dat het met de meting van bijvoorbeeld cognitieve vaardigheden gemoeide belang dat van de aankoop van 5 kg aardappelen ver zal overtreffen.

Het lijkt mij dus niet meer dan redelijk dat wij als gebruikers van dergelijke metingen wel wat meer mogen verwachten dan alleen de stelling dat de onderzochte afwijkend op een test heeft gescoord.

Ter overpeinzing geef ik u nog mee dat door de Metrologiewet (de opvolger van de IJkwet) de opsporingsbevoegde uw groenteman uiteindelijk een boete van € 10.000,00 kan opleggen als hij gebruik maakt van een ongeijkte weegschaal!

Ik hoop dat ik met deze bijdrage uw nieuwsgierigheid heb gewekt voor de theorie achter het meten en dat u met de opgedane kennis voortaan beter in staat zult zijn de onderzoeksresultaten op hun waarde te schatten. Daarbij ga ik ervan uit dat u zich nu realiseert dat zonder kennis van de kengetallen sensitiviteit, specificiteit en de voorspellende waarde testresultaten niet kunt interpreteren en dat u voortaan van de expert zult verlangen deze kengetallen in zijn rapport te vermelden.