De fleste stikprøvestørrelsesberegninger er for optimistiske

Claus Thorn Ekstrøm 10. aug 2018 3 min

Stikprøvestørrelse- og styrkeberegninger udgør en vigtig del af et fornuftigt studiedesign. Beregningerne er vigtige, hvis vi skal undgå at søsætte studier, hvor det alligevel ikke er muligt at få belyst den relevante problemstilling. Desuden vil man gerne sikre - hvis forsøgsenhederne er mennesker eller dyr - at der hverken generes for få eller for mange individer. Selvom udregningerne ofte baseres på grove tilnærmelser til de data eller modeller, der i virkeligheden skal analyseres, så gør de fleste sig umage med at komme med fornuftige bud på de relevante inputparametre. På trods af dette er langt de fleste af de stikprøve- og styrkeberegninger, der bliver lavet, underdimensionerede med op til 20%.

Styrken er sandsynligheden for at finde en eksisterende effekt (af en hvis størrelse), hvis man indsamler en stikprøve af størrelse \(N\) og tester med et forudbestemt signifikansniveau. Styrken, stikprøvestørrelsen, signifikansniveauet og effektstørrelsen hænger sammen, så hvis man kender 3 af de 4 så kan man udregne den sidste. Typisk bruges et signifikansniveau på 5% og en styrke på 80% eller 90%, så det er stikprøvestørrelsen (hvor mange enheder skal man bruge for at finde en bestemt effektstørrelse) eller effektstørrelsen (hvor stor en effekt kan man forvente at kunne finde, hvis stikprøvestørrelsen allerede er givet).

I stedet for at lave en enkelt styrke- eller stikprøveberegning bør man samle flere udregninger i en en kurve, så det fremgår, hvor sensitive resultaterne er til de anvendte antagelser.

Figur 1: Eksempler på styrkekurver for tre effektstørrelser (0.35, 0.5 og 0.65 svarende til rød, grøn og blå) ved sammenligning af middelværdien i to grupper ved signifikansniveau på 5%.

Krumningen på styrkekurverne i figuren antyder også det problem, der opstår, når man i forbindelse med styrkeudregningen indsætter gæt på effektstørrelsen. Disse gæt er som regel enten baseret på resultater fra et pilotstudie, fra artikler, eller grebet ud af den blå luft, og de er derfor behæftet med en vis usikkerhed.11 Hvis effektstørrelsen var kendt uden usikkerhed kunne man jo argumentere for, at man slet ikke behøvede at lave forsøget, da den interessante størrelse var kendt. Estimatet har en fordeling, og denne fordeling bør man i princippet tage højde for, når den forventede stikprøvestørrelse eller styrke udregnes.

For en effektstørrelse \(\Delta\), en stikprøvestørrelse \(N\) og et signifikansniveau \(\alpha\) kan vi kalde den tilhørende styrke \(\text{power}(\Delta, N, \alpha)\). Hvis vi skal tage fordelingen af estimatet på effektstørrelsen med i betragtning så skal vi integrere ud over den fordeling.

\[\text{Forventet styrke} = \int \text{power}(\Delta, N, \alpha) dP(\Delta)\]

Når fordelingen af effektestimatet eksempelvis er symmetrisk22 Ofte kan fordelingen af effektestimaterne approksimeres med en normalfordeling, så denne situation er ikke ualmindelig., så opstår problemet, da krumningen på styrkekurven er asymmetrisk. Styrkeudregningerne vil variere omkring den gennemsnitlige (sande) effektstørrelse, men effektestimater, der er for små vil give anledning til meget mindre styrke end de effektestimater, der er for store. Med andre ord bliver den forventede styrke mindre end man skulle tror.33 Problemstillingen er et meget fint eksempel på Jensen ulighed - i hvert fald lokalt. Problemstillingen er illustreret i figuren nedenfor, hvor vi tror, at den gennemsnitlige styrke er 90%, men i virkeligheden er den kun ca. 85%.

Figur 2: Den sande effekt er 0.7 (vist på \(x\) aksen), og styrken baseret på to grupper af \(N=44\) er 90% (den prikkede linje). I praksis benyttes estimater af den sande effekt, og disse vil fordele sig omkring den sande værdi (vist ved histogrammet over figuren). Histogrammet i højre side viser fordelingen af styrkeberegningerne, når fordelingen af effektestimaterne tages i betragtning. Denne fordeling er meget skæv, og den gennemsnitlige styrke er ikke 90% men kun 84.8%.

Problemet reduceres, når effektstørrelsen bliver større og når præcisionen af estimatet bliver bedre (fx. ved øget stikprøvestørrelse i pilotundersøgelsen). Når styrken bliver underestimeret vil vi tilsvarende få for få individer i vores studie. Figuren nedenfor viser et eksempel på, hvor stort problemet er for stikprøvestørrelsen.

Figur 3: Den estimerede stikprøvestørrelse bliver for lille. Den sorte kurve viser stikprøvestørrelsen når effektstørrelsen er kendt uden usikkerhed, og man ønsker en styrke på 90%. De tre øvrige kurver repræsenterer den gennemsnitlige stikprøvestørrelse, når man i pilotstudiet har hhv. 60, 40, og 30 individer.

I dette ene eksempel risikerer man at mangle op til ca. 20% af de individer, der er nødvendige for at have den påståede styrke! Problemet er størst for små effektstørrelser, men her kan effekten dog også være stor. Ved styrke- og stikprøveberegninger bør disse usikkerheder tages i betragtning så risikoen for at starte studier, der ikke er rentable, minimeres.