Evolutionen har gjort os alle til de fødte statistikere

Den 3. juni 2003 løb 2-årige Anna ud mellem to parkerede biler og var 10 centimeter og et splitsekund fra at blive ramt af en passerende bil. Anna ville gemme sig for sine forældre inden besøget i Zoologisk Have, og hun ænsede aldrig, hvor galt det kunne være gået. Her knapt 20 år senere ville hun aldrig lave samme fejl, og de fleste af os formår at gå gennem livet og undgå de største farer. Grunden er egentlig såre simpel:

Evolutionen har fra barnsben gjort os til fødte statistikere, der er i stand til at indsamle og bearbejde data til at opbygge erfaringer og vurdere risici. Og vi gør det ofte helt ubevidst og naturligt, så vi kan leve og overleve.

Vores sanser bombarderes døgnet rundt med data.1 Artiklen er oprindelig bragt i en lidt anden version på Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler. Når vi eksempelvis skal krydse gaden, kan vi se en bus, men den holder stille og samler passagerer op. Vi kan høre, at den røde bil speeder op, men den kører væk fra os. Cyklisten har retning næsten direkte mod os, og han virker noget usikker på cyklen.

Lynhurtigt filtrerer hjernen de uvigtige informationer fra og bruger de resterende inputs – data – til at lave en vurdering: Kan jeg gå over gaden uden at komme til skade, eller skal jeg vente?

Ubevidst kombineres vores sansers input med vores erfaring og eksisterende viden om verden. I langt de fleste tilfælde er disse vurderinger gode nok til, at vi kan komme nogenlunde sikkert gennem livet. Ikke fordi vi laver nøjagtige udregninger med præcise procenter, men overordnet om risikoen er høj eller lav. Og i langt de fleste tilfælde er risikoen enten forsvindende lille (dør jeg, hvis jeg tænder for tv’et?) eller meget høj (kommer det til at svie, hvis jeg stikker en frisk chili i øjet?), så det er trivielt at vurdere, hvad der kommer til at ske.

Bayes’ formel kombinerer tidligere erfaring med data til ny viden

Statistikere udtrykker denne erfaringserkendelse gennem Bayes’ formel.2 Thomas Bayes (1701-1761) var en engelsk præst og statistiker. Bayes skrev sine noter ned, men de blev først udgivet efter hans død. Hans idéer er senere blev udbredt af den franske statistiker Pierre-Simon Laplace (1749-1827). Hvis \(A\) og \(B\) er hændelser, så siger Bayes’ formel, at

\[P(B|A) \propto P(A|B) \cdot P(B)\]

hvor \(P(B)\) udtrykker sandsynligheden for hændelsen \(B\), og \(P(A|B)\) er den betingede sandsynlighed for at $A§ indtræffer, når \(B\) er hændt.

\[\underbrace{P(B|A)}_\text{A posteriori} \propto \underbrace{P(A|B)}_\text{Likelihood} \cdot \underbrace{P(B)}_\text{A priori}\]

Bayes’ formel kan oversættes lidt mere uformelt som:

\[\text{Ny risikoforståelse} \propto \text{Opdatering/læring fra data} \cdot \text{Gammel risikoforståelse}.\]

Bayes’ formel viser derfor, hvordan den tidligere erfaring eller forståelse af verden bliver justeret eller opdateret på baggrund af data til at give en ny forståelse af verden.

Denne nye forståelse vil så næste gang indtage rollen som den ’gamle forståelse af verden’ i Bayes’ formel, hvilket gør, at vi hele tiden kan fodre Bayes’ formel med nye data og dermed stødt og roligt bliver klogere og klogere.

Nedenstående figur viser, hvordan Bayes’ formel opdaterer opfattelsen af risikofordelingen, efterhånden som nye data kommer ind. I dette tilfælde er udgangspunktet en forventning om, at risikoen er stor – et sted mellem 50 procent og 100 procent med en top omkring 85 procent. De nye data er skiftevis successer og fiaskoer, og peger derfor på en samlet successandsynlighed omkring 50%, og det er også det sted, som fordelingen langsomt centrerer sig omkring.

Figur 1: Figuren viser, hvorledes posteriorifordelingen opdateres efterhånden som nye data kommer ind. De nye data er skiftevis successer og fiaskoer, og peger derfor på en samlet successandsynlighed omkring 50%. Udgangspunktet er en Beta(8, 1) prior.

Bayes’ formel er naturlig for os

Bayes’ formel er en af grundstenene i al statistik og ligger til grund for de fleste af de resultater, der bliver brugt til vurdering af medicinsk forskning, matematisk modellering, forudsigelser af vejret, coronavurderinger, kunstig intelligens, sproggenkendelse og machine learning.

Men Bayes’ formel er også naturlig for os som mennesker. Fra vi slår øjnene op er vi konstant i gang med at udforske verden og dermed indsamle og analysere data, som gør os i stand til forhåbentlig at forstå verdens store spørgsmål bedre: Hvad kan jeg tillade mig overfor mine forældre? Kan jeg score mål, hvis jeg skyder til fodbolden nu? Hvordan virker en vandhane? Hvad skal der til for, at min surdej hæver? Og hvad er der med kvinder og sko?

I daglig tale ville vi kalde det at gøre os erfaringer, men for en statistiker svarer det i bund og grund til at fodre Bayes’ formel med nye data for at se, hvordan den nye forståelse af verden ser ud. Med andre ord er vi alle fødte statistikere.

Hvornår går det galt med Bayes’ formel?

Der er to situationer, hvor det kan gå galt med Bayes’ formel.

Den ene er, hvis man ikke har nogen tidligere erfaring eller forståelse af den situation som vi forsøger at modellere - altså børn, eller når vi løber ind i noget, vi ikke har oplevet før. Den anden situation er dér, hvor man fejlagtigt tror, at man kan overføre ens eksisterende erfaring fra et problem til et andet. I de to tilfælde vil startgættet på en a priori fordeling vær enten upræcist eller så skævt (vi starter fra det forkerte udgangspunkt, fordi situationen fejlvurderes) at det vil det kræve mange data - evt. mange forsøg - før man får korrigeret udgangspunktet.

Denne problemstilling kommer eksempelvis til udtryk, når nye varianter af COVID-19 – eksempelvis omikron – dukker op, og man bruger informationer omkring de tidligere varianter, Alfa og Delta, til at forudsige, hvor smitsom varianten vil være.

Hvis erfaringerne fra de tidligere varianter ikke direkte kan overføres, kræver det, at der indsamles en masse data for omikron, før vi kan sige noget mere præcist om den.

Hvis vi er de fødte statistikere, hvorfor kan statistik så virke så svært?

Vi har haft et helt liv til at gøre os erfaringer, vi har indsamlet uanede mængder af data, og vi går gennem livet uden at være bevidste om at bruge Bayes’ formel. Vi gør det bare.

Vi har ikke de samme erfaringer med at formalisere resultaterne matematisk, og det er noget, som tager tid og skal læres på samme måde som alt mulig andet.

Ved første øjekast kan det virke let, men nogle ting er kontraintuitive, og derfor skal man – også her – indsamle data og gøre sine erfaringer, før det bliver lettere.

Heldigvis er det ikke nødvendigt for at kunne komme trygt gennem livet.

Evolutionen har gjort en stor del af arbejdet for os, og vi er klar til at kunne leve livet sikkert uden at tænke over, at vi bruger Bayes’ formel hver dag. Vi er alle bayesianere.