Jeg drømmer om en 'vid' jul
Mange danskere har stiftet bekendskab med statistik gennem deres uddannelse, og de fleste giver udtryk for, at det var svært og abstrakt. Politikerne har svært ved det, journalister og meningsdannere har svært ved det, og mange studerende har svært ved det.
Derfor er det interessant, når forfattere forsøger at give en populærvidenskabelig forklaring på, hvad statistik er og kan, hvad statistikerne egentlig laver, og hvorfor faget er interessant og spændende. Det er ikke nogen let opgave at formidle, men måske lykkes det for en af forfatterne at finde vej under en masse juletræer, så vi kan få en ‘vid’ jul.
Forleden harcelerede Zenia Stampe på Facebook over de nationale tests, og en af BTs copy-paste-praktikanter bragte artiklen på avisens hjemmeside. Zenia var utilfreds med sværhedsgraden og omfanget af testene, og hun sluttede svadaen af med følgende:
Man kan læse mere om testene her. Det fremgår bl.a., at testene er adaptive, dvs. at de tilpasser sig elevens svar. Men hvor det måske ville give mening at gøre svarene sværere og sværere i takt med at eleverne svarer rigtigt, så hører jeg fra lærerne, at spørgsmålene er meget svære fra start. Så eleverne skal lige dunkes, før de kan få lov til at føle sig dygtige. Det er da dårlig pædagogik. Men det er vist også en statistiker, der har lavet testen…
Udover at indlægget er faktuelt forkert i samme skala og omfang som når Trump udtaler sig, og hun har glemt, at det er politikerne, der efterspørger flere og flere tests, så viser hendes indlæg en klar opfattelse: statistikere er nogle fæle personager.1 Man kan så tilføje, at BT også har offentliggjort forskellige faggruppers troværdighed, og her kommer politikere ind på en klar sidsteplads - under bilforhandlere. Det er en opfattelse, der går igen, og jeg mindes et todagesmøde i Dansk Selskab for Teoretisk Statistik for en del år tilbage, hvor Tue Tjur udtalte noget i stil med: “Når jeg er til middag og bliver spurgt, hvad jeg laver, så overvejer jeg, om jeg skal fortælle, at jeg er statistiker eller øksemorder. Jeg tror hellere, de vil tale med mig over middagen, hvis jeg svarer øksemorder.”
Det har ændret sig en smule i de seneste år - specielt fordi statistik er blevet lidt hottere og fordi personer som Hans Rosling, Nate Silver og David Spiegelhalter har formået at brænde igennem med budskabet om, at statistik er nyttigt, vigtigt og spændende.
Af samme årsag er det interessant, når forfattere forsøger at give en populærvidenskabelig introduktion til statistik. Denne type formidling er utrolig vigtig for vores fag - ikke bare for at få unge mennesker interesseret i statistik, men også for at give forskere, virksomheder og meningsdannere en ide om de muligheder, som statistik rummer. Desværre har jeg også på fornemmelsen, at der måske ikke er så mange, som læser denne type bøger, som ikke allerede selv er involveret i statistisk eller dataanalyse.
Personligt synes jeg, at denne type bøger er sjove at læse. De er hurtigt læst, og selvom de sjældent kommer i dybden med stoffet, så giver de inspiration til formidling af vores fag, og betydningen af dette kan næppe undervurderes. Listen nedenfor viser nyere populærvidenskabelige bøger om statistik, der måske er værd at tygge sig igennem i juleferien, eller måske købe i julegave til de familiemedlemmer, som stadig ikke helt forstår, hvad det er vi går og laver.
The Signal and the Noise
Nate Silver blev i 2009 udråbt af Time Magazine til at være en af verdens mest indflydelsesrige personer efter han i forbindelse med det amerikanske præsidentvalg i 2008 korrekt prædikterede udfaldet i 49 ud af de 50 amerikanske stater. Prædiktionen var markant bedre end alle konkurrenterne, og Nate Silver og hans hold bag hjemmesiden fivethirtyeight.com blev superstjerner.
I 2012 udgav Nate Silver The Signal and the Noise: The Art and Science of Prediction så bogen har efterhånden nogle år på bagen. The signal and the Noise giver en rigtig fin introduktion til prædiktion i al almindelighed, og de problemer, der opstår, når man ukritisk bruger data-drevne metoder og forsøger at fortolke på de resultater, som modellerne spytter ud.
Jeg havde egentlig håbet på, at Nate ville give en smule mere indsigt i de modeller, som han benytter til sine analyser, men der er ikke meget at gå efter i den henseende - det er uspecificerede bayesianske modeller med endnu mere uspecificerede fudge-factors. Til gengæld får han sat en tyk fed streg under nogle generelle (og kæmpestore) problemer: det er blevet let at få adgang til mange slags data og alle kan give sig i kast med at analysere og prædiktere. Det er som udgangspunkt godt, og den videnskabelige verden trives af dette. Men hvis man ukritisk benytter statistiske metoder, så er man ikke opmærksom på, hvornår man risikerer at finde “støj” og hvornår man finder “signal”. Problematikken forstærkes, hvis man ser på tv, aviser og blogs, hvor det er muligt at publicere fra dag til dag uden peer review. Til forskel fra den videnskabelige verden, der publicerer og validerer forskningsresultater gennem tidsskrifter, hvor processen er meget langsommere så er nyhedsflowet i medierne så hurtigt og flygtigt, at personerne bag disse “hurtige” prædiktioner kun sjældent behøver at stå til regnskab for konsekvenserne af deres dårlige prædiktioner. Det betyder, at ufuldstændig resultater og forkerte konklusioner er med til at skabe forvirring og underminere den mere lødige forskning. Mediebilledet bliver simpelthen præget af for mange tilfælde af “Ulven kommer”.
Errors, Blunders, and Lies: How to Tell the Difference
Errors, Blunders, and Lies: How to Tell the Difference udkom tidligere i år, og består af en række små kapitler på 5-10 sider. Til forskel fra de andre to bøger, er David Salsburg ikke bange for at vise en formel eller to, hvis han føler, at det hjælper på forklaringen. Ved første øjekast kan det måske jage matematikforskrækkede læsere bort, men der står ikke noget, der ikke kan læses med kendskab til gymnasiematematik, og derudover er formlerne slet ikke nødvendige for at kunne forstå bogen. Salsburg introducerer og diskuterer ret vigtige emner (korrelation vs. kausalitet, false discovery rates og maksimum likelihood), og i den henseende er denne bog måske den, der giver den klareste indføring i, hvad en statistiker i virkeligheden går og laver, og hvad statistik kan.
Bogen er ret velskrevet, og min eneste anke er titlen. Errors, Blunders, and Lies giver umiddelbart negative associationer til statistik og minder lidt meget om Darrell Huffs “klassiker” How to Lie with Statistics, og undertitlen How to Tell the Difference fortæller faktisk ikke, hvad bogen indeholder, for man lærer ikke at skelne mellem de tre. Til gengæld viser bogen nogle fine eksempler på, hvordan statistik kan bruges til at analysere data, og hvordan kan man få nogle fornuftige resultater ud - så længe man er opmærksom på de antagelser og begrænsninger, der er tilknyttet de anvendte metoder. Salsburg tager så et skridt videre, og viser i flere situationer, hvad man kan gøre, hvis antagelserne ikke er opfyldt. Hvis titlen havde haft en mere positiv vinkel ville det have været en perfekt bog til under juletræet eller som mandelgave.
Weapons of Math Destruction
Titlen på Cathy O’Neils bog fra 2016 er vidunderlig, og jeg hørte første gang om den på en konference i foråret, og faldt over den dagen efter i en lille lokal boghandel. Cathy har en baggrund i matematik og hendes arbejdet som data scientist i finansverdenen har gjort hende noget desillusioneret, hvilket også understreges af bogens undertitel - How big data increases inequality and threatens democracy.
Hvert kapitel diskuterer virkelige cases, hvor automatiserede algoritmer har været brugt til at klassificere mennesker, og hvor algoritmerne indirekte er med til at forstærke uligheden i befolkningen. Bogen dækker alt fra automatiseret screening af jobansøgninger, låneansøgninger, og vurdering af forsikringspræmier til online markedsføring og computersystemer til at prædiktere kriminalitet. Et eksempel viser for eksempel, hvordan lånemulighederne falder, hvis man bor i et område med mange dårlige betalere. Det medvirker til, at samfundets fattigste bliver stavnsbundet til bestemte områder, hvilket øger forekomsten af dårlige betalere, hvilket starter en ond spiral. Og “onde spiraler” er et af de gennemgående temaer i bogen: brugen af matematiske algoritmer, der for det første forstærker sig selv, og desuden inducerer nogle samfundsmæssige rammer, der igen er med til at få algoritmernes prædiktioner til at gå i opfyldelse.
Bogen forsøger at diskutere to spændende problemstillinger: hvilken betydning har det, når man udelukkende laver rigide, automatiserede modeller for populationer og ikke fokuserer på individer? Og hvad sker der, når man ruller selv-forstærkende systemer ud i stor skala, og de systemer former samfundet, så prædiktionerne bliver selvopfyldende profetier? Forfatteren har intet udestående med statistik eller statistikere, men mere, hvad der sker, når disse algoritmer uforvarende bliver sluppet løs, og bogen giver bestemt stof til eftertanke.
Formidling af statistik er ikke let, men forhåbentlig kan nogle af ovenstående bøger være med til at lette vores arbejde eller give inspiration til formidlingen. Det kan endda være, at man i denne søde juletid skulle overveje at sende politikerne forslag til deres ønskelister. Det kan jo være, at miraklernes tid ikke er forbi.