Det forventede babyboom er aflyst

Den 23. februar 2020 kunne man i flere danske medier høre en beretning om, at “det forventede babyboom er aflyst”. Babyboomet var spået i 2017 i en rapport fra Danske Regioner, men rapportens forfattere forklarer aldrig, hvordan de er kommet frem til deres prognose, men vi kommer med et gæt på, hvordan de kunne skyde så forkert.

I DRs indslag på nettet hedder det blandt andet, at

I 2017 fremlagde Danske Regioner rapporten “Kortlægning af svangreomsorgen” og stillede et årelangt babyboom i udsigt. I 2025 forventes fødselstallet at være steget med yderligere 20 procent til 72.500 fødsler om året, konkluderede regionerne. Men nu viser det sig, at prognosen ikke holder, og det varslede babyboom er udeblevet.

I selve rapporten hedder det på side 3:

Antallet af fødsler er steget siden 2013. Der blev i 2013 født 55.873 levendefødte børn. Det var i 2016 steget til 61.614 levendefødte børn, svarende til en stigning på 10 procent. I 2025 forventes fødselstallet at være steget med yderligere 20 procent til 72.500 fødsler om året.

De to faktuelle oplysninger (antallet af levendefødte i 2013 og 2016) er i overensstemmelse med data fra Danmarks Statistik. Men hvordan forfatteren kommer til den konklusion fremgår ikke. Der kastes dog lidt lys på sagen på rapportens side 14:

Dansk Selskab for Obstetrik og Gynækologi (DSOG) og Jordemoderforeningen forudser, på baggrund af data fra Danmarks statistik, en stigning på 20-25 procentover de næste 15 år, jf. figur 5. Det vil medføre, at fødselstallet vil stige til omkring 72.500 fødsler i 2025.

Der er i rapporten INGEN referencer (så vidt jeg kan se) til dokumentation for denne forventning.

Jeg har regnet på data. Jeg kan også finde frem til en forventet stigning i antallet af børnefødsler med ca. 2000 børn om året frem mod 2025. Men jeg kan også lave an anden analyse og finde frem til, at der ikke er nogen grund til at forvente en stigning - og jeg kan såmænd også lave en analyse, der indikerer et forventet fald i antal børnefødsler på ca. 750 børn om året frem mod 2025.

De data der ligger til grund for beretningen kan hentes på Danmarks Statistiks hjemmeside og er også vist nedenfor og i figur 1.

Tabel 1: Oversigt over levendefødte i Danmark i perioden 2007 til 2019.
2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Fødte 64082 65038 62818 63411 58998 57916 55873 56870 58205 61614 61397 61476 61167

Figur 1: Antal levendefødte børn plottet mod årstal. Danske Regioners rapport udkom i 2017, og de havde derfor ikke data fra 2017 og frem tilgængelige.

Figur 2: Antal levendefødte børn plottet mod årstal, når y-aksen starter i 0. Antallet af levendefødte meget stabilt ud over tid. Disse plots viser, at det altid er en god ide at tegne sine data (“man skal tegne før man må regne”), og de viser også, at grafik kan være forførende og misvisende

Hvordan så verden ud i 2017?

Hvis man forestiller sig, at man i 2017 betragtede data fra de foregående fire år, så ville det jo være fristende at sige “jeps, der er en klart stigende tendens” og efterfølgende fremskrive udviklingen i en halv snes år.

Lad os forfølge den tankegang: Vi laver en simpel lineær regression på baggrund af årene 2013-2016 med antal levendefødte som respons og årstal som forklarende variabel. Det giver nedenstående parameterestimater for skæringen (Intercept) og hældningen (År):

Tabel 2: Parameterestimater for lineær regression på baggrund af årene 2013-2016. Der er trukket 2016 fra alle årstal, så intercept svarer til det forventede antal levendefødte i 2016.
term estimate std.error statistic p.value
(Intercept) 60924 750 81.28 0.000
År 1856 401 4.63 0.044

Nu er det fristende at drage følgende konklusion: \(p\)-værdien for effekten af år er 0.044 - altså lige præcis signifikant på 5% niveau. Der er altså statistisk signifikant (stigende) tendens, hvilket retfærdiggør at lave en en fremskrivning, der viser den forventede stigning. Effekten af år estimeres til \(1856\); altså skulle der være en årlig stigning i antal børnefødsler på knapt 2000 børn.

Hvad nu hvis - et lille tankeeksperiment

I 2016 blev der i gennemsnit født 169 børn per dag. Det var cirka det samme antal i 2017. Lad os nu forestille os at de første tre dages børnefødsler i 2017 havde været fremskyndet så det var kommet med i 2016 tallene så ville der have været født \(3 * 16 = 507\) flere børn i 2016 end der faktisk blev. Hvis data havde været således ville regressionsmodellen have givet nedenstående resultater. Effekten af år nu netop ikke er signifikant - der er ikke udsigt til noget baby-boom. Det vigtige her er, at det er en ganske lille ændring af data, der vil føre til en markant ændret konklusion.

Tabel 3: Parameterestimater og standardfejl, hvis de 3 første dages fødsler fra 2017 tilfældigvis var kommet med i 2016. Selvom hældningen bliver stejlere bliver standardfejlen også større, og man er mere usikker på, om der er en reel stigning.
term estimate std.error statistic p.value
(Intercept) 61279 913 67.12 0.000
År 2008 488 4.11 0.054

Fremskrivning frem mod 2025

Lad os derfor vende os mod at lave en fremskrivning: Baseret på modellen og de observerede data regner vi os frem til, hvordan antallet af fødsler vil se ud fremover. Fremskrivningen kan ses på figur 2, og den stemmer vældig godt overens med den tilsvarende kurve i rapporten fra Danske Regioner. Men parameterestimaterne ovenfor er behæftet med meget stor usikkerhed, hvilket fremgår af standardfejlen på estimaterne. Denne usikkerhed manifesterer sig også i fremskrivningerne som vist på figur 2 nedenfor. Det grå område angiver bånd for konfidensgrænserne for fremskrivningerne, og man kan med det samme konkludere, at der er en helt enorm usikkerhed på disse fremskrivninger.

Figur 3: Fremskrivninger til 2025 på baggrund af modellen baseret på årene 2013-2016. Det grå område angiver 95% konfidensintervallet for fremskrivningen, og bredden viser, at fremskrivningerne er meget usikre.

Hvad nu hvis man inddrager data fra flere år?

Ovenstående fænomen kan man også observere ved at udvælge andre data til analysen. Hvis man udvider det vindue af data man ser på til også at omfatte 2012, så ser billedet helt anderledes ud: hældningen bliver mindre, og fremskrivningen bliver derfor markant nedskrevet. Lad os tage denne tanke eet skridt videre og inddrage data, der går længere og længere tilbage til fx. 2007. Så falder fremskrivningen stødt og roligt, og det annoncerede babyboom forsvinder helt. Bruger man data fra hele perioden fra 2007 til 2016 så bliver resultatet det stik modsatte: data indikerer et fald i det årlige antal fødsler på ca. 750! Valget af periode har altså afgørende betydning for den resulterende fremskrivning, og det betyder, at det forventede babyboom i virkeligheden slet ikke skulle forventes. Det lader til at rapportens forfattere har valgt at betragte et ret snævert interval, der booster fremskrivningen helt urealistisk.

Figur 4: Fremskrivninger alt afhængig af, hvor langt tilbage man har gået for at hente data til fremskrivningen. Hvis man kun bruger perioden 2013-2019 (markeret med 2013) får man den kraftigste stigning, men den forsvinder helt, hvis man bruger et større vindue af fødselsårgange. Bruger man data fra perioden 2007-2016 bliver sammenhængen negativ!

Afsluttende kommentarer

Ovenfor har jeg spekuleret i, hvordan rapportens forfatter kan være kommet frem til rapportens konklusioner. Om jeg har ret ved jeg ikke - rapportens forfatter beskriver jo ikke metodevalget. Det eneste man med nogenlunde sikkerhed kan sige er, at der bliver født ca. 60000 danskere om året, og dette tal lader til at være ret stabilt.

Om svangreområdet på daværende tidspunkt trængte til at få tilført flere midler skal jeg lade være usagt. Men - hvis der er blevet tilført flere midler, så håber jeg - som skattebetaler og som borger i et oplyst land - at det er sket på et mere informeret grundlag end denne rapport.