torsdag 1 september 2011

Runda av det hela

Jag skrev i förra inlägget här om periodmönster när det gäller andelen dödsfall för olika orsaker. Det jag hittade för Sverige verkade skilja sig från det Juckett och Rosenberg hittat för sina data i (1). Nu har de, förutom de deskriptiva metoder jag beskrev i förra inlägget, också definierat ett statistiskt test för att testa mönster av denna typ. Det går ut på att beräkna medelvärdet av det kvadrerade avrundningsfelet för skillnaden mellan logaritmerna av andelarna fi och fj delat med det förväntade intervallet Δln(f), för alla orsaker, i och j, i listan. Om det finns en perfekt anhopning av ln(f) för de olika orsakerna kring intervall av storleken Δln(f), kommer divisionen att gå jämnt ut, och avrundningsfelet kommer att bli 0.
Utifrån periodogrammet i förra inlägget utförde jag detta test för Δln(f)-värden mellan 0,2 och 1 för Sverige 2008. Som diagrammet visar, blir det svackor vid 0,35 och 0,4; då är testvärdet ca 0,817. Då den svenska befolkningen är relativt liten, kan man befara att värdet snedvrids genom samplingsfel. Jag provade då också att utföra testet på medelvärdet av f-andelen för dödligheten i Tyskland 2005 och 2006, för alla tredjepositionskoder med minst 500 dödsfall för respektive kön båda åren. Detta gav alltså upphov till ett lägre minimivärde för testet, på ca 0,806 vid Δln(f)-värden kring 0,62, vilket ligger nära J&R:s optimala Δln(f) på ca 0,68. J&R fick hög statistisk signifikans för sitt test, bedömt utifrån en nollfördelning med minimivärden på testet för slumpmässiga värden. Värderna för Tyskland innehöll ungefär samma antal observationer, med ungefär samma spännvidd hos andelarna, som deras data, och det borde då åtminstone vara signifikant på en 95-procentig nivå, om man jämför med de diagram som finns i (1). Det gäller även att om det finns ett perfekt periodmönster vid x, kommer det ju också att visa sig vid t.ex. x/2. De Δln(f)-värden som gav bäst resultat för Sverige låg också nära hälften för J&R:s optimala värden (och värdena för Tyskland). Kanske gör avrundningsfelen (troligen i kombination med andra problem, som att listan över dödsorsaker inte ger någon perfekt motsvarighet till relevanta biologiska mekanismer) att testet inte ger något utslag vid dessa värden för Sverige.

I övrigt har jag nu lagt ut litet mer detaljerad information om de överlevnadsanalyser jag skriver om här (t.ex. mer om metoderna och vilka dödsorsaker som är inkluderade) på denna sida.

Diagrammet (klicka för förstoring) visar värden för det statistiska test som beskrivs i inlägget för förväntade intervall 0,2–1, med justerade andelar för Sverige 2008 och genomsnittliga justerade andelar för Tyskland 2005 och 2006. Data tillgängliga via WHO, HMD och SCB. Beräkningar gjorda med hjälp av Excel och R (2).

(1) Juckett, D.A. och Rosenberg, B., An unexpected periodicity among the prevalences of human age-related, mortal diseases, Mech Ageing Dev. 1991, http://www.ncbi.nlm.nih.gov/pubmed/1890878

(2) R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Wien, ISBN 3-900051-07-0, http://www.R-project.org

Inga kommentarer: