Felaktigheter i statistiken.
Jag skulle helst ställt frågor och lyssnat på argument, men nu är det lättast att direkt nämna felaktigheter. Jag vill inte kritisera någon speciell.
1) Mätfel i regression:
Om regressionsanalys har det skrivits:
"utgår man dock från att de oberoende variablerna
mätts utan mätfel." Det har sagts att om det är
fel i x- variabeln, så skall modell II regression användas.
Detta är fel, ty härledningen förutsätter
inget sådant.
Man får inte blanda ihop att minimeringsmetoden använder
Y med felet.
(Se långt nedan om Regression.)
2) Funktionellt:
Någon har sagt att det krävs ett funktionellt samband
för regression.
Även detta menar jag är fel.
I den rena matematiska härledningen finns inget sådant
antagande. Men man beskriver problemet förenklat ibland,
så att man tänker så.
Jag menar att man bör endast kräva ett funktionellt
samband om man skall tolka det som ett funktionellt samband.
3) Oberoende x- värden:
Vid multipel regression har någon menat att x- variablerna
skall vara oberoende av varandra.
Jag menar att detta inte är nödvändigt. Tex. vid
polynomregression så är x och x^2
kraftigt beroende av varandra. (Som är specialfall av multipel
regression). Men hur man kan tolka signifikanser kanske beror
på oberoendet mellan x- variabler.
(Kan man med polynomregression testa om en kurva signifikant avviker
från en rät linje med konfidensintervallet för
lutningen på x^2? Här har man beroende.)
Dator-program brukar kalla x- variabeln för oberoende och
Y- variabeln för beroende, vilket jag tycker är missvisande.
Själva lutningskoefficienterna blir fullständigt rätt,
även då de "oberoende variablerna" är
kraftigt beroende.
Det är utmärkt om korrelationen är mycket låg mellan x- variablerna och att x- värdena är spridda jämt i ett område, då ger regressionen mindre konfidensintervall för lutningen mm. Om två variabler har hög korrelation, så blir konfidensintervallen lätt höga och dåliga. Om x1=x2, så existerar ingen lösning och multipel regressionen kan inte göras. (Man kan förståss ta bort ena variabeln).
Felrisken för hela regressionen är egentligen den som motsvaras i ANOVA, om denna skall användas kanske man skall kräva oberoende.
Multipel regression kan användas till så mycket
mer än att göra hypotestester med, men jag kan inte
nu bevisa när man kan tolka konfidensintervallen på
normalt sätt.
Jag misstänker att man kan tolka konfidensintervallet för
lutningen på normalt sätt även då man har
betydande beroende, möjligen med visst fel.
Det är däremot mycket viktigt med ett helt annat oberoende vid test. De olika tillstånden eller vektorerna (yi, x2i, x3i,...) skall vara oberoende. Alltså i=1 skall vara oberoende alla övrig i.
4) Korrelation = % variability:
I en tjock blå statistikbok (Biometr?) står ungefär:
A simple linear regression could explain ca 80% of the variability.
Korrelationen R2=0.80.
Jag reagerade direkt misstänksamt. Hur kan de komma fram
till den tolkningen av en korrelationskoefficient? Hur definieras
och tolkas " variability"?
Om man inte glasklart kan förklara det, så bör
det inte användas.
Mer kritiska synpunkter:
Det enda syftet med statistiska hypotes-tester är att
visa att det är liten sannolikhet att skillnaden eller avvikelser
beror på "slumpen".
Jag tvivlar på om det verkligen behövs, så många
metoder för att lösa ett så litet problem. Om
man uppnått målet, att det är mindre sannolikt
att skillnaden beror på slumpen, då undrar jag över
om det är någon mening med att jaga efter minimal felrisk.
Felrisken har inget direkt samband med hur stor effekten är
eller hur bra det är vetenskapligt.
Ibland sägs det att man bör testa om det är
normalfördelat, för att använda en normalfördelnings-parametrisk
test.
Om man vet att mätvärdet aldrig kan bli under noll,
för t.ex. koncentrationer, antal mm, så vet man med
absolut säkerhet att det inte är normalfördelning.
Man behöver inte testa.
Om man har oerhört många värden, så kan
man ofta visa att fördelningen avviker från normalfördelningen.
Det skall sägas att enligt centrala gränsvärdessatsen,
så går alltid medelvärdet mot normalfördelningen,
då antalet ökar. Detta är en förklaring till
varför normalfördelnings-parametriska metoder fungerar
på andra fördelningar. Men bara då man tolkar
resultatet som test på medelvärden (medel- lutningskoefficienter?)
eller skillnad mellan medelvärden.
En del tycker man skall genomföra en varianshomogenitets-test,
då ANOVA skall användas. Behövs det?. Då
en standardavvikelse är betydligt större än övriga,
så kan den öka felrisken, mellan de med liten standardavvikelse.
Vid ANOVA så bildas en sorts medelvarians, det liknar ett
kvadratiskt medelvärde av standardavvikelserna för de
olika behandlingarna.
De stora Sd kommer att dominera.
Den klassiska ANOVAn kommer inte att ge så lätt signifikans
mellan vissa behandlingar, då en Sd är extra stor.
Men detta är inget fel. Det är däremot helt fel
om testen visa felaktigt för låg felrisk. Detta kan
inträffa om man har många små standardavvikelser,
som drar ned medelvariansen, så att en test, (Fishers-t-test),
mellan en med hög Sd och någon annan visar för
låg felrisk.
Om man har väldigt många värden, så kan
man lättare visa att det inte är varianshomogenitet.
Att man får ickesignifikant vid varianshomogenitetstest,
bevisar inget .
En Ln-transformation kan göra att mätvärdena närmar
sig normalfördelningen mer och blir mer varianshomogen.
Om man gör ett diagram med konfidensintervallen och studerar
det kritiskt, så kan man upptäcka om den klassiska
ANOVAn ger någon orimlig signifikans, (om n > 5 till
10).
Om man tittar på grafen och jämför med testerna,
så bör man kunna upptäcka orimligheter, och i
sådana fall kan man försöka med Ln- transformation
och kontrollera med grafen ytterligare en gång.
Jag undrar om inte varianshomogenitets- test är onödig.
Vid orimligheter, så kan man jämföra med vanlig
t-test, som inte har dessa problem.
Om man har nästan oändligt många mätvärden
eller med nästan oändligt små fel, så kan
man nästan visa oändligt små skillnader.
Filosofiskt kan man nästan vara säker på att det
nästan alltid finns en skillnad mellan olika behandlingar,
kanske med p<<0.05.
Men varför testar man då tvåsidigt ?
Ensidig test ger att t.ex. ett mätvärde är i medeltal
större än ett annat, vilket ger mer än en skillnad.
Jag upprepar: Det enda syftet med statistiska hypotestester är
att visa att det är liten sannolikhet att skillnaden beror
på "slumpen". Testerna syftar till att hindra
människor för att tolka en "slumpartad" skillnad
som en verklig effekt.
Min tolkning av standardavvikelsen är att det är ett
mått på diverse okända parametrars inverkan,
men som behandlas som om det vore slumpen som påverkar.
Man bör inte göra statistiken onödigt komplicerad,
det belastar studenter och forskare. Enkelhet är bra för
den vetenskapliga utvecklingen. Onödigt komplicerade metoder
belastar studenter och lärare, så de får mindre
tid till annat. Man skall inte behöva vara doktor i statistik
för att "visa att det är liten sannolikhet att
skillnaden beror på "slumpen". En bra struktur
av vetenskaplig information underlättar för människor
att lära sig mer.
Nya dator-program med nya metoder, gör det lätt att
välja onödigt komplicerade metoder.
Man kan komma mycket långt med några få klassiska
tester.
Med t-test eller Mann-Whitney U-test kan man lösa samma problem
som ANOVA mm.
Man kan köra flera tester och därefter beräkna
sannolikheten att minst någon är signifikant mm, för
att hindra fel med "mass-signifikans. Om testerna är
oberoende se: http://hem.passagen.se/cnyland/fltester.html
Man skulle kunna ersätta normalfördelningstester, ickeparametriska
tester mm., genom en tabell.
Tabellen säger hur mycket felrisken skall korrigeras, för
värsta tänkbara fördelning, för olika n, p
mm.
En sådan tabell borde redan finnas. Det lättaste sättet
att ta fram den på är nog genom att dator-simulera
testerna med många olika fördelningar. Man kan göra
sådana tabeller för många metoder. Man behöver
då inga icke-parametriska tester.
Alltså med t-testen och några klassiska metoder, tabellen
och mass-signifikans-koll, så skulle man uppnå kravet
på god vetenskap i väldigt många fall.
Om detta ger signifikans, så ser jag inget värde i
att öka signifikansen med diverse metoder. Möjligen
kan det vara av ett visst värde , att pressa ner felen, då
man skall beräkna något kvantitativt med konfidensintervall.
Men det kan ibland vara något bättre med mer komplicerade
metoder. Många vill nog välja den mer komplicerade
metoden, då den hjälper en över gränsen från
ickesignifikant till signifikant.
Om man skall jaga den absolut lägsta felrisken med det lägsta
felet i felrisken, så kommer statistiken att bli mycket
komplicerad med massor av metoder. Man kan alltid hitta något
sätt att justera de mest komplicerade metoderna, för
något specialfall.
Jag är kritisk mot en mängd metoder som kanske bara
är ett onödigt mode.
Tyvärr, kanske anslagsgivare blir imponerade av konstiga
statistikmetoder, och om man är mycket enkel, så kanske
en del tror att det är dålig vetenskap.
Några kloka statistiker valde att avrunda felrisken till
0.05, 0.01 och 0.001.
En av orsakerna var att man förr inte hade datorer. Men de
insåg även att man inte behövde fler nivåer.
(Man kan förstå en irritation om man får ickesignifikant
men att det är mycket nära 0.05). Det finns så
många andra risker med statistiken att den totala felrisken
, (Sanna risken för fel), kan vara mycket större än
vad en perfekt statistisk metod visar. T.ex. variablerna är
inte helt oberoende, det är ett orsakskomplex där man
inte känner alla mekanismer eller något fel vid mätningarna.
Det finns exempel , där man fått stark signifikans
massor av gånger men gör felaktiga tolkningar. (Orsakskomplex,
där grupperna är olika efter flera parametrar.) De riktigt
stora tabbarna beror vanligen inte på att de väljer
enkla metoder.
Ibland kan man ersätta en komplicerad metod, genom att transformera
värden.
Ex. bilda flera medelvärden över beroende värden
(från en burk, jmf., repeat messure), beräkna flera
medel lutningskoefficient för beroende värden, beräkna
index mm. Om man då får många oberoende medelvärden
mm, så kan man använda dessa i någon vanlig test.
Obs det är viktigt att hålla isär de beroende
från oberoende, t.ex. varje beräkning sker för
varje burk för sig, så man får ett beräknat
värde för varje burk.
Man kan alltså med enkla medel lösa problem, där
man har både oberoende och beroende mätvärden.
(Jmf. parad t-test, där man först bildar differans mellan
beroende mätvärden och sedan testar de oberoende differenserna
mot en siffra). Men säkerligen finns det exempel, där
en avancerad metod, kan ge en viss fördel.
Om regressionsanalys har det skrivits:
"utgår man dock från att de oberoende variablerna
mätts utan mätfel." Det har sagts att om det är
fel i x- variabeln, så skall modell II regression användas.
Detta misstänker jag är fel.
Då man studerar härledningen av regression, så
ser man att man minimerar ,
alltså kvadratsumman
av mätpunkternas avstånd till linjen parallellt med
Y-axeln. Denna minimerings metod får man inte förväxla
med felen.
Man kan skriva ![]()
Den matematiska härledningen antager inget om varifrån
felet kommer och därför kan man inte kräva att
X- variabeln skall ha försumbart fel.
Detta betyder även att om man får använda modell
II regression, så får man använda den vanliga
regressionen.
Modell II regressionen minimerar på annat sätt och
kan fås, så att man får samma ekvation om man
växlar Y med X. Jag kommer inte på något fall
där modell II regressionen verkligen är nödvändig.
Vid tolkningen av konfidensband, så tolkar jag det som att,
om man har ett X- mätvärde med fel och avläser
t.ex. grafen, så ser man ett intervall där Y-mätvärdet
med t.ex. sannolikheten 0.95 bör hamna.
Detta sätt att tolka tillåter fel i X- variabeln.
Det finns risk för att ett fel i en lärobok, flyttas
från bok till bok, likt ett tankevirus.
Någon har sagt att det krävs ett funktionellt samband
för regression.
Även detta menar jag är fel.
I den rena matematiska härledningen finns inget sådant
antagande. Men man beskriver problemet förenklat ibland,
så att man tänker så.
Jag menar att man bör endast kräva ett funktionellt
samband om man skall tolka det som ett funktionellt samband.
Jag tolkar en lutningskoefficient signifikant större än
noll i regressionen som att om mätvärdet X ökar
, så ökar mätvärdet Y i medeltal. Detta inklusive
fel i både Y och X. Alltså ett större X hör
ihop med ett större Y.
Den sanna kurvan får se ut hur som helst med denna tolkning.
Man testar inte om kurvan är en rät linje med simpel
regression, men regression kan även användas till att
dra en rät linje på ett optimalt sätt genom punktmängden.
Regressionen visar inte om det är X som påverkar Y
eller tvärtom, den bevisar inte vad som orsaker vad eller
om det är ett parallell-samband. Detta är detsamma för
alla andra tester.
Men den kan användas ändå.
Dator-program brukar kalla x- variabeln för oberoende och
Y- variabeln för beroende, vilket jag tycker är missvisande.
Ett specialfall av regression är ANOVA:
I övningsboken "b" Jan Lanke mfl.,Studiematerial
till statistikteori med tillämpningar,(Studentlitteratur
Lund 1975?),sid 164,217,övning A1906,*A1907, står klart
och tydligt att variansanalysen är ett specialfall av multipel
regression och att multipel regression är den mer generella
metoden.
Om man skriver:
,så får man samma antagande som vid variansanalysen
,två-vägs.

Variabeln
är lika med 1 om villkoret är sant
annars =0, alltså en logisk variabel. Vid envägs så
används endast ai.
(Jag har testat ett exemplet.)
(t-testen kan ses som ett specialfall av ANOVA och därmed
av regression.)
ANCOVA:
Om man låter minst en variabel vara kontinuerlig, så
ser man ett alternativ till ANCOVA. (Kanske även ANCOVAn
är ett specialfall).
Får man köra regression då det inte är
normalfördelat.
Jag menar att man får det, men jag kan inte ge något
direkt bevis.
Man måste tolka tester som tester på medelvärden
eller medelkoefficienter.
Jag undersökte detta 1992 genom att generera en triangelliknande
fördelning.
Jag utförde 51 st. oberoende simpla regressioner på
endast 4 punkter åt gången.
I mitt problem gjordes Ln(x), samt tog en differens som y- värde,
vilket gör att fördelningen närmar sig normalfördelningen
samt blir symetrisk.
Vid vanlig beräkning, så anger man 95% konfidensgräns
(p<0.05), men simuleringen visade att konfidensgränsen
egentligen var 92% (p<0.078).
Detta är egentligen en bagatell relativt andra risker. OBS:
denna skillnad kan delvis bero på "slumpen".
Fyra värden är alldeles för lite, då man
inte har normalfördelning.
Detta var anpassat till mitt problem.
Det vore mer intressant att välja en extrem fördelning,
simulera flera hundra och ha minst 10 punkter vid simpel regression.
(Någon har säkert kollat detta).
Om inte multipel regression kan användas på ickenormalfördelningar,
så blir den värdelös, samt alla andra metoder
som bygger på den (t.ex. Faktoranalys). Det är egentligen
viktigt att kunna använda regression på diverse realistiska
mätvärden.
Klassisk ANOVA och t-testen är specialfall av multipel regression
och dessa fungerar på andra fördelningar.
Om man tar och bildar medelvärdet av 5 st. värden från
exponentialfördelningen (extremt anti-normalfördelat),
så kommer medelvärdet att tillhöra gammafördelningen.
Då antalet ökar så närmar sig medelvärdet
normalfördelningen, enligt centrala gränsvärdessatsen.
Jag simulerade även t-testen på exponentialfördelningen
för länge sedan och såg att man fick hyfsade tester
redan vid n=5 och då man låg nära p<0.05.
(Sämre vid p<0.001). Men det normala är att man kräver
minst 10 värden, då man inte har normalfördelning.
Om man tänker sig en sannolikhetsvariabel som varierar
mellan 0 och 1, men där man endast använder 0 och 1
från mätvärden, så ser det inte konstigt
ut. Om man använder formeln från multipel regression,
för att beräkna Y-värdet, så kan man i vissa
fall tolka det som sannolikhet (jmf.relativa frekvensen). Men
man får se upp med extrapoleringar och då man hamnar
nära 0 och 1 eller utanför.
Bäst om konfidensintervallet ligger säkert mellan 0
och 1.
(Kanske detta kallas loggistisk regression, men det är
bara vanlig regression.)
(I en äldre bok använde man t-test på krona och
klave, alltså 1 och 0, vilket går utmärkt då
antalet är mer än ca: 10 st. (Enligt Centrala gränsvärdessatsen)).
Om man inte lägger på onödiga och felaktiga
krav för att få använda multipel regression, så
finns det fantastiska möjligheter.
Ex: Låt x- variablerna vara olika vitaminer och miljöfaktorer
och ibland även kombinationseffekter som vitaminbrist multiplicerad
med gift . Y- variabeln är då sjukdom (t.ex. år
efter mätningen.). (Y= sann eller falsk ,0 eller 1).
För en mängd sjukdomar eller symptom får man många
ekvationer.
T.ex.

Ett annat system är att på liknande sätt behandla
med t.ex. vitaminer mm i olika doser , och undersöka om symptom
mm ändras eller försvinner efter olika tider.
P kan då tolkas som t.ex. uppskattad sannolikhet för
att symptomet skall försvinna.
Man får då en liknande tabell som ovan.
För att det skall bli vetenskapligt, så måste
konfidensintervallen anges.
Detta är ett relativt enkelt sätt att få en struktur
på hur t.ex. flera vitaminer mm hör samman med senare
symptom och hur vitaminer mm. kan påverka symptom mm. Man
kan få plats med massor av symptom på en A4-sida,
och där man snabbt kan leta efter samband och även titta
om det brukar verka hjälpa med en åtgärd. (Kanske
enklare om variablerna normeras med rekommenderad dos.).
Jag undviker att säga orsak. Men metoden kan vara utmärkt
för att förstå och beskriva orsakskomplex.
Om man har vissa teorier om hur variabler påverkar, så
kan man definiera index (även olinjära) och använda
som variabel.
Om man även använder kvadraten, så kan man söka
efter det optimala.
(Vid kontrollerat experiment: I stället för sockerpiller,
kan man ge i t.ex. 3 olika måttliga koncentrationer, t.ex.
rekommenderad, dubbla och halva rekommenderad dos.)
1) Separera fördelningar, t.ex. absorbtions-spektrat i
några spektra från olika ämnen. Även färgspektra
i satellit -foton. Obs ofta kan man endast beräkna några
få ämnen. Bra om de skiljer sig från andra ämnen
i spektrat och tydligt påverkat spektrat.
2) Koefficienter i differential-ekvationer,(även partiella),
och i statiska modeller
Koefficienter i system av differentialekvationer för t.ex.
dynamiska system. (Dynamiska modeller). Ett exempel finns, i sista
stycket efter "Andra modeller" på:
http://hem.passagen.se/cnyland/Gmodel.html
3) Optimering med multi-polynom-regression.
4) För att undersöka biotoper och beräkna optimal
biotop. Åtminstonde om man nöjer sig med ett mindre
antal parametrar. (några arter, pH, fukt, ljus, näring
mm.)
Fråga: Varför har du inte statistiskt testat grafen
med 6 punkter?
Svar: Syftet med statistiska hypotes-tester är att visa att
det är liten sannolikhet att skillnaden beror på "slumpen".
Detta resultat är så lyckat att de vetenskapligt bildade
ser direkt att det är osannolikt att resultatet beror på
slumpen.
De som inte är vana kan göra en liten enkel huvudräkning
i grafen med sex punkter. Man drar 5 linjer mellan punkterna.
Alla linjerna lutar uppåt. Sannolikheten för att det
beror på slumpen, att alla fem linjerna lutar uppåt
är:
, alltså p<0.05.
Detta är en icke-parametrisk koll. Här behöver
man inte datorprogram, normalfördelningstester mm . Skrytmånsar
och anpasslingar använder nog super-multi-hyper-power metoder
i liknande fall.
Om resultatet vore sämre eller otydligt, så skulle
det vara viktigt med någon test.
Ett annat snabb-koll tips är:
Då alla tre i en behandling är större än
varje av minst tre i en annan behandling, så är skillnaden
signifikant med Mann-Whitney U-test. (Behövs minst 3+3=6
värden).
Om man tillämpar en avancerad metod, så bör
man fråga:
1) Vad är det metoden testar?
2) Hur skall felrisken tolkas?
3) Finns det en enklare metod som löser problemet lika bra?
(Ex. Att testa korrelationen är något helt annat än
att testa lutningskoefficienten.)
Jag har funderat på att bli konsult i vetenskaplig statistik.
Tills vidare kanske jag kan svara på några frågor
gratis, som berör klassiska metoder och experiment.
Christer Nylander, 15/6-2000
![]()