Kritik av statistiken och
om fler sätt att tillämpa regression.

 

Felaktigheter i statistiken.

Jag skulle helst ställt frågor och lyssnat på argument, men nu är det lättast att direkt nämna felaktigheter. Jag vill inte kritisera någon speciell.

 

1) Mätfel i regression:
Om regressionsanalys har det skrivits:
"utgår man dock från att de oberoende variablerna mätts utan mätfel." Det har sagts att om det är fel i x- variabeln, så skall modell II regression användas.
Detta är fel, ty härledningen förutsätter inget sådant.
Man får inte blanda ihop att minimeringsmetoden använder Y med felet.
(Se långt nedan om Regression.)

2) Funktionellt:
Någon har sagt att det krävs ett funktionellt samband för regression.
Även detta menar jag är fel.
I den rena matematiska härledningen finns inget sådant antagande. Men man beskriver problemet förenklat ibland, så att man tänker så.
Jag menar att man bör endast kräva ett funktionellt samband om man skall tolka det som ett funktionellt samband.

3) Oberoende x- värden:
Vid multipel regression har någon menat att x- variablerna skall vara oberoende av varandra.
Jag menar att detta inte är nödvändigt. Tex. vid polynomregression så är x och x^2 kraftigt beroende av varandra. (Som är specialfall av multipel regression). Men hur man kan tolka signifikanser kanske beror på oberoendet mellan x- variabler.
(Kan man med polynomregression testa om en kurva signifikant avviker från en rät linje med konfidensintervallet för lutningen på x^2? Här har man beroende.)
Dator-program brukar kalla x- variabeln för oberoende och Y- variabeln för beroende, vilket jag tycker är missvisande. Själva lutningskoefficienterna blir fullständigt rätt, även då de "oberoende variablerna" är kraftigt beroende.

Det är utmärkt om korrelationen är mycket låg mellan x- variablerna och att x- värdena är spridda jämt i ett område, då ger regressionen mindre konfidensintervall för lutningen mm. Om två variabler har hög korrelation, så blir konfidensintervallen lätt höga och dåliga. Om x1=x2, så existerar ingen lösning och multipel regressionen kan inte göras. (Man kan förståss ta bort ena variabeln).

Felrisken för hela regressionen är egentligen den som motsvaras i ANOVA, om denna skall användas kanske man skall kräva oberoende.

Multipel regression kan användas till så mycket mer än att göra hypotestester med, men jag kan inte nu bevisa när man kan tolka konfidensintervallen på normalt sätt.
Jag misstänker att man kan tolka konfidensintervallet för lutningen på normalt sätt även då man har betydande beroende, möjligen med visst fel.

Det är däremot mycket viktigt med ett helt annat oberoende vid test. De olika tillstånden eller vektorerna (yi, x2i, x3i,...) skall vara oberoende. Alltså i=1 skall vara oberoende alla övrig i.

 

4) Korrelation = % variability:
I en tjock blå statistikbok (Biometr?) står ungefär:
A simple linear regression could explain ca 80% of the variability. Korrelationen R2=0.80.
Jag reagerade direkt misstänksamt. Hur kan de komma fram till den tolkningen av en korrelationskoefficient? Hur definieras och tolkas " variability"?
Om man inte glasklart kan förklara det, så bör det inte användas.

 

Mer kritiska synpunkter:
Det enda syftet med statistiska hypotes-tester är att visa att det är liten sannolikhet att skillnaden eller avvikelser beror på "slumpen".
Jag tvivlar på om det verkligen behövs, så många metoder för att lösa ett så litet problem. Om man uppnått målet, att det är mindre sannolikt att skillnaden beror på slumpen, då undrar jag över om det är någon mening med att jaga efter minimal felrisk. Felrisken har inget direkt samband med hur stor effekten är eller hur bra det är vetenskapligt.

Normalfördelningstest.

Ibland sägs det att man bör testa om det är normalfördelat, för att använda en normalfördelnings-parametrisk test.
Om man vet att mätvärdet aldrig kan bli under noll, för t.ex. koncentrationer, antal mm, så vet man med absolut säkerhet att det inte är normalfördelning. Man behöver inte testa.
Om man har oerhört många värden, så kan man ofta visa att fördelningen avviker från normalfördelningen.
Det skall sägas att enligt centrala gränsvärdessatsen, så går alltid medelvärdet mot normalfördelningen, då antalet ökar. Detta är en förklaring till varför normalfördelnings-parametriska metoder fungerar på andra fördelningar. Men bara då man tolkar resultatet som test på medelvärden (medel- lutningskoefficienter?) eller skillnad mellan medelvärden.

Varianshomogenitets test:

En del tycker man skall genomföra en varianshomogenitets-test, då ANOVA skall användas. Behövs det?. Då en standardavvikelse är betydligt större än övriga, så kan den öka felrisken, mellan de med liten standardavvikelse. Vid ANOVA så bildas en sorts medelvarians, det liknar ett kvadratiskt medelvärde av standardavvikelserna för de olika behandlingarna.
De stora Sd kommer att dominera.
Den klassiska ANOVAn kommer inte att ge så lätt signifikans mellan vissa behandlingar, då en Sd är extra stor. Men detta är inget fel. Det är däremot helt fel om testen visa felaktigt för låg felrisk. Detta kan inträffa om man har många små standardavvikelser, som drar ned medelvariansen, så att en test, (Fishers-t-test), mellan en med hög Sd och någon annan visar för låg felrisk.
Om man har väldigt många värden, så kan man lättare visa att det inte är varianshomogenitet. Att man får ickesignifikant vid varianshomogenitetstest, bevisar inget .
En Ln-transformation kan göra att mätvärdena närmar sig normalfördelningen mer och blir mer varianshomogen.
Om man gör ett diagram med konfidensintervallen och studerar det kritiskt, så kan man upptäcka om den klassiska ANOVAn ger någon orimlig signifikans, (om n > 5 till 10).
Om man tittar på grafen och jämför med testerna, så bör man kunna upptäcka orimligheter, och i sådana fall kan man försöka med Ln- transformation och kontrollera med grafen ytterligare en gång.
Jag undrar om inte varianshomogenitets- test är onödig.
Vid orimligheter, så kan man jämföra med vanlig t-test, som inte har dessa problem.

Om hypotestester:

Om man har nästan oändligt många mätvärden eller med nästan oändligt små fel, så kan man nästan visa oändligt små skillnader.
Filosofiskt kan man nästan vara säker på att det nästan alltid finns en skillnad mellan olika behandlingar, kanske med p<<0.05.
Men varför testar man då tvåsidigt ?
Ensidig test ger att t.ex. ett mätvärde är i medeltal större än ett annat, vilket ger mer än en skillnad.
Jag upprepar: Det enda syftet med statistiska hypotestester är att visa att det är liten sannolikhet att skillnaden beror på "slumpen". Testerna syftar till att hindra människor för att tolka en "slumpartad" skillnad som en verklig effekt.
Min tolkning av standardavvikelsen är att det är ett mått på diverse okända parametrars inverkan, men som behandlas som om det vore slumpen som påverkar.

Onödigt komplicerat:

Man bör inte göra statistiken onödigt komplicerad, det belastar studenter och forskare. Enkelhet är bra för den vetenskapliga utvecklingen. Onödigt komplicerade metoder belastar studenter och lärare, så de får mindre tid till annat. Man skall inte behöva vara doktor i statistik för att "visa att det är liten sannolikhet att skillnaden beror på "slumpen". En bra struktur av vetenskaplig information underlättar för människor att lära sig mer.
Nya dator-program med nya metoder, gör det lätt att välja onödigt komplicerade metoder.

Förenklad statistik:

Man kan komma mycket långt med några få klassiska tester.
Med t-test eller Mann-Whitney U-test kan man lösa samma problem som ANOVA mm.
Man kan köra flera tester och därefter beräkna sannolikheten att minst någon är signifikant mm, för att hindra fel med "mass-signifikans. Om testerna är oberoende se: http://hem.passagen.se/cnyland/fltester.html

Man skulle kunna ersätta normalfördelningstester, ickeparametriska tester mm., genom en tabell.
Tabellen säger hur mycket felrisken skall korrigeras, för värsta tänkbara fördelning, för olika n, p mm.
En sådan tabell borde redan finnas. Det lättaste sättet att ta fram den på är nog genom att dator-simulera testerna med många olika fördelningar. Man kan göra sådana tabeller för många metoder. Man behöver då inga icke-parametriska tester.

Alltså med t-testen och några klassiska metoder, tabellen och mass-signifikans-koll, så skulle man uppnå kravet på god vetenskap i väldigt många fall.
Om detta ger signifikans, så ser jag inget värde i att öka signifikansen med diverse metoder. Möjligen kan det vara av ett visst värde , att pressa ner felen, då man skall beräkna något kvantitativt med konfidensintervall.
Men det kan ibland vara något bättre med mer komplicerade metoder. Många vill nog välja den mer komplicerade metoden, då den hjälper en över gränsen från ickesignifikant till signifikant.

Om man skall jaga den absolut lägsta felrisken med det lägsta felet i felrisken, så kommer statistiken att bli mycket komplicerad med massor av metoder. Man kan alltid hitta något sätt att justera de mest komplicerade metoderna, för något specialfall.
Jag är kritisk mot en mängd metoder som kanske bara är ett onödigt mode.

Tyvärr, kanske anslagsgivare blir imponerade av konstiga statistikmetoder, och om man är mycket enkel, så kanske en del tror att det är dålig vetenskap.

Några kloka statistiker valde att avrunda felrisken till 0.05, 0.01 och 0.001.
En av orsakerna var att man förr inte hade datorer. Men de insåg även att man inte behövde fler nivåer. (Man kan förstå en irritation om man får ickesignifikant men att det är mycket nära 0.05). Det finns så många andra risker med statistiken att den totala felrisken , (Sanna risken för fel), kan vara mycket större än vad en perfekt statistisk metod visar. T.ex. variablerna är inte helt oberoende, det är ett orsakskomplex där man inte känner alla mekanismer eller något fel vid mätningarna. Det finns exempel , där man fått stark signifikans massor av gånger men gör felaktiga tolkningar. (Orsakskomplex, där grupperna är olika efter flera parametrar.) De riktigt stora tabbarna beror vanligen inte på att de väljer enkla metoder.

Ibland kan man ersätta en komplicerad metod, genom att transformera värden.
Ex. bilda flera medelvärden över beroende värden (från en burk, jmf., repeat messure), beräkna flera medel lutningskoefficient för beroende värden, beräkna index mm. Om man då får många oberoende medelvärden mm, så kan man använda dessa i någon vanlig test. Obs det är viktigt att hålla isär de beroende från oberoende, t.ex. varje beräkning sker för varje burk för sig, så man får ett beräknat värde för varje burk.
Man kan alltså med enkla medel lösa problem, där man har både oberoende och beroende mätvärden. (Jmf. parad t-test, där man först bildar differans mellan beroende mätvärden och sedan testar de oberoende differenserna mot en siffra). Men säkerligen finns det exempel, där en avancerad metod, kan ge en viss fördel.


Regression:

Om regressionsanalys har det skrivits:
"utgår man dock från att de oberoende variablerna mätts utan mätfel." Det har sagts att om det är fel i x- variabeln, så skall modell II regression användas. Detta misstänker jag är fel.
Då man studerar härledningen av regression, så ser man att man minimerar , alltså kvadratsumman av mätpunkternas avstånd till linjen parallellt med Y-axeln. Denna minimerings metod får man inte förväxla med felen.
Man kan skriva
Den matematiska härledningen antager inget om varifrån felet kommer och därför kan man inte kräva att X- variabeln skall ha försumbart fel.
Detta betyder även att om man får använda modell II regression, så får man använda den vanliga regressionen.
Modell II regressionen minimerar på annat sätt och kan fås, så att man får samma ekvation om man växlar Y med X. Jag kommer inte på något fall där modell II regressionen verkligen är nödvändig.

Vid tolkningen av konfidensband, så tolkar jag det som att, om man har ett X- mätvärde med fel och avläser t.ex. grafen, så ser man ett intervall där Y-mätvärdet med t.ex. sannolikheten 0.95 bör hamna.
Detta sätt att tolka tillåter fel i X- variabeln.

Det finns risk för att ett fel i en lärobok, flyttas från bok till bok, likt ett tankevirus.

Funktionellt samband:

Någon har sagt att det krävs ett funktionellt samband för regression.
Även detta menar jag är fel.
I den rena matematiska härledningen finns inget sådant antagande. Men man beskriver problemet förenklat ibland, så att man tänker så.
Jag menar att man bör endast kräva ett funktionellt samband om man skall tolka det som ett funktionellt samband.
Jag tolkar en lutningskoefficient signifikant större än noll i regressionen som att om mätvärdet X ökar , så ökar mätvärdet Y i medeltal. Detta inklusive fel i både Y och X. Alltså ett större X hör ihop med ett större Y.
Den sanna kurvan får se ut hur som helst med denna tolkning.
Man testar inte om kurvan är en rät linje med simpel regression, men regression kan även användas till att dra en rät linje på ett optimalt sätt genom punktmängden.
Regressionen visar inte om det är X som påverkar Y eller tvärtom, den bevisar inte vad som orsaker vad eller om det är ett parallell-samband. Detta är detsamma för alla andra tester.
Men den kan användas ändå.

Dator-program brukar kalla x- variabeln för oberoende och Y- variabeln för beroende, vilket jag tycker är missvisande.

Ett specialfall av regression är ANOVA:
I övningsboken "b" Jan Lanke mfl.,Studiematerial till statistikteori med tillämpningar,(Studentlitteratur Lund 1975?),sid 164,217,övning A1906,*A1907, står klart och tydligt att variansanalysen är ett specialfall av multipel regression och att multipel regression är den mer generella metoden.
Om man skriver:

,så får man samma antagande som vid variansanalysen ,två-vägs.

Variabeln är lika med 1 om villkoret är sant annars =0, alltså en logisk variabel. Vid envägs så används endast ai.
(Jag har testat ett exemplet.)
(t-testen kan ses som ett specialfall av ANOVA och därmed av regression.)
ANCOVA:
Om man låter minst en variabel vara kontinuerlig, så ser man ett alternativ till ANCOVA. (Kanske även ANCOVAn är ett specialfall).

Får man köra regression då det inte är normalfördelat.
Jag menar att man får det, men jag kan inte ge något direkt bevis.
Man måste tolka tester som tester på medelvärden eller medelkoefficienter.
Jag undersökte detta 1992 genom att generera en triangelliknande fördelning.
Jag utförde 51 st. oberoende simpla regressioner på endast 4 punkter åt gången.
I mitt problem gjordes Ln(x), samt tog en differens som y- värde, vilket gör att fördelningen närmar sig normalfördelningen samt blir symetrisk.
Vid vanlig beräkning, så anger man 95% konfidensgräns (p<0.05), men simuleringen visade att konfidensgränsen egentligen var 92% (p<0.078).
Detta är egentligen en bagatell relativt andra risker. OBS: denna skillnad kan delvis bero på "slumpen". Fyra värden är alldeles för lite, då man inte har normalfördelning.
Detta var anpassat till mitt problem.
Det vore mer intressant att välja en extrem fördelning, simulera flera hundra och ha minst 10 punkter vid simpel regression. (Någon har säkert kollat detta).
Om inte multipel regression kan användas på ickenormalfördelningar, så blir den värdelös, samt alla andra metoder som bygger på den (t.ex. Faktoranalys). Det är egentligen viktigt att kunna använda regression på diverse realistiska mätvärden.
Klassisk ANOVA och t-testen är specialfall av multipel regression och dessa fungerar på andra fördelningar.
Om man tar och bildar medelvärdet av 5 st. värden från exponentialfördelningen (extremt anti-normalfördelat), så kommer medelvärdet att tillhöra gammafördelningen. Då antalet ökar så närmar sig medelvärdet normalfördelningen, enligt centrala gränsvärdessatsen.
Jag simulerade även t-testen på exponentialfördelningen för länge sedan och såg att man fick hyfsade tester redan vid n=5 och då man låg nära p<0.05. (Sämre vid p<0.001). Men det normala är att man kräver minst 10 värden, då man inte har normalfördelning.

Logiska och sannolikhets variabler:

Om man tänker sig en sannolikhetsvariabel som varierar mellan 0 och 1, men där man endast använder 0 och 1 från mätvärden, så ser det inte konstigt ut. Om man använder formeln från multipel regression, för att beräkna Y-värdet, så kan man i vissa fall tolka det som sannolikhet (jmf.relativa frekvensen). Men man får se upp med extrapoleringar och då man hamnar nära 0 och 1 eller utanför.
Bäst om konfidensintervallet ligger säkert mellan 0 och 1.

(Kanske detta kallas loggistisk regression, men det är bara vanlig regression.)
(I en äldre bok använde man t-test på krona och klave, alltså 1 och 0, vilket går utmärkt då antalet är mer än ca: 10 st. (Enligt Centrala gränsvärdessatsen)).

Medicinsk tillämpning:

Om man inte lägger på onödiga och felaktiga krav för att få använda multipel regression, så finns det fantastiska möjligheter.
Ex: Låt x- variablerna vara olika vitaminer och miljöfaktorer och ibland även kombinationseffekter som vitaminbrist multiplicerad med gift . Y- variabeln är då sjukdom (t.ex. år efter mätningen.). (Y= sann eller falsk ,0 eller 1).
För en mängd sjukdomar eller symptom får man många ekvationer.
T.ex.


Ett annat system är att på liknande sätt behandla med t.ex. vitaminer mm i olika doser , och undersöka om symptom mm ändras eller försvinner efter olika tider.
P kan då tolkas som t.ex. uppskattad sannolikhet för att symptomet skall försvinna.
Man får då en liknande tabell som ovan.
För att det skall bli vetenskapligt, så måste konfidensintervallen anges.
Detta är ett relativt enkelt sätt att få en struktur på hur t.ex. flera vitaminer mm hör samman med senare symptom och hur vitaminer mm. kan påverka symptom mm. Man kan få plats med massor av symptom på en A4-sida, och där man snabbt kan leta efter samband och även titta om det brukar verka hjälpa med en åtgärd. (Kanske enklare om variablerna normeras med rekommenderad dos.).
Jag undviker att säga orsak. Men metoden kan vara utmärkt för att förstå och beskriva orsakskomplex.
Om man har vissa teorier om hur variabler påverkar, så kan man definiera index (även olinjära) och använda som variabel.
Om man även använder kvadraten, så kan man söka efter det optimala.
(Vid kontrollerat experiment: I stället för sockerpiller, kan man ge i t.ex. 3 olika måttliga koncentrationer, t.ex. rekommenderad, dubbla och halva rekommenderad dos.)

Andra tillämpningar av multipel regression:

1) Separera fördelningar, t.ex. absorbtions-spektrat i några spektra från olika ämnen. Även färgspektra i satellit -foton. Obs ofta kan man endast beräkna några få ämnen. Bra om de skiljer sig från andra ämnen i spektrat och tydligt påverkat spektrat.
2) Koefficienter i differential-ekvationer,(även partiella), och i statiska modeller
Koefficienter i system av differentialekvationer för t.ex. dynamiska system. (Dynamiska modeller). Ett exempel finns, i sista stycket efter "Andra modeller" på:
http://hem.passagen.se/cnyland/Gmodel.html
3) Optimering med multi-polynom-regression.
4) För att undersöka biotoper och beräkna optimal biotop. Åtminstonde om man nöjer sig med ett mindre antal parametrar. (några arter, pH, fukt, ljus, näring mm.)

Provocerande argument, men på skoj:

Fråga: Varför har du inte statistiskt testat grafen med 6 punkter?
Svar: Syftet med statistiska hypotes-tester är att visa att det är liten sannolikhet att skillnaden beror på "slumpen".
Detta resultat är så lyckat att de vetenskapligt bildade ser direkt att det är osannolikt att resultatet beror på slumpen.
De som inte är vana kan göra en liten enkel huvudräkning i grafen med sex punkter. Man drar 5 linjer mellan punkterna. Alla linjerna lutar uppåt. Sannolikheten för att det beror på slumpen, att alla fem linjerna lutar uppåt är: , alltså p<0.05.
Detta är en icke-parametrisk koll. Här behöver man inte datorprogram, normalfördelningstester mm . Skrytmånsar och anpasslingar använder nog super-multi-hyper-power metoder i liknande fall.
Om resultatet vore sämre eller otydligt, så skulle det vara viktigt med någon test.
Ett annat snabb-koll tips är:
Då alla tre i en behandling är större än varje av minst tre i en annan behandling, så är skillnaden signifikant med Mann-Whitney U-test. (Behövs minst 3+3=6 värden).

Viktig fråga som bör ställas:

Om man tillämpar en avancerad metod, så bör man fråga:
1) Vad är det metoden testar?
2) Hur skall felrisken tolkas?
3) Finns det en enklare metod som löser problemet lika bra?

(Ex. Att testa korrelationen är något helt annat än att testa lutningskoefficienten.)



Konsult:

Jag har funderat på att bli konsult i vetenskaplig statistik.
Tills vidare kanske jag kan svara på några frågor gratis, som berör klassiska metoder och experiment.


Christer Nylander, 15/6-2000


Får kopieras och spridas om källa anges, (www-adress).

Hemsida.