Mitä ovat epäparametriset tilastot?
Ei-parametreilla tilastoilla tarkoitetaan tilastollista menetelmää, jossa tietoja ei vaadita sopimaan normaalijakaumaan. Ei-parametrinen tilasto käyttää usein ordinaarista tietoa, mikä tarkoittaa, että se ei vedota numeroihin, vaan pikemminkin luokitteluun tai lajittelujärjestykseen. Esimerkiksi kyselyä, joka välittää kuluttajien mieltymykset vaihtelevat mieltymyksistä, pidetään normaalitietoina.
Ei-parametrisiin tilastoihin kuuluvat ei-parametriset kuvaavat tilastot, tilastolliset mallit, päätelmät ja tilastolliset testit. Ei-parametristen mallien mallirakennetta ei määritetä etukäteen, vaan sen sijaan määritetään datasta. Termillä ei-parametrinen ei tarkoiteta tarkoittavan, että sellaisista malleista puuttuisi täysin parametreja, vaan pikemminkin, että parametrien lukumäärä ja luonne ovat joustavia eikä niitä ole vahvistettu etukäteen. Histogrammi on esimerkki epäparametrisesta arviosta todennäköisyysjakaumasta.
Ei-parametristen tilastojen ymmärtäminen
Tilastoissa parametritilastot sisältävät parametrejä, kuten keskiarvon, mediaanin, keskihajonnan, varianssin jne. Tämä tilastomuoto käyttää havaittua tietoa arvioitaessa jakauman parametreja. Parametristen tilastojen mukaan tietojen oletetaan sopivan normaalijakaumaan tuntemattomien parametrien μ (populaation keskiarvo) ja σ 2 (populaatiovarianssi) kanssa, jotka arvioidaan sitten käyttämällä otoksen keskiarvoa ja näytteen varianssia.
Ei-parametriset tilastotiedot eivät tee olettamusta otoksen koosta tai siitä, ovatko havaitut tiedot kvantitatiivisia.
Ei-parametrinen tilasto ei oleta, että tiedot on otettu normaalijakaumasta. Sen sijaan jakauman muoto arvioidaan tällä tilastollisen mittauksen muodolla. Vaikka on olemassa monia tilanteita, joissa normaalijakauma voidaan olettaa, on myös joitain tilanteita, joissa ei ole mahdollista määrittää, jakavatko tiedot normaalisti.
Esimerkkejä epäparametrisista tilastoista
Ensimmäisessä esimerkissä harkitse tutkijaa, joka haluaa arvion ruskeilla silmillä syntyneiden vauvojen määrästä Pohjois-Amerikassa, ja se voi päättää ottaa näytteen 150 000 vauvasta ja suorittaa analyysin tietojoukosta. Niiden saamaa mittausta käytetään arvioksi seuraavana vuonna syntyneiden ruskeasilmäisten vauvojen koko populaatiosta.
Toisena esimerkkinä harkitse toista tutkijaa, joka haluaa tietää, liittyykö nukkuminen aikaisin vai myöhään nukkumiseen siihen, kuinka usein sairastuu. Olettaen, että otos valitaan satunnaisesti populaatiosta, sairauksien esiintyvyyden otoskokojakauman voidaan olettaa olevan normaali. Kokeen, jolla mitataan ihmiskehon resistenssi bakteerikannalle, ei voida kuitenkaan olettaa jakautuvan normaalisti.
Tämä johtuu siitä, että satunnaisesti valittu näytedata voi olla kannan vastus. Toisaalta, jos tutkija ottaa huomioon sellaisia tekijöitä kuin geneettinen rakenne ja etnisyys, hän voi havaita, että näitä ominaisuuksia käyttämällä valittu näytteen koko ei ehkä ole resistentti kannalle. Siksi normaalia jakaumaa ei voida olettaa.
Tämä menetelmä on hyödyllinen, kun tiedoilla ei ole selkeää numeerista tulkintaa, ja se on parasta käyttää tietojen kanssa, joilla on lajittelujärjestys. Esimerkiksi persoonallisuuden arviointitestissä voi olla mittatietojen sijoitus selkeästi eri mieltä, eri mieltä, välinpitämätön, samaa mieltä ja vahvasti samaa mieltä. Tässä tapauksessa olisi käytettävä ei-parametrisia menetelmiä.
Erityiset näkökohdat
Ei-parametriset tilastot ovat saaneet arvostusta helppokäyttöisyytensä vuoksi. Kun parametrien tarve vähenee, datasta tulee paremmin sovellettavissa laajempaan valikoimaan testejä. Tämän tyyppisiä tilastoja voidaan käyttää ilman keskiarvoa, otoksen kokoa, keskihajontaa tai muiden vastaavien parametrien arviointia, kun mitään näistä tiedoista ei ole saatavana.
Koska epäparametrinen tilasto tekee vähemmän oletuksia näytteen tiedoista, sen soveltaminen on laajempi kuin parametristen tilastojen. Tapauksissa, joissa parametrinen testaus on tarkoituksenmukaisempaa, ei-parametriset menetelmät ovat vähemmän tehokkaita. Tämä johtuu siitä, että epäparametrisistä tilastoista saaduilla tuloksilla on alhaisempi luottamusaste kuin jos tulokset olisi saatu käyttämällä parametrisiä tilastoja.
Avainsanat
- Ei-parametrejä koskevia tilastoja on helppo käyttää, mutta ne eivät tarjoa muiden tilastollisten mallien tarkkuutta. Tämäntyyppinen analyysi sopii parhaiten harkittaessa jonkin järjestystä. Jos numeerinen data muuttuu, tulokset pysyvät todennäköisesti ennallaan.
