Mitkä ovat empiirinen kertymäfunktio toiminnot ja mitä voimme tehdä niiden kanssa? Vastausta ensimmäiseen kysymykseen, katsotaanpa ensin askel taaksepäin ja varmista, että ymmärrämme ”jakaumat”, tai tarkemmin, ”todennäköisyysjakaumat”.
Perustodennäköisyysjakauma
kuvitelkaa yksinkertainen tapahtuma, sanokaa kolikon kääntäminen 3 kertaa., Tässä ovat kaikki mahdollisia tuloksia, missä H = pään ja T = klaava:
- HHH
- HHT
- HTH
- THH
- HTT
- TTH
- THT
- TTT
Nyt kuvitella, S = ”menestys”., Meidän tulokset voidaan muuttaa seuraavasti:
- HHH (3 onnistumisia)
- HHT (2 onnistumisista)
- HTH (2 onnistumisista)
- THH (2 onnistumisista)
- HTT (1 menestys)
- TTH (1 menestys)
- THT – (1 menestys)
- TTT (0 onnistumisia)
Koska on 8 mahdollista lopputulosta, todennäköisyydet 0, 1, 2, ja 3 onnistumiset ovat
- 0 onnistumisia: 1/8
- 1 onnistumisia: 3/8
- 2 onnistumisista: 3/8
- 3 onnistumisia: 1/8
Jos me summa niitä, todennäköisyydet, saamme 1. Ja tämä edustaa ”todennäköisyysjakaumaa” tapahtumallemme., Virallisesti tämä tapahtuma seuraa, binomijakauma, koska tapahtumat ovat riippumattomia, on olemassa kiinteä määrä tutkimuksissa (3), todennäköisyys on sama jokaiselle flip (0.5), ja meidän tulos on määrä ”onnistumisia” useissa tutkimuksissa. Itse asiassa juuri osoittanut on binomijakauma 3 tutkimusta ja todennäköisyys on 0,5. Tämä on joskus lyhennetty muotoon b(3,0, 5)., Voimme nopeasti luoda todennäköisyydet R käyttäen dbinom
tehtävä:
dbinom(0:3, size = 3, prob = 0.5)## 0.125 0.375 0.375 0.125
Voimme nopeasti visualisoida tämän todennäköisyysjakauman, jossa barplot
toiminto:
barplot(dbinom(x = 0:3, size = 3, prob = 0.5), names.arg = 0:3)
– toimintoa käytetään tuottamaan nämä todennäköisyydet on usein nimitystä ”tiheys” – toiminto, joten ”d” edessä binom., Jakaumat, jotka tuottavat todennäköisyydet erillisiä arvoja, kuten binomisen tässä esimerkiksi, ovat joskus kutsutaan ”todennäköisyys massa toiminnot” tai PMFs. Jakaumia, jotka tuottavat todennäköisyyksiä jatkuville arvoille, kuten normaalille, kutsutaan joskus” todennäköisyystiheysfunktioiksi ” eli PDF-tiedostoiksi. Kuitenkin R, riippumatta PMF tai PDF, funktio, joka tuottaa todennäköisyydet tunnetaan ”tiheys” funktio.
kertymäfunktio
Nyt puhutaan ”kumulatiivinen” todennäköisyyksiä., Nämä ovat todennäköisyyksiä, jotka kertyvät, kun siirrymme vasemmalta oikealle X-akselin suuntaisesti todennäköisyysjakaumassamme., Tarkasteltaessa jakelu juoni edellä, että olisi
- \(P(X\le0)\)
- \(P(X\le1)\)
- \(P(X\le2)\)
- \(P(X\le3)\)
Voimme nopeasti laskea nämä:
- \(P(X\le0) = \frac{1}{8}\)
- \(P(X\le1) = \frac{1}{8} + \frac{3}{8} = \frac{1}{2}\)
- \(P(X\le2) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8}\)
- \(P(X\le3) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = 1\)
jakelu nämä todennäköisyydet tunnetaan kumulatiivinen jakauma., Taas on funktio R, joka tuottaa nämä todennäköisyydet meille. Sen sijaan, että” D ”edessä” binom ”laitamme”p”.
pbinom(0:3, size = 3, prob = 0.5)## 0.125 0.500 0.875 1.000
Tämä toiminto on usein vain nimitystä ”distribution function”, joka voi olla hämmentävää, kun olet yrittää saada pään ympärille todennäköisyys jakaumat yleensä. Tämän toiminnon piirtäminen vaatii hieman enemmän työtä. Esittelemme helpomman tavan tehdä tämä juoni pian, joten esitämme seuraavan koodin ilman kommenttia.,
Tämä tontti on joskus kutsutaan askel juoni. Heti kun osut pisteeseen x-akselilla, ”askel” seuraavalle todennäköisyydelle. Todennäköisyys 0 tai vähemmän on 0,125. Näin ollen suora viiva 0-1. Klo 1 astumme jopa 0,5, koska todennäköisyys 1 tai vähemmän, jos 0,5. Ja niin edelleen. Kolmosella piste on 1. Todennäköisyys 3 tai vähemmän on varmuus. Saamme varmasti 3 tai vähemmän onnistumisia binomijakaumassamme.
nyt näytetään, mitä teimme edellä jatkuvalla jakaumalla., Pitääksemme sen suhteellisen yksinkertaisena käytämme normaalijakaumaa, jonka keskiarvo on 0 ja keskihajonta 1. Toisin kuin meidän kolikon flipping esimerkiksi edellä joka voidaan ymmärtää juuri binomijakauma, ei ole ”off-the-shelf” esimerkki elävästä elämästä, että kartat täydellisesti standardia normaalijakaumaa. Siksi meidän on käytettävä mielikuvitustamme.
katsotaanpa ensin piirtää levitys curve
toiminto. Ensimmäinen argumentti, dnorm(x)
, on pohjimmiltaan matematiikka kaava, joka piirtää viivan., Huomaa ”d” edessä ”normi”; tämä on ”tiheys” – toiminto. Oletusarvoja dnorm
funktio on keskiarvo = 0 ja keskihajonta = 1. from
ja to
perustelut sanoa piirrä tämä käyrä käyttämällä x: n arvot vaihtelevat -3: sta 3.
curve(dnorm(x), from = -3, to = 3)
käyrä on sileä linja, mikä tarkoittaa, että se on todennäköisyysjakauman kaikkien todellisten numerot. Käyrän alla oleva alue on 1, koska se on todennäköisyysjakauma.,
Kuvittele kurottautuvasi tähän jakaumaan ja piirtävän luvun. Mikä on todennäköisyys saada 1.134523768923? Se on periaatteessa 0. Miksi? Koska on olemassa \(\frac{1}{\infty}\) mahdollisuus valita se. Miksi nimittäjässä on \(\infty\)? Koska mahdollisuuksia on ääretön määrä. Jos se tuntuu hämmentävältä, kuvitelkaa zoomaus x-akselille hienommalla ja hienommalla resoluutiolla, desimaalien venyessä horisonttiin. Tämä tarkoittaa, että y-akselin arvot eivät edusta todennäköisyyttä vaan”tiheyttä”., Tiheys on käytännössä todennäköisyys pienelle arvoalueelle, joka jaetaan tällä vaihteluvälillä. Jos sekin tuntuu sekavalta, se on OK. Muista vain, että emme käytä normaaleja jakaumia (tai mitään jatkuvaa jakaumaa) täsmällisten todennäköisyyksien saamiseksi. Käytämme niitä saadaksemme todennäköisyyksiä erilaisille arvoille.
esimerkiksi, mikä on todennäköisyys, että x on pienempi tai yhtä suuri kuin -1? Tähän voimme käyttää pnorm
toiminto, joka on kumulatiivinen kertymäfunktio normaalijakaumaa.,
pnorm(-1)## 0.1586553
mosaiikki paketti sisältää käteviä plotDist
toiminto nopeasti visualisoida tämä todennäköisyys. Sijoittamalla mosaic::
ennen funktiota voimme kutsua funktiota ilman mosaiikkipaketin lataamista. groups
– argumentin mukaan luodaan kaksi aluetta: yksi alle -1 ja toinen yli -1. type='h'
-argumentin mukaan piirretään” histogrammimainen ” juoni. Nämä kaksi väriä ovat asianomaisille alueille. Ilmeisesti ”normi” tarkoittaa piirtää normaalin jakauman., Jälleen oletusarvo on keskiarvo 0 ja keskihajonta 1.
# install.packages('mosaic')mosaic::plotDist('norm', groups = x < -1, type='h', col = c('grey', 'lightblue'))
Tämä juoni oikeastaan osoittaa, kumulatiivinen todennäköisyys. Sininen alue on yhtä suuri kuin 0.1586553, todennäköisyys, me piirtää arvoa -1 tai vähemmän levityksen. Recall käytimme kumulatiivinen Jakelu toiminto saada tämän arvon. Visualisoida kaikki kumulatiiviset todennäköisyydet standardi normaalijakaumaa, voimme taas käyttää curve
toiminto, mutta tällä kertaa pnorm
.,
curve(pnorm(x), from = -3, to = 3)
Jos katsomme -1 x-akselilla ja mennä suoraan ylös viiva, ja sitten mennä suoraan vasemmalle x-akselin, se olisi maa, 0.1586553. Voimme lisätä tämän juoni käyttäen segments
:
curve(pnorm(x), from = -3, to = 3)segments(x0 = -1, y0 = 0, x1 = -1, y1 = pnorm(-1), col = 'red')segments(x0 = -1, y0 = pnorm(-1), x1 = -3, y1 = pnorm(-1), col = 'blue')
Jälleen tämä on tasainen line koska olemme tekemisissä ääretön määrä todellisia arvoja.,
empiiriset kumulatiiviset Jakaumafunktiot
nyt kun olemme selvillä kumulatiivisista jakaumista, tutkitaan empiirisiä kumulatiivisia jakaumia. ”Empiirinen” tarkoittaa, että kyse on pikemminkin havainnoista kuin teoriasta. Edellä tutkimamme kumulatiiviset jakaumat perustuivat teoriaan. Käytimme binomisia ja normaaleja kumulatiivisia jakaumia vastaavasti todennäköisyyksien laskemiseen ja jakauman visualisointiin. Tosielämässä keräämämme tai tarkkailemamme data ei kuitenkaan tule teoreettisesta jakaumasta. Meidän on käytettävä itse tietoja luodaksemme kumulatiivisen jakauman.,
Voimme tehdä tämän R ecdf
toiminto. ECDF tarkoittaa ”empiiristä kumulatiivista Jakaumafunktiota”. Huomaa viimeinen sana: ”funktio”. ecdf
funktio palauttaa funktion. Aivan kuten pbinom
ja pnorm
oli kumulatiivinen jakauma meidän teoreettiset tiedot, ecdf
luo kumulatiivinen kertymäfunktio meidän havaittu data. Kokeillaan tätä R: n mukana tulevalla Rock-datasarjalla.,
rock aineisto sisältää mittauksia 48 rock näytteitä öljy säiliö. Se sisältää 4 muuttujaa: pinta-ala, peri, muoto ja perm. Työskentelemme pinta-alamuuttujan kanssa, joka on huokosten kokonaispinta-ala kussakin näytteessä.
ecdf
toiminnot toimii numeerinen vektorit, jotka ovat usein saraketta numeroita data frame. Alla annamme sille kallion datarungon aluepatsaan.
ecdf(rock$area)## Empirical CDF ## Call: ecdf(rock$area)## x = 1016, 1468, 1651, ..., 11878, 12212
Huomaa, että lähtö ei ole, että hyödyllisiä. Tämä johtuu siitä, ettäecdf
funktio palauttaa funktion., Meidän on annettava tulos nimelle, jotta voimme luoda ECDF-toiminnon. Katsotaanpa käyttää Fn
Fn <- ecdf(rock$area)
Nyt sinulla on mukautettuja kertymäfunktio voit käyttää tietojasi. Voimme esimerkiksi luoda vaihe juoni visualisoida kumulatiivinen jakautuminen.
plot(Fn)
tarkastellaan juoni voimme nähdä arvioitu todennäköisyys, että alue näyte on pienempi kuin tai yhtä suuri kuin 8000 on noin 0,6., Mutta meidän ei tarvitse luottaa siihen, että kuvaaja on katseenvangitsija. Meillä on tehtävä! Sen avulla saadaan tarkempi arvio. Anna sille numero x-akselin alueella ja se palauttaa kumulatiivisen todennäköisyyden.
# Prob area less than or equal to 8000Fn(8000)## 0.625
Voimme käyttää toimintoa, joissa on enemmän kuin yksi arvo. Voimme esimerkiksi saada arvioidut todennäköisyydet, että pinta-ala on alle tai yhtä suuri kuin 4000, 6000 ja 8000.
Fn(c(4000, 6000, 8000))## 0.1250000 0.3333333 0.6250000
myös summary
menetelmä ECDF toimintoja., Se palauttaa yhteenvedon havaituista tiedoista. Huomaa, että se on samanlainen kuin perinteinen yhteenveto menetelmä numeerisia vektoreita, mutta tulos on hieman erilainen, koska se on yhteenveto ainutlaatuinen arvoja, vaan kaikki arvot.
Lopuksi, jos haluamme, voimme päällekkäin teoreettinen kumulatiivinen jakautuminen ECDF. Tämä voi auttaa meitä arvioimaan, voimmeko olettaa, että tietomme voidaan mallintaa tietyllä teoreettisella jakaumalla. Voisiko esimerkiksi ajatella, että meidän tiedoistamme on otettu näytteitä normaalijakaumasta?, Alla kuvaamme askelfunktion ja sitten overlay kumulatiivinen Normaalijakauma käyttäen keskiarvoa ja keskihajontaa havaittuja tietoja.
plot(ecdf(rock$area))curve(pnorm(x, mean(rock$area), sd(rock$area)), from = 0, to = 12000, add = TRUE, col='blue', lwd = 2)
linjat näyttää päällekkäin melko vähän, mikä viittaa siihen, että tietoja voidaan approksimoida normaalijakauman. Voimme myös verrata ECDF: n arvioita teoreettiseen CDF: ään. Näimme, että todennäköisyys, että alue on alle tai yhtä suuri kuin 8000 on noin 0,625., Miten se verrata Normaaliin kumulatiivinen jakauma, jonka keskiarvo ja keskihajonta rock$area
?
pnorm(8000, mean = mean(rock$area), sd = sd(rock$area))## 0.6189223
Se on aivan lähellä!
Toinen graafinen arviointi on Q-Q plot, joka voidaan myös helposti tehdä Tutkimus käyttäen qqnorm
ja qqline
toiminnot. Ajatuksena on, että jos pisteet putoavat lävistäjälinjaa pitkin, meillä on hyvät todisteet siitä, että tiedot ovat uskottavasti normaaleja., Jälleen tämä juoni paljastaa, että tiedot näyttävät siltä, että ne voitaisiin hyvin lähentää normaali jakelu. (Lisätietoja Q-Q-tonteista, KS. artikkelimme, Q-Q-tonttien ymmärtäminen).
qqnorm(rock$area)qqline(rock$area)
kysymyksiä tai selvennyksiä, jotka koskevat tämän artiklan, ottaa yhteyttä UVA Kirjasto StatLab: [email protected]
Tarkastele koko kokoelma UVA Kirjasto StatLab artikkeleita.
Clay Ford
Statistical Research Consultant
University of Virginia Library
July 9, 2020
Vastaa