mik azok az empirikus kumulatív eloszlási funkciók és mit tehetünk velük? Az első kérdés megválaszolásához először lépjünk vissza, és győződjünk meg róla, hogy megértjük a “disztribúciókat”, pontosabban a “valószínűségi eloszlásokat”.

alapvető valószínűségi eloszlás

Képzeljünk el egy egyszerű eseményt, mondjuk egy érme 3-szor., Íme az összes lehetséges eredmény, ahol H = head és T = tails:

  • HHH
  • HHT
  • HTH
  • THH
  • HTT
  • TTH
  • THT
  • TTT

now imagine H = “siker”., Az eredmények a következőképpen módosul:

  • nos, itt (3 sikerek)
  • HHT (2 sikerek)
  • HTH (2 sikerek)
  • THH (2 sikerek)
  • HTT (1 siker)
  • FOGÁVAL (1 siker)
  • THT (1 siker)
  • TTT (0 sikerek)

Mivel a 8 lehetséges kimenetelek, a valószínűsége annak, hogy a 0, 1, 2, 3 sikerek vagy

  • 0 sikerek: 1/8
  • 1 sikerek: 3/8
  • 2 sikerek: 3/8
  • 3 sikerek: 1/8

Ha az összeg azok a valószínűségek kapunk 1. Ez pedig az eseményünk “valószínűségi eloszlását” jelenti., Formálisan ez az esemény egy binomiális eloszlást követ, mivel az események függetlenek, rögzített számú próba van (3), a valószínűsége minden flip esetében azonos (0,5), és eredményünk a “sikerek” száma a kísérletek számában. Valójában amit most mutattunk be, az egy binomiális eloszlás, 3 próbával, és a valószínűsége 0,5. Ez néha rövidítve b(3,0.5)., Gyorsan létre a valószínűsége a R használja a dbinom beosztása:

dbinom(0:3, size = 3, prob = 0.5)## 0.125 0.375 0.375 0.125

gyorsan megjeleníteni ezt a valószínűségi eloszlás a barplot funkció:

barplot(dbinom(x = 0:3, size = 3, prob = 0.5), names.arg = 0:3)

A funkció létrehozásához használt ezek a valószínűségek gyakran nevezik a “sűrűség” funkciót, így a “d” előtt binom., A diszkrét értékek valószínűségeit generáló eloszlásokat, mint például a binomiális ebben a példában, néha “valószínűségi tömegfüggvényeknek” vagy PMFs-nek nevezik. Az olyan eloszlásokat, amelyek valószínűségeket generálnak a folyamatos értékekhez, mint például a normál, néha “valószínűségi sűrűségfüggvényeknek” vagy PDF-eknek nevezik. Azonban R, függetlenül PMF vagy PDF, a függvény, amely létrehozza a valószínűségek ismert, mint a “sűrűség” funkció.

kumulatív eloszlási funkció

most beszéljünk a “kumulatív” valószínűségekről., Ezek olyan valószínűségek, amelyek felhalmozódnak, amikor balról jobbra haladunk az x tengely mentén a valószínűségi eloszlásunkban., Nézi a forgalmazási telek felett, hogy lenne

  • \(P(X\le0)\)
  • \(P(X\le1)\)
  • \(P(X\le2)\)
  • \(P(X\le3)\)

Mi gyorsan kiszámítja ezek:

  • \(P(X\le0) = \frac{1}{8}\)
  • \(P(X\le1) = \frac{1}{8} + \frac{3}{8} = \frac{1}{2}\)
  • \(P(X\le2) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8}\)
  • \(P(X\le3) = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = 1\)

Az eloszlás ezek a valószínűségek ismert, mint a kumulatív eloszlás., Ismét van egy függvény R generálja ezeket a valószínűségeket számunkra. A ” D “helyett a” binomot “előtt egy”p” – t helyezünk.

pbinom(0:3, size = 3, prob = 0.5)## 0.125 0.500 0.875 1.000

ezt a funkciót gyakran csak” elosztási funkciónak ” nevezik, amely zavaró lehet, ha általában a valószínűségi eloszlások körül próbálod elérni a fejedet. Ennek a funkciónak a megtervezése egy kicsit több munkát igényel. Hamarosan bemutatunk egy könnyebb módot a cselekmény elkészítésére, így a következő kódot megjegyzés nélkül mutatjuk be.,

ezt a parcellát néha step plotnak nevezik. Amint megüt egy pontot az x-tengelyen,” lépsz ” a következő valószínűségre. A 0 vagy annál kisebb valószínűsége 0,125. Ezért az egyenes vonal 0 – tól 1-ig. 1-nél 0,5-re lépünk, mert az 1 vagy annál kisebb valószínűsége 0,5. És így tovább. 3-kor van egy pontunk 1-nél. A 3 vagy annál kevesebb valószínűsége bizonyosság. Garantáljuk, hogy 3 vagy kevesebb sikert érünk el a binomiális disztribúciónkban.

most mutassuk be, mit tettünk fent egy folyamatos eloszlással., Ahhoz, hogy viszonylag egyszerű legyen, a normál normál eloszlást használjuk, amelynek átlaga 0, szórása pedig 1. Ellentétben a mi érme essek fenti példa, amely lehet érteni pontosan egy binomiális eloszlás, nincs” off-the-shelf ” példa a valós életben, hogy a térképek tökéletesen egy normál normál normál eloszlás. Ezért a képzeletünket kell használnunk.

először rajzoljuk meg az eloszlást a curve funkcióval. Az első argumentum, dnorm(x), alapvetően a matematikai képlet, amely felhívja a vonalat., Vegye figyelembe a “D” – t a “norma” előtt; ez a “sűrűség” funkció. A dnorm függvény Alapértékei átlag = 0 és szórás = 1. A from és to argumentumok szerint rajzolja ezt a görbét -3-tól 3-ig terjedő x értékekkel.

curve(dnorm(x), from = -3, to = 3)

a görbe egy sima vonal, ami azt jelenti, hogy minden valós szám valószínűségi eloszlása. A görbe alatti terület 1, mert valószínűségi eloszlás.,

képzeljük el, hogy elérjük ezt az eloszlást és rajzolunk egy számot. Mi a valószínűsége annak, hogy 1.134523768923 lesz? Lényegében 0. Miért? Mert\(\frac{1} {\infty}\) esélye van annak kiválasztására. Miért van \(\infty\) a nevezőben? Mert végtelen számú lehetőség van. Ha ez zavarónak tűnik, Képzeljük csak el, hogy az x tengelyre közelítünk finomabb és finomabb felbontással, a tizedesjegyek pedig a horizontig nyúlnak. Ez azt jelenti, hogy az y tengely értékei nem a valószínűséget, hanem a “sűrűséget”képviselik., A sűrűség lényegében egy kis értéktartomány valószínűsége, amelyet az adott tartomány oszt meg. Ha ez is zavarónak tűnik, akkor rendben van. Ne feledje, hogy nem használunk normál eloszlásokat (vagy bármilyen folyamatos eloszlást) a pontos valószínűségek eléréséhez. Arra használjuk őket, hogy valószínűségeket kapjunk egy értéktartományhoz.

például, mi a valószínűsége annak, hogy x kisebb vagy egyenlő -1-vel? Ehhez használhatjuk apnorm függvényt, amely a normál eloszlás kumulatív eloszlási függvénye.,

pnorm(-1)## 0.1586553

a mozaik csomag biztosítja a praktikus plotDist funkciót a valószínűség gyors megjelenítéséhez. A mosaic:: elhelyezésével a funkció előtt felhívhatjuk a funkciót a mozaik csomag betöltése nélkül. A groups argumentum szerint hozzon létre két régiót: az egyik kevesebb, mint -1, a másik pedig nagyobb, mint -1. A type='h' argumentum szerint rajzoljon egy “hisztogramszerű” parcellát. A két szín az adott régiókra vonatkozik. Nyilvánvaló, hogy a “norma” azt jelenti, hogy normális eloszlást rajzolunk., Ismét az alapértelmezett átlag 0 és szórás 1.

# install.packages('mosaic')mosaic::plotDist('norm', groups = x < -1, type='h', col = c('grey', 'lightblue')) 

Ez a cselekmény valójában halmozott valószínűséget mutat. A kék régió egyenlő 0,1586553-mal, annak a valószínűsége, hogy -1 vagy annál kisebb értéket vonunk le ebből az eloszlásból. Emlékezzünk arra, hogy ezt az értéket a kumulatív elosztási funkcióval kaptuk meg. A normál normál eloszlás összes halmozott valószínűségének megjelenítéséhez ismét használhatjuk acurvefüggvényt, de ezúttal apnorm.,

curve(pnorm(x), from = -3, to = 3)

Ha megnézzük -1 az x tengelyen, és egyenesen felmegyünk a vonalra, majd egyenesen balra az x tengelyre, akkor az x tengelyre kell szállnia 0.1586553. Ezt hozzáadhatjuk a cselekményhez a segments:

curve(pnorm(x), from = -3, to = 3)segments(x0 = -1, y0 = 0, x1 = -1, y1 = pnorm(-1), col = 'red')segments(x0 = -1, y0 = pnorm(-1), x1 = -3, y1 = pnorm(-1), col = 'blue') 

ismét ez egy sima vonal, mert nem vagyunk képesek a végtelen számú valós értékről van szó.,

empirikus kumulatív eloszlási funkciók

most, hogy tisztáztuk a kumulatív eloszlásokat, vizsgáljuk meg az empirikus kumulatív eloszlásokat. Az “empirikus” azt jelenti, hogy inkább a megfigyelésekkel foglalkozunk, mint az elmélettel. A fent feltárt kumulatív eloszlások elméleten alapultak. A binomiális és normál kumulatív eloszlásokat használtuk a valószínűségek kiszámításához és az eloszlás megjelenítéséhez. A való életben azonban az általunk gyűjtött vagy megfigyelt adatok nem elméleti eloszlásból származnak. Az adatokat magának kell felhasználnunk egy kumulatív disztribúció létrehozásához.,

ezt R-ben a ecdf funkcióval tehetjük meg. Az ECDF jelentése “empirikus kumulatív eloszlási funkció”. Vegye figyelembe az utolsó szót:”funkció”. A ecdf függvény egy függvényt ad vissza. Ahogy apbinom éspnorm elméleti adataink összesített eloszlási függvényei voltak,ecdf halmozott eloszlási függvényt hoz létre megfigyelt adatainkhoz. Próbáljuk ki ezt a rock adatkészlet, hogy jön R.,

a kőzetadatkészlet 48 kőzetmintát tartalmaz egy kőolajtartályból. 4 változót tartalmaz: terület, peri, alak és perm. A területváltozóval fogunk dolgozni, amely az egyes mintákban a pórusok teljes területe.

a ecdf funkciók numerikus vektorokon működnek, amelyek gyakran számok oszlopai egy adatkeretben. Az alábbiakban megadjuk a szikla adatkeret területoszlopát.

ecdf(rock$area)## Empirical CDF ## Call: ecdf(rock$area)## x = 1016, 1468, 1651, ..., 11878, 12212

Megjegyzés A kimenet nem olyan hasznos. Ez azért van, mert aecdf függvény egy függvényt ad vissza., Az eredményt hozzá kell rendelnünk egy névhez, hogy létrehozhassuk ECDF funkciónkat. Használjuk a Fn

Fn <- ecdf(rock$area)

most már van egy egyéni halmozott elosztási funkciója, amelyet az adataival használhat. Például létrehozhatunk egy lépéstervet a halmozott Eloszlás megjelenítéséhez.

plot(Fn)

a telket nézve láthatjuk azt a becsült valószínűséget, hogy a minta területe kisebb vagy egyenlő 8000-vel, körülbelül 0,6., De nem kell támaszkodnunk a grafikon szemgömbölésére. Van egy funkció! Felhasználhatjuk, hogy pontosabb becslést kapjunk. Csak adjon neki egy számot az x-tengely tartományán belül, és visszaadja a halmozott valószínűséget.

# Prob area less than or equal to 8000Fn(8000)## 0.625

a funkciót több értékkel is használhatjuk. Például, akkor kap becsült valószínűségek, hogy a terület kisebb vagy egyenlő 4000, 6000, és 8000.

Fn(c(4000, 6000, 8000))## 0.1250000 0.3333333 0.6250000

van még egy summary módszer az ECDF funkciókhoz., Visszaadja a megfigyelt adatok egyedi értékeinek összefoglalását. Figyeljük meg, hogy hasonló a numerikus Vektorok hagyományos összefoglaló módszeréhez, de az eredmény kissé eltér, mivel az összes érték helyett az egyedi értékeket foglalja össze.

végül, ha úgy tetszik, egy elméleti kumulatív eloszlást helyezhetünk el az ECDF felett. Ez segíthet felmérni, hogy feltételezhetjük-e, hogy adatainkat egy adott elméleti eloszlással lehet modellezni. Lehet-e például úgy tekinteni az adatainkra,mintha egy normál eloszlásból mintát vettek volna?, Az alábbiakban a lépésfüggvényt ábrázoljuk, majd a megfigyelt adataink átlag-és szórásának felhasználásával egy kumulatív normál eloszlást fedünk le.

plot(ecdf(rock$area))curve(pnorm(x, mean(rock$area), sd(rock$area)), from = 0, to = 12000, add = TRUE, col='blue', lwd = 2) 

úgy tűnik, hogy a vonalak egy kicsit átfedik egymást, ami arra utal, hogy az adatok közelíthetők a normál eloszláshoz. Összehasonlíthatjuk az ECDF becsléseit egy elméleti CDF-rel is. Láttuk, hogy a 8000-nél kisebb vagy egyenlő terület valószínűsége körülbelül 0,625., Hogyan viszonyul ez egy normális kumulatív eloszláshoz, amelynek átlagos és standard eltérése rock$area?

pnorm(8000, mean = mean(rock$area), sd = sd(rock$area))## 0.6189223

Ez elég közel van!

egy másik grafikus értékelés a Q-Q telek, amely szintén könnyen elvégezhető R-ben a qqnorm és qqline funkciók használatával. Az ötlet az, hogy ha a pontok az átlós vonal mentén esnek, akkor jó bizonyítékunk van arra, hogy az adatok valószínűleg normálisak., Ez a cselekmény ismét azt mutatja, hogy az adatok úgy néznek ki, mintha jól közelíthetők lennének a normál eloszláshoz. (További információ a Q-Q parcellákról, lásd cikkünket, A Q-Q parcellák megértése).

qqnorm(rock$area)qqline(rock$area)

A kérdéseket, vagy pontosítását ez a cikk, lépjen kapcsolatba az UVA-Könyvtár StatLab: [email protected]

Nézet a teljes gyűjtemény UVA Könyvtár StatLab cikkek.

Clay Ford
statisztikai kutatási tanácsadó
Virginiai Egyetem Könyvtár
2020. július 9.