Obsah

AP12 Pravděpodobnost a statistika

(klasická a podmíněná pravděpodobnost, distribuční funkce a rozdělení náhodných veličin, výpočet střední hodnoty, rozptylu a kovariance)

Pravděpodobnost náhodného jevu je číslo, které je mírou očekávatelnosti výskytu jevu. 1) (Popisná) statistika je zpracování číselných dat o nějakém souboru objektů.
Matematická statistika je věda aplikovaná na problémy spojené se sběrem a pozorováním náhodných dat.

Terminologie

\Omega = množina všech možných výsledků, základní prostor. Prvky \omega \in \Omega představují jednotlivé možné výsledky.

Jevové pole je systém podmnožin \Delta základního prostoru uzavřený na konečné průniky, spočetná sjednocení a množinové rozdíly. Jednotlivé množiny A \in \Delta nazýváme náhodné jevy (vzhledem k \Delta).

Základní pojmy

  • jistý jev je celý základní prostor \Omega
  • nemožný jev je prázdná podmnožina \emptyset \in \Delta
  • elementární jevy jsou jednoprvkové podmnožiny \{\omega\}, \omega \in \Omega
  • společné nastoupení jevů A_{i}, i \in I je jejich průnik, tedy odpovídá jevu \bigcap_{i \in I}{}{} A_{i},
  • nastoupení alespoň jednoho z jevů A_{i}, i \in I je jejich sjednocením, odpovídá jevu \bigcup_{i \in I}{}{} A_{i}
  • neslučitelné jevy A,B \in \Delta jsou jevy, pro které platí A \cap B = \emptyset
  • jev A má za důsledek jev B, když A \subset B
  • opačný jev k jevu A je jev B = \Omega \backslash A, píšeme B = A^c

Pravděpodobnostní funkce je funkce P : \Delta \rightarrow R na jevovém poli (\Omega,\Delta)

Vlastnosti pravděpodobnostní funkce

  • je nezáporná, tj. P(A) \geq 0 pro všechny jevy A,
  • je aditivní, tj. P\left(\bigcup_{i \in I}{}{} A_{i}\right) = \sum_{i \in I} P(A_{i}), pro každý nejvýše spočetný systém po dvou neslučitelných jevů (laicky: „dá se sčítat, když jsou jevy neslučitelné“),
  • pravděpodobnost jistého jevu je 1.
  • pravděpodobnost opačného jevu je P(A^c) = 1 - P(A)

Pravděpodobnosti

Rozlišujeme dvě definice pravděpodobností: klasickou a geometrickou. Pokud klademe podmínky, bavíme se o tzv. podmíněné pravděpodobnosti.

Klasická pravděpodobnost

Klasická pravděpodobnost je pravděpodobnostní prostor (\Omega, \Delta, P) s pravděpodobnostní funkcí P : \Delta \rightarrow R,
P(A) = \frac{{|}A{|}}{{|}\Omega{|}} .

Jednoduchý príklad

Zadanie: Hádžeme kockou. Aká je pravdepodobnosť, že hodíme číslo 6?

Riešenie:

{|}A{|} - úspešný výsledok (hodená 6)
{|}\Omega{|} - všetky možné výsledky (1 až 6)

P(A) = \frac{{|}A{|}}{{|}\Omega{|}} = \frac{1}{6} = 0,166666667 = 17\%.

Geometrická pravděpodobnost

Zde je definice pravděpodobnosti založena na porovnání objemů, ploch či délek geometrických útvarů.
P(A) = \frac{vol\ A}{vol\ \Omega}

Příklad - jen nastínění řešení

Zadání: Romeo a Julie si smluvili schůzku mezi 12:00 a 13:00. Přijdou náhodně v tomto rozmezí a čekají na sebe 20 minut, nejdéle však do 13:00. Jaká je pravděpodobnost, že se setkají?


Nástin řešení: musíme si vytvořit funkci, která nám v pravděpodobnostním prostoru odděluje jev příznivý od nepříznivého. Potom spočítáme obsah části, která znázorňuje jev příznivý a dělíme obsahem celého prostoru.

Podmíněná pravděpodobnost

Nechť H je jev s nenulovou pravděpodobností v jevovém poli \Delta v pravděpodobnostním prostoru (\Omega, \Delta, P). Podmíněná pravděpodobnost P(A|H) jevu A \in \Delta vzhledem k hypotéze H je definována vztahem P(A|H) = \frac{P(A \cap H)}{P(H)} (napr. „jaká je pravděpodobnost, že při hodu dvěmi kostkami padly dvě pětky, je-li součet hodnot deset?“).

Pravděpodobnost průniku a sjednocení jevů

Definice odpovídá požadavku, že jevy A a H nastanou zároveň, za předpokladu, že A nastal s pravděpodobností P(A \cap H)/P(A).

Je také vidět přímo z definice, hypotéza H a jev A jsou nezávislé tehdy a jen tehdy, je-li P(A) = P(A|H).

Přepsáním formule pro podmíněnou pravděpodobnost dostáváme

P(A \cap B) = P(B \cap A) = P(A)P(B|A) = P(B)P(A|B)

P(A \cup B) = P(A) + P(B) - P(A\cap B) … závislé
\ \ \ \ \ \ \ \ \ \ \ \ \  = P(A) + P(B) … nezávislé

P(A \cap B) = P(A|B) \cdot P(B) … závislé
\ \ \ \ \ \ \ \ \ \ \ \ \ = P(A)  \cdot P(B) … nezávislé
obecně: P(A_{1}\cap A_{2} \cap ... \cap A_{n})= P(A_{1}) \cdot P(A_{2}|A_{1}) \cdot .. \cdot P(A_{n}|A_{1} \cap A_{2} \cap ... \cap A_{n})

Bayesův vzorec Pro pravděpodobnost jevů A a B platí
P(A|B) = \frac{P(B|A) P(A) }{P(B)}

Využíváme jej, když známe podmíněnou pravděpodobnost P(B|A) a chceme zjistit P(A|B).

Jednoduchý příklad

Zadání: Dva střelci vystřelí každý jednu ránu na terč. První má pravděpodobnost zásahu 80%, druhý 60%. V terči se našla jedna rána. Jaká je pravděpodobnost, že patří prvnímu střelci?


Řešení: P(H_{1})= 0,8, P(H_{2})= 0,6 Jev A: rána patří prvnímu střelci
Pravděpodobnost toho, že se trefí první střelec = (pravděpodobnost, že se první trefí a druhý ne) / (pravděpodobnost, kdy je v terči 1 rána)

Pravděpodobnost, kdy je v terči 1 rána: 0.8\cdot 0.4 + 0.2\cdot 0,6 = 0,44 (bud se prvni trefi a druhy ne a nebo naopak)
P(A) = \frac{0,8\cdot 0,4}{0,44} 2).

Distribuční funkce a rozdělení náhodných veličin

Nahodná veličina –- zavádíme ji, protože chceme pracovat s intervaly – vyjádřit, jaká je pravděpod., že daná hodnota bude právě z tohoto intervalu.
Rozdělení pravděpodobnosti je pravidlo, které přiřazuje pravděpodobnosti událostem nebo tvrzením.
Existuje několik způsobů, jak vyjádřit rozdělení pravděpodobnosti. Nejobvyklejší je uvést hustotu rozdělení pravděpodobnosti; samotná pravděpodobnost jevu se pak získá integrací funkce hustoty.
Diskrétní rozdělení pravděpodobností (definováno na spočetné, diskrétní množině, jako je podmnožina celých čísel) - např. binomické, Poissonovo
Spojité rozdělení (existuje spojitá distribuční funkce, např. polynomická nebo exponenciální) - např. normální rozdělení, exponenciální rozdělení 3)

Distribuční funkce

distribuční funkcí náhodné veličiny X je funkce F :  
R \rightarrow R definovaná pro všechny x \in R vztahem
F(x) = P(X \leq x)

Diskrétní náhodná veličina X

X na pravděpodobnostním prostoru (\Omega, A, P) nabývá jen konečně mnoha hodnot x_{1}, x_{2}, . . . , x_{n} \in R. Pak existuje tzv. pravděpodobnostní funkce f(x) taková, že
f(x) = P(X = x_{i})  x = x_{i}\  ;\ 0\ jinak. Evidentně \sum_{i=1}^{n}\  f(x_{i}) = 1 a pro rozdělení pravděpodobnosti platí
P(X^{-1} B) =\sum_{x_{i} \in B}\  f(x_{i}) a tedy zejména je distribuční funkce tvaru
F_{X}(t) =\sum_{x_{i} \leq t}\ f(x_{i}) Každá náhodná veličina definovaná pro klasickou pravděpodobnost je diskrétní.

Diskrétní veličinu si můžeme představit jako graf složený z bodů, které odpovídají pravděpodobnosti daného jevu (pro házení kostkou je to 1/6)
Sečtení hodnot bodů musí dát 1.
Distribuční funkce F_{X} v bodě 3 se vlastně rovná součtu pravděpodobnostních hodnot do tohoto bodu, tedy \frac{1}{6} + \frac{1}{6} + \frac{1}{6}

Spojité náhodné veličině odpovídá spojitá distribuční funkce.
F(x) = P(A \leq X \leq B) = \int_{a}^{b} f(x) dx, kde f(x) je funkce hustoty pravděpodobnosti.

Funkce hustoty pravděpodobnosti

Nechť X je náhodná veličina, F(x) je její distribuční funkce.
  1. F je zleva spojitá, lim_{x \rightarrow -\infty} = 0 a lim_{x \rightarrow \infty} = 1.
  2. Vždy platí P(a \leq X < b) = F(b) - F(a).
  3. Je-li X diskrétní s hodnotami x_{1}, . . . , x_{n}, pak je F(x) po částech konstantní, F(x) = \sum_{x_{i} \leq x}\ P(X = x_{i}) a F(x) = 1 kdykoliv x > x_{n}.
  4. Je-li X spojitá, pak je F(x) diferencovatelná a její derivace se rovná hustotě pravděpodobnosti X, tj. platí

F'(x) = f(x).

Spojitou veličinu si můžeme představit jako spojitý graf (když například zobrazujeme výšku lidí)
Plocha pod křivkou musí mít obsah 1.
Distribuční funkce F_{X} se proto vyjadřuje jako integrál.

Rozdělení náhodných veličin

Diskrétní

Degenerované rozdělení

Alternativní rozdělení

Binomické rozdělení

Příklad s nastíněným řešením

Zadání: Pravděpodobnost narození chlapce je 0,515. Jaká je pravděpodobnost, že mezi deseti tisíci novorozenci bude stejně nebo více děvčat než chlapců?


Řešení: P(p) = 0,515, n = 10000

Protože se vlastně nezávisle stále opakuje „pokus“ s výsledkem „kluk“ nebo „děvče“, použijeme Binomické rozdělení Bi(n,p), tedy Bi(10000; 0,515).

Y_{10000} \sim Bi(10000; 0,515)

P(Y_{10000}=x) = {n \choose k}\ p^{t}\ (1 - p)^{n-t} …dosadíme 10000 za n

P(Y_{10000}=5000)= dosadíme do vzorce

P(Y_{10000}\leq 5000)= \sum_{x=0}^{5000} \ldots

Poissonovo rozdělení

Spojité

Rovnoměrné rozdělení

* R(a, b) -– hustota f_{X}(t) je konstantní na daném intervalu, jinde je 0

Exponenciální rozdělení

Normální rozdělení

Výpočet střední hodnoty, rozptylu a kovariance

Výpočet střední hodnoty

Výpočet rozptylu

Aby se dal rozptyl lépe spočítat, můžete využít alternativní vzorec: DX = E(X^{2}) - (EX)^{2}, kde E(X^{2}) znamená, že do vzorce pro střední hodnotu EX všude místo X dáme X^{2}, (EX)^{2} je jen vypočítaná střední hodnota na druhou.

Výpočet kovariance a korelačního koeficientu

Kovariance

Korelační koeficient

Příklad

Zadání: Nechť náhodné veličiny U,V mají diskrétní rozdělení určené následující tabulkou:
U\V 1 2 3
1 0,1 0,2 0,3
2 0,2 0,1 0,1

Najděte marginální rozdělení obou náhodných veličin, jejich střední hodnoty, rozptyly a korelační koeficient.

Řešení:
Nejprve si jen pro kontrolu můžete spočítat součet všech hodnot v tabulce, pokud je roven 1, je zadání spravné.
Do tabulky si přidáme marginální hodnoty – jsou to laicky řečeno projekce řádků a sloupců

U\V 1 2 3 P(U)
1 0,1 0,2 0,3 0,6
2 0,2 0,1 0,1 0,4
P(V) 0,3 0,3 0,4 1

Spočítáme si střední hodnoty E(V) a E(U) a hodnotu E(UV):

E(U) = 1 \cdot 0,6 + 2 \cdot 0,4 = 1,4

E(V) = 1 \cdot 0,3 + 2 \cdot 0,3 + 3 \cdot 0,4 = 2,1

E(UV) = 1 \cdot 1 \cdot 0,1 + 1 \cdot 2 \cdot 0,2 + 1 \cdot 3 \cdot 0,3 + 2 \cdot 1 \cdot 0,2 + 2 \cdot 2 \cdot 0,1 + 2 \cdot 3 \cdot 0,1 = 2,8
Spočítáme si rozptyl D(V) a D(U):

D(U) = E(U^{2}) - (E(U))^{2} = (1^{2} \cdot 0,6 + 2^{2} \cdot 0,4) - (1,4)^{2} = 0,24

D(V) = E(V^{2}) - (E(V))^{2} = (1^{2} \cdot 0,3 + 2^{2} \cdot 0,3 + 3^{2} \cdot 0,4) - (2,1)^{2} = 0,69
Spočítáme si kovarianci:

cov (U,V) = E(UV)- E(U) \cdot E(V) = 2,8 - 1,4 \cdot 2,1 = -0,14
Spočítáme si korelační koeficient:
\rho_{uv} = \frac{cov(U,V)}{\sqrt{D(U)D(V)}} = \frac{-0,14}{\sqrt{0,24\cdot 0,69}} = -0,344 (přibližně)

Důsledek: mezi veličinami U,V je spíše nepřímá lineární závislost. 5)

Zdroj

http://www.fi.muni.cz/~xhalic1/statnice/vypracovaneIM.doc http://www.math.muni.cz/~xpupik/dokumenty/pst-prednasky.pdf http://cs.wikipedia.org/wiki/Kovariance http://cs.wikipedia.org/wiki/Rozdělení_pravděpodobnosti http://cs.wikipedia.org/wiki/Pravděpodobnost

Informace trochu zorganizovala, opravila a doplnila Jitka Pospíšilová.

1) , 3)
převzato z http://cs.wikipedia.org/wiki/Pravděpodobnost
2)
příklad pochází z cvičení z předmětu MB104
5)
příklad převzat z domácích úkolů předmětu MB104