Nejběžnější statistické charakteristiky

Statistickou charakteristikou nebo také jen statistikou je hodnota počítaná z výběrového souboru za účelem poznání, analýzy nebo popisu zkoumaného jevu. V dalším proto bude označovat X = {x1, x2, ... ,xn} n-prvkový jednorozměrný statistický (výběrový) soubor. Každá hodnota xi je tedy jedním pozorováním nějakého (jednoho) jevu.

Je-li dále X výběrový soubor o rozsahu n, označíme-li Fn* odpovídající empirickou distribuční funkci a g nějakou statistickou charakteristiku, pak g(Fn*) je charakteristikou výběrového souboru X a nazývá se výběrová charakteristika. Ve shodě s dříve zavedenými pojmy je g(Fn*) náhodnou veličinou. Má tedy smysl mluvit o jejím rozložení, distribuční funkci Fn*g a o jejích charakteristikách.

Nejčastější případ v praxi je ten, že {x1, x2, ... ,xn} je náhodný výběr z rozložení F. V této souvislosti se F nazývá teoretická distribuční funkce a odpovídající rozložení se nazývá teoretické rozložení. V odborné statistické literatuře bývá zvykem označovat výběrové charakteristiky písmeny latinské abecedy ekvivalentní těm písmenům řecké abecedy, kterými se označují teoretické charakteristiky. Tedy (teoretickému) rozptylu s2 odpovídá výběrový rozptyl s2 apod.

Četnost

Definice: Nechť T = {A1, A2, .. , Ak} je rozklad množiny X na třídy. Četností třídy Ai nebo také třídní četností je počet prvků množiny Ai.

Četností je tedy počet pozorování ve třídě Ai. Rozklad T množiny X na třídy determinuje ekvivalenci na množině X a naopak každá ekvivalence na množině X určuje rozklad T množiny X na třídy (viz množiny a relace). Nejčastějšími ekvivalencemi používanými ve statistice jsou

Příklad: V prvním případě je např. četnost prvku 7 v množině X číslo ve významu počtu výskytů pozorování s hodnotou 7 ve výběrovém souboru. Ve druhém případě je např. četnost v intervalu á3,4) počet pozorování, které nejsou menší než 3, ale jsou menší než 4.

Definice: Relativní četnost je četnost dělená počtem prvků množiny X (tedy celkovým počtem pozorování).

Je-li tedy četnost prvku 7 (počet pozorování s hodnotou 7) rovna 18 a počet všech pozorování roven 72, je relativní četnost prvku 7 rovna 0,25 (=18 : 72).

Výběrový průměr

Definice: Nechť  X = {x1, x2, ... ,xn} je nějaký jednorozměrný výběrový soubor rozsahu n. Výběrový průměr x' je střední hodnota empirické distribuční funkce příslušné tomuto výběru, tj.

x' = (ĺ xi) / n

kde se sčítá přes všechny prvky výběrového souboru X.

Výběrový průměr je číselně roven aritmetickému průměru. Aritmetický průměr je však reálné číslo, kdežto výběrový průměr je náhodnou veličinou. Jestliže X je náhodný výběr z jednorozměrného rozložení F, pak pro střední hodnotu výběrového průměru x' platí

E(x') = m

kde m je střední hodnota distribuční funkce F. Jestliže m existuje, pak výběrový průměr x' konverguje k číslu m pro n ® Ą skoro jistě.

Velmi důležité je následující tvrzení: Jestliže F je distribuční funkcí normálního rozložení N(m, s2), pak výběrový průměr x' má normální rozložení N(m, s2/n). Vzhledem ke střední hodnotě výběrového průměru je tedy výběrový průměr jedním z parametrů normálního rozdělení.

Rozptyl

Definice: Nechť  X = {x1, x2, ... ,xn} je nějaký jednorozměrný výběrový soubor rozsahu n. Výběrový rozptyl s2 je rozptyl empirické distribuční funkce příslušné tomuto výběru, tj.

s2 = ĺ (xi-x')2 / n

kde x' je shora definovaný výběrový průměr. Uvedený vztah lze psát také jako

s2 = ( ĺ xi2 - (ĺxi)2/n ) / n

přičemž tento druhý tvar je lépe využitelný při rutinních výpočtech (rozptyl se spočte jediným průchodem).

Jestliže X je náhodný výběr z jednorozměrného rozložení F, pak pro střední hodnotu výběrového rozptylu s2 platí

E(s2) = (n-1) . s2 / n

kde s je teoretický rozptyl distribuční funkce F.

Výběrový rozptyl s2 není nestranným odhadem rozptylu s2. Proto se někdy - zejména v aplikacích - považuje za výběrový rozptyl hodnota

v2 = ĺ (xi-x')2 / (n-1)

Z hlediska matematické statistiky však v2 není výběrovým rozptylem s2, ale nestranným odhadem rozptylu s2.

Velmi důležité je následující tvrzení: Jestliže F je distribuční funkcí normálního rozložení N(m, s2), pak x' a s2 jsou nezávislé, výběrový průměr x' má normální rozložení N(m, s2/n). Vzhledem ke střední hodnotě výběrového rozptylu je tedy výběrový rozptyl (až na koeficient n/(n-1)) druhým z parametrů normálního rozdělení.

Parametrické a neparametrické statistiky

Výše uvedený výběrový průměr a výběrový rozptyl jsou statistiky, které - předpokládaje X za výběr z jednorozměrného rozložení F, které je distribuční funkcí normálního rozložení  - jsou parametry normálního rozložení. Proto se statistiky a metody, založené na průměru a rozptylu, nazývají parametrické statistiky. Závěry činěné na základě těchto charakteristik jsou tedy relevantní, jestliže je ověřeno, že výběr X je skutečně výběrem z normálního rozložení.

Statistiky a metody, uvedené dále, nepředpokládají (normální) rozdělení, nejsou parametry žádného rozdělení, a proto se nazývají neparametrické statistiky a metody.

Kvantily

Kvantil je jednou z tzv. charakteristik polohy, tj. funkcí mající vystihnout polohu na přímce (v případě jednorozměrného statistického souboru). Pro charakteristiky polohy platí, že při transformaci dat se stejným předpisem transformuje i charakteristika polohy. Kvantil jako takový je vždy spojen s konkrétní hodnotou pravděpodobnosti a Î <0,1>. Je tedy udáván vždy ne kvantil, ale a-kvantil.

Definice: Nechť  X = {x1, x2, ... ,xn} je nějaký jednorozměrný výběrový soubor rozsahu n, P jeho (diskrétní) zákon rozdělení. Pak a-kvantil xa je hodnota, pro kterou platí

P { xi < xa } = a

a-kvantil X je tedy taková hodnota, že s pravděpodobností a je libovolný prvek xi menší než a-kvantil. 0-kvantil (nula-kvantil) je minimální prvek X, protože pravděpodobnost, že nějaký prvek xi je menší než nejmenší prvek X, je nula. Naopak 1-kvantil je maximální prvek X.

V běžném životě bývá zvykem se o pravděpodobnosti vyjadřovat v procentech - tedy čísly z intervalu <0,100> místo intervalu <0,1>. Místo a-kvantil se tedy používá označení a%-kvantil, kde a% = 100 . a - je pak možno hořejší vztah zapsat takto:

P { xi < xa } = a% / 100

nebo symbolicky i takto:

P { xi < xa% } = a%

Medián

Medián je někdy nazýván 50% závorou. Je definován takto:

Definice: Nechť X = {x1, x2, ... ,xn} je nějaký jednorozměrný výběrový soubor rozsahu n, P jeho (diskrétní) zákon rozdělení. Medián xm je hodnota, pro kterou platí

P { xi < xm } = 0,5

Medián X je tedy taková hodnota, že s pravděpodobností 1:2 (což platí "o polovině prvků X") je libovolný prvek xi menší než medián. Vzhledem ke shora zavedenému a%-kvantilu je medián 50%-kvantil.

Dolní a horní kvartil

Dolní kvartil je někdy nazýván 25% závorou. Horní kvartil je někdy nazýván 75% závorou. Jsou definovány takto:

Definice: Nechť X = {x1, x2, ... ,xn} je nějaký jednorozměrný výběrový soubor rozsahu n, P jeho (diskrétní) zákon rozdělení. Dolní kvartil xD je hodnota, pro kterou platí

P { xi < xD } = 0,25

Horní kvartil xH je hodnota, pro kterou platí

P { xi < xH } = 0,75

Zatímco tedy medián soubor X "půlí", kvartily ho navíc "čtvrtí". Vzhledem ke shora zavedenému a%-kvantilu je dolní kvartil 25%-kvantil a horní kvartil je 75%-kvantil.