Úvod do statistiky

Doc. Dr. Vladimír Homola, Ph.D.

Statistika

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Zkoumaný jev E tedy musí příslušet určité části velkého množství prvků (předmětů, osob, událostí apod.), nebo musí být dána možnost opakovaně získat požadované informace o zkoumaném jevu za podmínek, za nichž jev může nastat. Statistika se pak zabývá zjišťováním, zpracováním, rozborem, hodnocením a výkladem údajů o jevu E shromažďovaných buď za účelem popisu rozsáhlých souborů, nebo k redukci rušivých odchylek způsobovaných jevy jinými než je jev E - ne zkoumanými nebo nezkoumatelnými - a mají tedy charakter náhodného činitele.

Popisná statistika

Popisná statistika (deskriptivní statistika) se zabývá popisem stavu nebo vývoje hromadných jevů. Nejprve se vymezí soubor prvků, na nichž se bude uvažovaný jev zkoumat. Následně se všechny prvky vyšetří z hlediska studovaného jevu. Výsledky šetření - kvalitativní i kvantitativní, vyjádřeny především číselným popisem - tvoří obraz studovaného hromadného jevu vzhledem k vyšetřovanému souboru. Popisná statistika (na rozdíl od matematické - viz dále) není založena na teorii pravděpodobnosti. Používá ukazatele obecně používané k popisu datového souboru: ukazatele polohy, ukazatele variability nebo ukazatele statistické závislosti. Ukazateli polohy jsou např. modus, medián nebo průměr, ukazateli variability jsou např. rozptyl, směrodatná odchylka, minimum, maximum, šikmost nebo špičatost, ukazateli statistické závislosti jsou např. koeficient korelace nebo kovariance.

Deskriptivní statistika poskytuje jednoduchou sumarizaci vzorků a učiněných pozorování. To může mít formu dat - ať už kvantitativních nebo kvalitativních, nebo formu grafickou. Zmíněné sumarizace mohou být samostatným cílem průzkumu zkoumaného jevu, nebo mohou být základním popisem dat v rámci nějaké rozsáhlejší statistické analýzy,

Statistický soubor

je množina všech prvků, které jsou předmětem daného statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří. Identifikační znaky tedy statistický soubor vymezují.

Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Je-li vlastnost měřitelná v nějakých jednotkách, jde o kvantitativní znak, jinak jde o kvalitativní znak.

Příklad: Statisticky zkoumáme, jaký účinek má boj proti znečišťování životního prostředí, specielně proti znečišťování povrchových toků rozpustnými anorganickými solemi (RAS), v regionu Ostrava - Karviná. Povrchové toky jsou znečišťovány především odpadními vodami vypouštěnými do nich znečišťovateli (zákon 58/1999 Sb.).

Identifikační znaky, vymezující statistický soubor, jsou tři. Hodnoty těchto znaků určujících, že prvek náleží souboru, lze vymezit následovně:

Statistickou jednotkou je tedy každá konkrétní výpusť do povrchového toku v regionu Ostrava - Karviná.

Příslušnými (zde především chemickými) metodami zjistíme množství znečištění vypouštěného průměrně každou každou statistickou jednotkou měsíčně. Sledovaným znakem je množství RAS (rozpustných anorganických solí) za měsíc. Protože jde o něco, co lze číselně změřit, je tento znak kvantitativním znakem. Z hodnoty tohoto znaku lze odvodit znak další: konkrétní výpusť je - není (nehodící se škrtněte) zdrojem znečištění. Tento znak (býti zdrojem znečištění) je znakem kvalitativním.

Bylo zjištěno, že:

 

Znečišťovatel Výpusť RAS [kg/měsíc]
Důl Odra A. Ostravice Přívoz 718
Ferona B. Ostravice Frýdlant 188
Biocel C. Ostravice Paskov 1344
Důl ČSM D. Olše Karviná 2445
Koksovna E. Odra Svinov 1877
Elektrárna F. Opava Třebovice 544

 

Výsledkem statistického šetření (viz poslední sloupec) je závěr, že boj za čistotu vodních toků je zřejmě zcela marný.

Poznámka 1: Kvalitativní znak “býti zdrojem znečištění” rozděluje statistický soubor na třídy, v tomto případě na dvě (obecně tolik, kolik je různých hodnot kvalitativního znaku). Třída “zdrojem znečištění je” má šest prvků, třída “zdrojem znečištění není” je prázdná. Rovněž kvantitativní znaky (např. množství znečištění) determinují rozklad statistického souboru na třídy; z praktického hlediska se však nepoužívá rozkladu na třídy daného celou množinou, z níž pochází hodnoty kvantitativního znaku (v tomto případě nekonečnou množinou nezáporných celých čísel), ale pouze její podmnožinou definované jako různé hodnoty sledovaného znaku (v tomto případě podmnožinou {718, 188, 1344, 2445, 1877, 544}).

Poznámka 2: Zde je předvedena častá situace, kdy se závěr zdá jednoznačný. Otázkou však je, jak přesně byl definován původní statistický záměr. Viz shora ... jaký účinek má ... : na takový vágní dotaz asi vždy bude první odpověď “žádný”, zvláště předloží-li se k tomuto závěru pečlivě vypracovaná tabulka (jako nahoře), divukrásné grafy apod. Zcela jinak by však vypadal závěr, pokud by zpracovatel předložil tabulku takto:

 

Znečišťovatel Výpusť RAS-2012 [kg/měsíc] RAS-2013 [kg/měsíc]
Důl Odra A. Ostravice Přívoz 3542 718
Ferona B. Ostravice Frýdlant 798 188
Biocel C. Ostravice Paskov 7455 1344
Důl ČSM D. Olše Karviná 6722 2445
Koksovna E. Odra Svinov 5318 1877
Elektrárna F. Opava Třebovice 1221 544

 

Na tomto příkladě je vidět, jakou důležitost má přesná formulace cílů statistického výzkumu a příprava podkladů pro jeho vyhodnocení.

Matematická statistika

Matematická statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Zatímco popisná statistika zkoumá soubory prvků přímo, matematická statistika zkoumá tyto soubory nepřímo prostřednictvím výběrů. Na získané údaje se pohlíží jako na výsledek určitého náhodného pokusu, který mohl dát i jiné výsledky. Tím se do zkoumání dostává určitý prvek náhodnosti, což má za následek, že všechny závěry matematické statistiky mají náhodný charakter. Matematická statistika je založena na počtu pravděpodobnosti a používá jeho pojmů.

Základní soubor je množina všech prvků uvažované množiny. Z hlediska matematické statistiky lze tedy na základní soubor pohlížet jako na množinu všech prvků, které mohou být vybrány při výběrovém šetření do statistického výběrového souboru. O tento základní soubor se zajímáme a celého tohoto základního souboru se mají týkat všechny úsudky, vytvořené na základě výběrového statistického souboru. Termín znak a jeho dělení se zavádí stejně jako shora u popisné statistiky.

V teoretických úvahách se velmi často nahrazuje původní základní soubor souborem hodnot sledovaného znaku na prvcích základního souboru. Při statistickém vyšetřování výsledků boje proti znečišťování toků jsou zajímavá a důležitá čísla vyjadřující množství znečištění, nikoliv to, že Nová Huť je větším znečišťovatelem než Ferona. Proto při zpracování netvoří základní soubor znečišťovatelé jako takoví, ale množství RAS - tedy hodnoty sledovaného znaku.

Základní pojmy matematické statistiky

Definice: Statistickým (rovněž výběrovým) souborem nazýváme libovolnou neprázdnou podmnožinu X základního souboru Z. Statistická jednotka je každý prvek x Î X.

Definice: Nechť V je nějaký znak, vlastnost, měřitelná nebo popsatelná charakteristika každé statistické jednotky daného statistického souboru. Toto V nazveme argumentem nebo také sledovaným znakem statistického souboru.

Důležitou vlastností argumentu je to, že pro každou statistickou jednotku nabývá jisté konkrétní hodnoty nějakého typu (typu z hlediska teorie datových struktur); typu jakéhokoliv, ale pro všechny statistické jednotky stejného! Z tohoto pohledu lze hovořit o typu argumentu. Jsou tedy argumenty typu barva (hodnotou je např. {modrá}), typu pohlaví (hodnotou je např. {žena}); zcela jednoznačně však ve statistice převládá typ číselný (také numerický), kterým lze charakterizovat většinu zkoumaných jevů. Číselné - numerické argumenty jsou klasifikovány dle běžných definic aritmetiky a algebry: celočíselné, racionální, reálné atd. a jsou na nich definovány totožné operace.

Poznámka: Pokud nedojde k omylu nebo pokud není výslovně řečeno jinak, pracuje se v matematické statistice s více konkretizovanou definicí statistického souboru; abstrahuje od (pro konkrétní statistické šetření) nepodstatných informací a naopak zahrnuje ty hodnoty, které budou podrobeny zkoumání.

Definice: Nechť je dán základní soubor Z, neprázdná množina {V1 , V2, .., Vn} jeho argumentů a podmnožina X Ě Z. Pro každý prvek x Î X tedy existuje uspořádaná n-tice [ v1x, v2x, ... , vnx ] hodnot argumentů prvku x. Statistickým (rovněž výběrovým) souborem nazýváme množinu S všech těchto uspořádaných n-tic:

S = { [ v1x, v2x, .., vnx ] | x Î X }.

Definice: Rozměrem statistického souboru rozumíme počet n argumentů z předchozí definice. Rozsahem statistického souboru rozumíme počet prvků x podmnožiny X, který je totožný s počtem prvků množiny S.

Příklad: Nechť je základním souborem stejně jako v příkladě odstavce "Popisná statistika" množina sledovaných výpustí (viz tabulku za Poznámkou 2). Dva z možných argumentů jsou: 1. vypouštěné množství loni, 2. vypouštěné množství teď. Jedna z podmnožin sledovaných výpustí je tvořena výpustěmi B, D, E.

Odpovídajícím statistickým souborem je množina tří dvojic

S = {[798.56; 188.67], [6722.38; 2445.76], [5318.57; 1877.49]}

Rozměr tohoto souboru je 2 a jeho rozsah je 3. Při větším rozsahu nebo rozměru statistického souboru je však zápis na předchozím řádku nepřehledný. Proto se převážně používá tabulkový tvar zápisu:

 

RAS-2012 [kg/měsíc] RAS-2013 [kg/měsíc]
798.56 188.67
6722.38 2445.76
5318.57 1877.49

 

 

Rev. 11 / 2014