Základní pojmy matematické statistiky

V každodenní praxi se environmentální inženýr setkává s řadou jevů, které hodnotí z hlediska příčin vzniku a dopadu na jevy jiné. Dělá to pomocí dat popisujících každý jev především právě teď v tomto místě, ale také z dat, které popisovaly jev jednak dříve, jednak na jiných místech. Evidentně aktuální stav nějakého jevu v aktuálním okamžiku - a environmentálního jevu zvlášť - je podmíněn řadou jiných jevů, které jsou se sledovaným jevem v interakci.

Řada jevů v přírodních vědách je relativně dobře prozkoumatelná a předvídatelná. Např. délková roztažnost kovové tyče je popsána materiálem a teplotou. Z několika známých stavů tohoto jevu lze jev popsat zcela přesně. U environmentálních jevů je však situace zcela odlišná. U nich totiž často nelze ani vyjmenovat jevy, které na sledovaný jev působí, natož je kvantifikovat.

Přesto je zapotřebí jevy zkoumat a předvídat, a to na základě údajů, které jsou o jevu k disposici. V této souvislosti se environmentální inženýr pokouší odpovědět na tyto okruhy otázek:

Proto se na takové jevy pohlíží jako na jevy náhodné, stochastické, a statistika je pak vědou o zjišťování, zpracování a analýze numerických údajů tyto jevy popisující. Matematická statistika vypracovává metody založené na předpokladu, že zjištěná data jsou výsledkem interakce náhodných veličin. Metody pak vedou k bližšímu určení některých neznámých parametrů v zákonech rozdělení pravděpodobnosti zkoumaných jevů.

Pozorováním se zpravidla rozumí bezprostředně zjišťovaná, měřená nebo pozorovaná hodnota. V konkrétní situaci to jsou číselné údaje x1, x2, ... , xn. Environmentální inženýr však směřuje k teoretickým úvahám o jevu; proto tato pozorování povyšuje na hodnoty náhodných veličin x1, x2, ... , xn. Veličiny mohou nabývat různých hodnot podle svého zákona rozdělení pravděpodobnosti.

Všechny možné stavy zkoumaného jevu není možno bezprostředně pozorovat. Ale právě množina všech možných stavů zkoumaného jevu je ta množina, k jejímuž popisu výzkum směřuje. Tuto množinu statistika označuje jako základní soubor Z.

Definice: Statistickým (rovněž výběrovým) souborem nazýváme libovolnou neprázdnou podmnožinu X základního souboru Z. Statistická jednotka je každý prvek x Î X.

Základní soubor Z je tedy množina hodnot, z nichž každá může být potenciálně vybrána do statistického zkoumání, může tedy potenciálně být statistickou jednotkou.

Definice: Nechť V je nějaký znak, vlastnost, měřitelná nebo popsatelná charakteristika každé statistické jednotky daného statistického souboru. Toto V nazveme argumentem nebo také sledovaným znakem statistického souboru.

Důležitou vlastností argumentu je to, že pro každou statistickou jednotku nabývá jisté konkrétní hodnoty nějakého typu (typu z hlediska teorie datových struktur); typu jakéhokoliv, ale pro všechny statistické jednotky stejného. Z tohoto pohledu lze hovořit o typu argumentu. Jsou tedy argumenty typu barva (hodnotou je např. {modrá}), typu pohlaví (hodnotou je např. {žena}); zcela jednoznačně však ve statistice převládá typ číselný (také numerický), kterým lze charakterizovat většinu zkoumaných jevů. Číselné - numerické argumenty jsou klasifikovány dle běžných definic aritmetiky a algebry: celočíselné, racionální, reálné atd. a jsou na nich definovány totožné operace.

Poznámka: Pokud nedojde k omylu nebo pokud není výslovně řečeno jinak, pracuje se v matematické statistice s více konkretizovanou definicí statistického souboru; abstrahuje od (pro konkrétní statistické šetření) nepodstatných informací a naopak zahrnuje ty hodnoty, které budou podrobeny zkoumání.

Definice: Nechť je dán základní soubor Z, neprázdná množina {V1 , V2, .., Vn} jeho argumentů a podmnožina X Ě Z. Pro každý prvek x Î X tedy existuje uspořádaná n-tice [ v1x, v2x, ... , vnx ] hodnot argumentů prvku x. Statistickým (rovněž výběrovým) souborem nazýváme množinu S všech těchto uspořádaných n-tic:

S = { [ v1x, v2x, .., vnx ] | x Î X }.

Definice: Rozměrem statistického souboru rozumíme počet n argumentů z předchozí definice. Rozsahem statistického souboru rozumíme počet prvků x podmnožiny X, který je totožný s počtem prvků množiny S.

Příklad: Nechť je základním souborem stejně jako v příkladě odstavce "Popisná statistika" množina sledovaných výpustí (viz tabulku za Poznámkou 2). Dva z možných argumentů jsou: 1. vypouštěné množství v roce 1998, 2. vypouštěné množství v roce 1999. Jedna z podmnožin sledovaných výpustí je tvořena výpustěmi B, D, E.

Odpovídajícím statistickým (také výběrovým) souborem je množina tří dvojic

S = {[798.56; 188.67], [6722.38; 2445.76], [5318.57; 1877.49]}

Rozměr tohoto souboru je 2 a jeho rozsah je 3.

Při větším rozsahu nebo rozměru statistického souboru je však zápis obdobný zápisu v příkladu nepřehledný. Proto se převážně používá tabulkový tvar zápisu:

 

RAS-1998 [kg/měsíc] RAS-1999 [kg/měsíc]
798.56 188.67
6722.38 2445.76
5318.57 1877.49

Tab. 4.1: Tabulkový tvar zápisu dat statistického souboru

Definice: Statistika nebo také charakteristika nebo také statistická charakteristika je hodnota počítaná z výběrového souboru za účelem poznání, analýzy nebo popisu zkoumaného jevu.

Definice: Každá statistika je nějakou funkcí f = f (x1, x2, ... , xn) pozorování x1, x2, ... , xn. Statistiky počítané k přibližnému určení parametrů funkce f se nazývají odhady.

Parametry funkce f jsou přitom neznámé konstanty charakterizující příčiny nebo podmínky vzniku právě takových hodnot pozorovaných dat daného jevu. V pracovním předpokladu o chování jevu vystupují jako neznámé konstanty ve funkcích hustoty pravděpodobnosti a právě bližší určení těchto parametrů je cílem statistického zkoumání.