V každodenní praxi se environmentální inženýr setkává s řadou jevů, které hodnotí z hlediska příčin vzniku a dopadu na jevy jiné. Dělá to pomocí dat popisujících každý jev především právě teď v tomto místě, ale také z dat, které popisovaly jev jednak dříve, jednak na jiných místech. Evidentně aktuální stav nějakého jevu v aktuálním okamžiku - a environmentálního jevu zvlášť - je podmíněn řadou jiných jevů, které jsou se sledovaným jevem v interakci.
Řada jevů v přírodních vědách je relativně dobře prozkoumatelná a předvídatelná. Např. délková roztažnost kovové tyče je popsána materiálem a teplotou. Z několika známých stavů tohoto jevu lze jev popsat zcela přesně. U environmentálních jevů je však situace zcela odlišná. U nich totiž často nelze ani vyjmenovat jevy, které na sledovaný jev působí, natož je kvantifikovat.
Přesto je zapotřebí jevy zkoumat a předvídat, a to na základě údajů, které jsou o jevu k disposici. V této souvislosti se environmentální inženýr pokouší odpovědět na tyto okruhy otázek:
Jakým způsobem lze nejpřesněji jev popsat a jak organizovat sběr dat o jevu, aby popis jevu byl co nejpřesnější?
Pohlížíme-li na data. která jsou k disposici, jako na data zatížená chybami nebo rušivými odchylkami, jaký je tedy základní datový soubor těmito chybami a odchylkami nezatížený?
Jaká byla hodnota jevu v tom minulém časovém okamžiku, o němž nejsou k disposici data?
Jaká je hodnota jevu v místě, v němž data o jevu nejsou k disposici?
Proto se na takové jevy pohlíží jako na jevy náhodné, stochastické, a statistika je pak vědou o zjišťování, zpracování a analýze numerických údajů tyto jevy popisující. Matematická statistika vypracovává metody založené na předpokladu, že zjištěná data jsou výsledkem interakce náhodných veličin. Metody pak vedou k bližšímu určení některých neznámých parametrů v zákonech rozdělení pravděpodobnosti zkoumaných jevů.
Pozorováním se zpravidla rozumí bezprostředně zjišťovaná, měřená nebo pozorovaná hodnota. V konkrétní situaci to jsou číselné údaje x1, x2, ... , xn. Environmentální inženýr však směřuje k teoretickým úvahám o jevu; proto tato pozorování povyšuje na hodnoty náhodných veličin x1, x2, ... , xn. Veličiny mohou nabývat různých hodnot podle svého zákona rozdělení pravděpodobnosti.
Všechny možné stavy zkoumaného jevu není možno bezprostředně pozorovat. Ale právě množina všech možných stavů zkoumaného jevu je ta množina, k jejímuž popisu výzkum směřuje. Tuto množinu statistika označuje jako základní soubor Z.
Definice: Statistickým (rovněž výběrovým) souborem nazýváme libovolnou neprázdnou podmnožinu X základního souboru Z. Statistická jednotka je každý prvek x Î X.
Základní soubor Z je tedy množina hodnot, z nichž každá může být potenciálně vybrána do statistického zkoumání, může tedy potenciálně být statistickou jednotkou.
Definice: Nechť V je nějaký znak, vlastnost, měřitelná nebo popsatelná charakteristika každé statistické jednotky daného statistického souboru. Toto V nazveme argumentem nebo také sledovaným znakem statistického souboru.
Důležitou vlastností argumentu je to, že pro každou statistickou jednotku nabývá jisté konkrétní hodnoty nějakého typu (typu z hlediska teorie datových struktur); typu jakéhokoliv, ale pro všechny statistické jednotky stejného. Z tohoto pohledu lze hovořit o typu argumentu. Jsou tedy argumenty typu barva (hodnotou je např. {modrá}), typu pohlaví (hodnotou je např. {žena}); zcela jednoznačně však ve statistice převládá typ číselný (také numerický), kterým lze charakterizovat většinu zkoumaných jevů. Číselné - numerické argumenty jsou klasifikovány dle běžných definic aritmetiky a algebry: celočíselné, racionální, reálné atd. a jsou na nich definovány totožné operace.
Poznámka: Pokud nedojde k omylu nebo pokud není výslovně řečeno jinak, pracuje se v matematické statistice s více konkretizovanou definicí statistického souboru; abstrahuje od (pro konkrétní statistické šetření) nepodstatných informací a naopak zahrnuje ty hodnoty, které budou podrobeny zkoumání.
Definice: Nechť je dán základní soubor Z, neprázdná množina {V1 , V2, .., Vn} jeho argumentů a podmnožina X Ě Z. Pro každý prvek x Î X tedy existuje uspořádaná n-tice [ v1x, v2x, ... , vnx ] hodnot argumentů prvku x. Statistickým (rovněž výběrovým) souborem nazýváme množinu S všech těchto uspořádaných n-tic:
S = { [ v1x, v2x, .., vnx ] | x Î X }.
Definice: Rozměrem statistického souboru rozumíme počet n argumentů z předchozí definice. Rozsahem statistického souboru rozumíme počet prvků x podmnožiny X, který je totožný s počtem prvků množiny S.
Příklad: Nechť je základním souborem stejně jako v příkladě odstavce "Popisná statistika" množina sledovaných výpustí (viz tabulku za Poznámkou 2). Dva z možných argumentů jsou: 1. vypouštěné množství v roce 1998, 2. vypouštěné množství v roce 1999. Jedna z podmnožin sledovaných výpustí je tvořena výpustěmi B, D, E.
Odpovídajícím statistickým (také výběrovým) souborem je množina tří dvojic
S = {[798.56; 188.67], [6722.38; 2445.76], [5318.57; 1877.49]}
Rozměr tohoto souboru je 2 a jeho rozsah je 3.
Při větším rozsahu nebo rozměru statistického souboru je však zápis obdobný zápisu v příkladu nepřehledný. Proto se převážně používá tabulkový tvar zápisu:
RAS-1998 [kg/měsíc] | RAS-1999 [kg/měsíc] |
798.56 | 188.67 |
6722.38 | 2445.76 |
5318.57 | 1877.49 |
Tab. 4.1: Tabulkový tvar zápisu dat statistického souboru
Definice: Statistika nebo také charakteristika nebo také statistická charakteristika je hodnota počítaná z výběrového souboru za účelem poznání, analýzy nebo popisu zkoumaného jevu.
Definice: Každá statistika je nějakou funkcí f = f (x1, x2, ... , xn) pozorování x1, x2, ... , xn. Statistiky počítané k přibližnému určení parametrů funkce f se nazývají odhady.
Parametry funkce f jsou přitom neznámé konstanty charakterizující příčiny nebo podmínky vzniku právě takových hodnot pozorovaných dat daného jevu. V pracovním předpokladu o chování jevu vystupují jako neznámé konstanty ve funkcích hustoty pravděpodobnosti a právě bližší určení těchto parametrů je cílem statistického zkoumání.