Statistika 1 (cvičení)
R
Domovská stránka projektu R:
www.r-project.org
RStudio: vývojové prostředí (interaktivní nápověda, možnost prohlížení dat, proměnných, balíků, ...); doporučuji naistalovat s R:
www.rstudio.com
Tahák s příkazy jazyka R používaný na cvičení:
poznamkyR.pdf
Další odkazy:
Ilustrace centrální limitní věty:
CLV_exp.R
Komentovaná ukázka použití základních příkazů pro explorační analýzu:
eda2.R
Datový soubor:
auto-mpg.data.txt.
Komentovaná ukázka použití základních příkazů pro explorační analýzu:
eda_biometrie.R
Datový soubor:
biometrie2.csv.
Komentovaná ukázka použití základních příkazů pro explorační analýzu:
aku_eda.R
Datový soubor:
aku.csv,
popis
Ukázka postupu pro analýzu rozptylu:
anova1.R
Zadání:
anova.pdf
Datový soubor:
algoritmy.txt
Semestrální projekt
Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické
analýze s využitím metod probíraných v rámci předmětu.
Data
Data lze využít vlastní (laboratorní měření, provozní data, ...), z internetu nebo z jakéhokoliv jiného zdroje.
Dbejte na to, aby data byla náhodným výběrem. Musí tedy jít o nezávislá pozorování, měření apod.
Počet dat není nijak omezen. Je však potřeba, aby data měla určitý minimální rozsah, zejména tehdy, pokud
to vyžadují předpoklady zvolené metody. Velmi obecně lze doporučit minimální rozsah okolo 30 dat. Vždy ale záleží na povaze dat a zvolené metodě.
Metody
Vždy nejprve proveďte explorační analýzu. Dále použijte alespoň 2 z následujících metod
statistické indukce: jednovýběrový test, dvouvýběrový test, intervalové odhady
test nezávislosti v kontingenční tabulce, ANOVA, lineární regrese. Je-li to možné,
měla by jednou z těchto metod být ANOVA, regrese, nebo test nezávislosti.
Nástroje
-
R - open source skriptovací jazyk, prostředí pro statisické výpočty, dostupný pro Win, Linux, Mac OS, domovská stránka:
www.r-project.org
Doporučení
- Doporučená osnova je následující:
- Úvod, představení dat: Krátce popište svá data, zdroj dat, lze uvést krátkou ukázku dat. Uveďte, jak v daném případě vypadá populace,
tj. množina objektů, o nichž lze dělat závěry na základě zpracování výběrového souboru.
-
Explorační analýza: Uveďte základní číselné charakteristiky datového soubru a využijte vhodné grafické způsoby prezentace dat. Zejména při volbě typů
grafů se řiďte hlavně vlastním rozumem (koláčový graf s 50 hodnotami nemá žádnou výpovědní hodnotu). Výstupy stručně okomentujte.
-
Statistická indukce: Při testování hypotéz nezapomeňte správně zformulovat hypotézy. Uveďte patřičné části výstupu stat. software. Stručně
interpretujte výsledky (o čem vypovídá zamítnutí nulové hypotézy apod.).
-
Závěr: Krátce shrňte získané výsledky.
-
Je-li to možné, najděte si data, která jsou pro Vás něčím zajímavá.
- Vyhněte se datům z internetových anket typu www.vyplnto.cz.
Získaná data jsou zpravidla jen diskrétní. Díky nevhodnému rozdělení tříd pro faktory budete mít většinou málo dat pro
analýzu nezávislosti. Bude prakticky nemožné určit populaci.
-
Buďte struční! Projekt nemá minimální požadovaný rozsah. Pokud nepoužíváte metody nebo nástroje, které nejsou náplní výuky, neuvádějte
definice nebo vysvětlení použitých pojmů a nástrojů.
-
Nezapomeňte stručně okomentovat získané výsledky.
Příklady k procvičení