SPECIÁLNÍ METODY ANALÝZY DAT

 

Pro studenty kombinované formy studia se nachází informace na následujících stránkách.

 

Tyto stránky jsou určeny pro podporu výuky předmětu Speciální metody analýzy dat na Hornicko-geologické fakultě Vysoké školy báňské-Technické university Ostrava.

 


Informace o předmětu

Rozsah předmětu: 2 hodiny přednášek a 2 hodiny cvičení týdně (1 hodinou se rozumí vyučovací hodina tedy 45 minut)

Garant předmětu, přednášející:  Doc., Ing. Radim Briš, CSc.

Cvičící: Ing. Martina Litschmannová, Ph.D.


Hodnocení předmětu

Cvičení:             (0-33) bodů

V průběhu cvičení jsou studenti průběžně hodnoceni a je možné získat až 33 bodů. Za úspěšné ukončení cvičení se pak uděluje zápočet, který student obdrží pokud odevzdá vyřešený semestrální projekt a získá minimálně 17 bodů.  Podrobnosti o hodnocení a semestrálních projektech jsou popsány níže (Průběh cvičení). 

Hodnocení - ZS 2012/2013

Zkouška:

Předmět je zakončen kombinovanou zkouškou. Ke zkoušce je připuštěn pouze ten student, který získal zápočet.


Průběh přednášek

Literatura:

[1] Litschmannová M., Vybrané kapitoly z pravděpodobnosti

[2] Litschmannová M., Úvod do statistiky

[3] Briš, Litschmannová: Statistika II pro kombinované studium, elektronická skripta, TU-VŠB, 2007

[4] Další studijní materiály připravené pro výuku tohoto předmětu ve formátu *.pdf

Kliknutím na odkaz získáte požadované materiály K prohlížení je nutné mít nainstalován Adobe Acrobat Reader. Pokud se z nějakého důvodu prezentace neotevře, klikněte pravým tlačítkem myši na odkaz a uložte si volbou Uložit cíl jako ... (Save Target as ...)

  1. Explorační analýza dat. Datové typy. Jednorozměrná popisná statistika (výběrové charakteristiky, grafický záznam), Vícerozměrná popisná statistika (výběrové charakteristiky, grafický záznam).
  2. Data. Opakování základních pojmů a poznatků z předmětu 541004/02 - Aplikovaná statistika. Náhodná veličina, náhodný vektor, náhodný výběr, statistický soubor, atd.
  3. Teorie odhadu I – použití dat pro odhad parametrů pravděpodobnostních modelů, bodové a intervalové odhady
  4. Teorie odhadu II - metody konstrukce bodového odhadu a vlastnosti, MLE, MM.
  5. Analýza statistického rozhodování z dat. Čistý test významnosti, základní filosofie testování hypotéz, konstrukce p-hodnoty pro jednostranné testy a dvoustranné testy.
  6. Vybrané parametrické a robustní testy (jednovýběrové a dvouvýběrové)
  7. Vícevýběrové testy homoskedasticity, jednofaktorová ANOVA. Analýza POST HOC, problémy s rozhodováním ve vícevýběrových testech.
  8. ANOVA s dvěma faktory. Třídění podle dvou faktorů bez opakování a s opakováním. Znáhodněné bloky.
  9. Analýza závislostí I. Korelační analýza. Analýza závislosti kategoriálních proměnných.
  10. Analýza závislostí II. Význam a softwarové užití vícerozměrné regresní analýzy. Regresní model, vyrovnávací křivka, nejjednodušší nelineární regrese, testování hypotéz o parametrech regresního modelu; pás spolehlivosti, problém multikolinearity. Zvládnutí problematiky pomocí software STATGRAPHICS.
  11. Stochastické procesy. Základní pojmy náhodných procesů. Explorační analýza.
  12. Rozklad náhodného procesu. Hledání trendu. Vyrovnávání časových řad.

Prosím, případné chyby a nedostatky zasílejte na následující e-mail, aby mohly být odstraněny.


Průběh cvičení

Obsahem cvičení bude zejména procvičování látky probrané na přednáškách na praktických příkladech. Při řešení příkladů se seznámíte s použitím statistického software Statgraphics. Náplň jednotlivých cvičení je shrnuta v následujících prezentacích.

  1. Statistické zjišťování a exploratorní analýza
  2. Náhodná veličina, Náhodný vektor
  3. Výběrové charakteristiky, Úvod do teorie odhadu
  4. Testování hypotéz - princip
  5. Jednovýběrové testy parametrických hypotéz, Dvouvýběrové testy parametrických hypotéz, Testy dobré shody 
  6. Vícevýběrové testy parametrických hypotéz
  7. Zápočtový test I.
  8. Dvoufaktorová ANOVA
  9. Analýza závislosti
  10. Úvod do korelační a regresní analýzy
  11. Vícenásobná lineární regrese - Multikolinearita
  12. Rozklad náhodného procesu, EDA pro časové řady - PowerPoint, Časové řady - MS Excel (obsahuje makra!)
  13. Zápočtový test II.
  14. Prezentace záměrů semestrálních projektů

30-ti denní licencovaná verze Statgraphicsu je k dispozici na webových stránkách StatGraphics Centurion Statistics Software, přesně zde.

Základy práce se Statgraphicsem jsou popsány například v:

V průběhu cvičení jsou studenti průběžně hodnoceni a je možné získat až 33 bodů. Za úspěšné ukončení cvičení se pak uděluje zápočet, který student obdrží pokud odevzdá vyřešený semestrální projekt a získá minimálně 17 bodů.  Podrobnosti o hodnocení a semestrálních projektech jsou popsány níže.

Datové soubory

V tomto odstavci jsou k dispozici datové soubory, které můžete používat v rámci cvičení.

Exploratorní analýza - Barvy.sf3, Vek.sf3, Pareto.xls,
Náhodný vektor - Zkouska.sf3, Teplota-Tlak.xls
Testování parametrických hypotéz - Coko.xls, Frekvence.sf3, Interval.sf3, IQ.sf3, ,  Koncetiny.sf3, Vyuka.sf3
Testování neparametrických hypotéz - Dalnice.sf3, K_S_test.sf3, Spokojenost.sf3
ANOVA - BAR.xls, Biometrie.sf3, Byty.sf3, Caj.sf3, Kosatce.sf3, Kosatce.xls, Kys_listova.sf3, Penicilin.sf3, Rozvody.sf3, Spotreba.sf3, Stavebnice.sf3VO_spotreba.sf3, Vydaje.sf3, Zkouska.sf3 
Dvoufaktorová ANOVA - SO2.xls, Spotřeba, Stroje - Operátoři, Vypal.xls
Jednoduchá lineární regrese - Anscomb_1973.sf3, Insulin.sf3, Monitory.sf3, Nezamestnani.sf3, Vybavenost.sf3
Vícenásobná lineární regrese -  Budovy.xls,  Cardata2.sf3, Felicia2.sf3, Mladici.xls, Povodi.xls
Časové řady - Cement.xls, NEZ_GYM_SR.xls, Obyv_SR.xls, Obyvatelstvo_1992_2007.xls, Znojmo.xls
Další - Hemoglobin.xls, Jetlag.xls, kremik.xls , MN.xlsx, mouka.xls , programator.xls , Reklama.xls , Sociologie.xls , Spotreba2.xlsx Supermarket.xls, TU.xls, , Vzdelani.xls,

Písemné testy

V průběhu cvičení se taktéž budou konat 2 písemné testy, za každý z nich je možno získat až 11 bodů. Obsah a termíny jednotlivých testů vám sdělí Váš cvičící.

Účast na písmenných testech je povinná a řádně neomluvená absence se hodnotí 0 body za písemný test!

1. zápočtový test


Semestrální projekt

Semestrální projekt je záznam datově-generačního procesu, v němž student (navrhovatel procesu) aplikuje získané teoretické poznatky pomocí dostupného softwarového vybavení  (Statgraphics, JMP-IN, Excel,...). V projektu student prokazuje schopnost správně demonstrovat a interpretovat datový záznam a schopnost provést v souladu s cílem projektu některé z metod statistické indukce.

 

Zadání

 

Zvolte si reálný výběrový soubor, který obsahuje alespoň

  • 30 statistických jednotek

  • 3 statistické proměnné

POZOR!!! Zpracovávány soubor musí být výběrovým souborem (vzorkem z nějaké populace). Pokud data nejsou náhodným výběrem, nelze je použít. Jednalo by se o tzv. vyčerpávající šetření, u něhož pozbývá smyslu celá statistická indukce.

Pro analýzu datového souboru použijte následující metody:

  • Explorační analýza (povinně)

a alespoň jednu z každé skupiny uvedených metod statistické indukce:

 

Součástí projektu je ověření všech předpokladů použitých metod statistické indukce.

Zdroj dat

 ·         internet, masová média (noviny, časopisy, ...), vlastní laboratorní měření , vlastní sociologický průzkum (anketa), apod.

Prezentace záměru projektu

Studenti budou prezentovat projekt v zápočtovém týdnu své cvičící. V rámci prezentace seznámí student cvičící s náplni projektu, volbou použitých metod a ve stručnosti okomentuje získané výsledky. Doba prezentace je stanovena na 10 minut, doporučený formát prezentace je *.ppt .

Zpráva k projektu

Zpráva k projektu by měla obsahovat konkrétní slovní komentáře k získaným číselným charakteristikám a grafům. Doporučeným formátem zprávy je *.pdf. Povinnou přílohou zprávy je zpracovávány datový soubor ve formátu *.xls, resp. *.xlsx.

Hodnocení projektu

Prezentace projektu (volba použitých metod + formální stránka) bude hodnocena (0-5) body, zpráva k projektu (volba použitých metod, adekvátnost slovních komentářů, formální stránka) bude hodnocena (0-6) body. Tzn., že projekt bude celkově hodnocen (0-11) body.

Ukázky semestrálních projektů

Nejčastější chyby a nedostatky

  • Není uveden zdroj dat.

  • Není uvedena použitá literatura a použitý software (včetně čísla verze).

  • Chybné nastavení fontu pro popis grafů. (Např. ve Statgraphicsu je nutno nastavit font Středoevropský.)

  • Místo konkrétních komentářů k vlastním datům jsou uváděny obecné teoretické komentáře (definice, vzorce, slovní popisy vzorců, vyjádření typu: "Střední hodnota je 30.","Šikmost je kladná.", ...).

  • Při testování hypotéz nejsou uvedeny nulová a alternativní hypotéza, chybí ověření předpokladů testu, závěr je uveden ve formě "zamítáme/nezamítáme nulovou hypotézu", přičemž chybí vztažení závěru na zpracovávána data.

Pro udělení zápočtu je nutné prezentovat semestrální projekt a odevzdat zprávu k projektu.

Nejzašší termín odevzdání semestrálního projektu je konec prvního týdne zkouškového období, t.j. 11. leden 2013.


Doporučená literatura

  • Briš, Litschmannová: Statistika I. pro kombinované studium, elektronická skripta, TU-VŠB Ostrava,2004

  • Briš, Litschmannová: Statistika II., elektronická skripta, TU-VŠB Ostrava,2007

  • Dummer: Introduction to statistical science, VŠB-TU Ostrava, Ostrava, 1998

  • Dummer, Klímková: Statistika I. (cvičení), VŠB-TU Ostrava, Ostrava, 1997

  • Šimonová: Průvodce Statgraphicsem

  • Jarušková Daniela: Pravděpodobnost a matematická statistika 11, ČVUT Praha, Praha, 1999

  • Likeš, Machek: Počet pravděpodobnosti, SNTL, Praha, 1981

  • Likeš, Machek: Matematická statistika, SNTL, Praha, 1983

  • Likeš, Laga: Základní statistické tabulky, Praha, 1978

  • Seger, Hindls, Hronová: Statistika v hospodářství, ETC Publishing, Praha, 1998

  • Šikulová, Karpíšek: Matematika IV. - Pravděpodobnost a matematická statistika, VUT Brno, Brno, 1990

  • Wonnacot, Wonnacot: Statistika pro hospodářství a obchod, Victoria Publishing, Praha, 1992


Další materiály


Odkazy

Na tomto místě budou zveřejňovány komentované odkazy s tématikou související s předmětem Statistika I.

České zdroje dat

Český statistický úřad - obsahuje nejnovější oficiální údaje za Českou republiku (v textové podobě)
Archiv sociologických dat - Sociologický ústav akademie věd nabízí mnohé datové soubory (i v angličtině). Některé je nutno objednat (jsou zdarma případně za cenu reprodukce)
Patria finance - skutečně aktuální ekonomické informace
Banka dat a modelů ekonomiky ČR - projekt na VŠE (ukončeno 2001, neaktualizováno)

Učebnice statistiky na internetu

Základní kurz statistiky - interaktivní učebnice statistiky vypracovaná v Německu. Jedna z jazykových mutací je v češtině.Textem lze listovat, málo grafiky. Lze spouštět interaktivní příklady ale dlouhoto trvá
IAstat - H.Řezanková, V.Vrabec, L.Marek - interaktivní učebnice na VŠE, javascripty, komentované odkazy, česky
Pravděpodobnost a statistika HYPERTEXTOVĚ - Michal Friesl, ZČU - hypertextově provázaná hesla
Pravděpodobnost a statistika - P. Otipka, V. Šmajstrla - učebnice VŠB (doporučuji k nahlédnutí)
 
Další  odkazy:
 
Česká statistická společnost
Statisticky sysel - spousta zajímavosti
Posbírané příklady - Michal Friesl - více než 300 příkladů ze statistiky (včetně řešení)
Matematika a fyzika - různé zajímavé prográmky zdarma ke stažení
Laboratorní průvodce - tabulky, vzorce, encyklopedie ...
Štatistika pre flákačov - studentský materiál - studentským jazykem podána statistika vyučována v rámci jednoho semestru na  VŠE (pozor, ne všechno je správně (například část týkající se distribuční funkce), ale rozhodně jde o zajímavý pohled na statistiku :-D)
 

 


Martina Litschmannová , 27 Září, 2012