# exploracni analyza # nacte data ze souboru do dataframe 'data', soubor neobsahuje hlavicku data=read.table('auto-mpg.data.txt', header=FALSE) # pojmenuje datove sloupce names(data)<-c('mpg', 'cylinders', 'disp', 'horsepower', 'weight', 'accel', 'year', 'origin', 'name' ) names(data) # zobrazi nazvy datovych sloupcu attach(data) # "pripoji data" (data jsou pristupna pomoci nazvu sloupcu) nrow(data) # pocet radku v dataframe data summary(horsepower) # souhrna charakteristika veliciny horsepower boxplot(horsepower) # totez graficky # vyberovy prumer a sm. odchylka horsepower mean(horsepower) sd(horsepower) # datove radky, ve kterych je horsepower vzdalen o vice nez 3 sm. odchyky od prumeru # (pouze smerem nahoru) # muze jit o odlehla pozorovani data[which(horsepower>(mean(horsepower)+3*sd(horsepower))),] boxplot(horsepower~cylinders) # krabicovy graf (zavislost horsepower na cylinders) plot(mpg, horsepower) # bodovy graf zavislosti mpg (miles per galon) na horsepower plot(mpg**-1, horsepower) # bodovy graf zavislosti "galon per miles" na horsepower # stejny graf vcetne nazvu, popisku os a nastaveni rozsahu os # graf ulozi do souboru png png('spotreba_vykon.png') plot(mpg**-1, horsepower, main="Zavislost vykonu na spotrebe", xlab="spotreba (galon/mile)", ylab="vykon(hp)", xlim=c(0, 0.15), ylim=c(0, 250)) dev.off() # timto prikazem se ukonci vykreslovani do souboru a soubor se ulozi tc=table(cylinders) # vytvori tabulku cetnosti pro jednotlive hodnoty veliciny cylinders tc # vypise tabulku barplot(tc) # vykresli tabulku cetnosti pomoci sloupcoveho grafu pie(tc) # vykresli tabulku cetnosti pomoci kolacoveho grafu # vytvori dvourozmernou tabulku vyskytu kombinaci (origin, cylinders) toc=table(origin, cylinders) toc # vypise tabulku plot(toc) # vykresli tabulku pomoci mozaikoveho grafu boxplot(horsepower~origin) # zavislost horsepower na origin pomoci krabicoveho grafu # vyberovy prumer horsepower pro jednotlive hodnoty origin tapply(horsepower, origin, mean)