Regresí se rozumí jednostranná závislost (nikoliv nutně náhodná) na jiné veličině nebo jiných veličinách. Při zkoumání regrese se pozornost zaměřuje na nalezení (střední kvadratické) regresní funkce, která vystihuje průběh této závislosti, a výpočet reziduálního rozptylu, který vystihuje těsnost této závislosti.
Blíže je pojem regrese popsán v kapitole "Lineární regrese se dvěma parametry".
Funkce se třemi parametry má základní tvar
resp.
přičemž oba tvary jsou formálně zcela ekvivalentní. První se používá ponejvíce pro vyjádření závislosti zkoumané veličiny y na dvou nezávisle působících veličinách x1 a x2, druhý spíše pro prostorovou veličinu z závislou na poloze v "základní" rovině [x,y]. Při odvozování vztahů pro výpočet odhadů parametrů a, b, c bude použito symboliky ze vztahu (2).
Mějme (např. tabulkou vyjádřené) hodnoty:
Bezprostředním cílem úlohy je nalézt hodnoty parametrů a, b, c tak, aby funkce (2) právě s těmito hodnotami parametrů [a,b,c] "nejlépe prokládala" zadané hodnoty [xi,yi,zi].
Situaci lze připodobnit obdobné dvojrozměrné úloze (analogií roviny v prostoru je zde přímka v rovině):
Obr. 7.17: K problematice lineární regrese
Je-li funkční hodnota vyjádřena vztahem f = f (x,y) [nebo v rovině f = f (x)], pak každá odchylka je vyjádřena výrazem
a protože f je dáno vztahem (2), je
Rovina pak "tím lépe" prokládá zadané hodnoty, čím menší jsou odchylky Di. Toto intuitivní vyjádření by bylo možno kvantifikovat požadavkem malého (nejlépe nejmenšího) součtu odchylek. Avšak odchylky samotné jsou kladné (bod "nad" rovinou) i záporné (bod "pod" rovinou). To vede k nepříjemné skutečnosti, že dva body s odchylkami 10 a -10 by se "přimykaly" k rovině lépe než jiné dva body s odchylkami 0.1 a -0.2.
Proto je hledána taková rovina, která má nejmenší ne prostý součet odchylek Di, ale součet jejich druhých mocnin (kvadrátů). Označíme-li tento součet S, je
Protože body [xi,yi,zi] jsou dány "napevno" pomocí (3), ovlivňují hodnotu S pouze koeficienty a, b, c. Jest tedy nalézti takové hodnoty těchto koeficientů, pro které je
Tuto podmínku - jak známo z úlohy o extrémech funkcí - splňují ty hodnoty a, b, c, pro něž (kromě jiných podmínek) má funkce S lichou derivaci nulovou. Hledáme tedy řešení a, b, c soustavy rovnic
Protože S (a,b,c) je dáno vztahem (6), protože derivace součtu (S) je součet derivací a protože derivace složené funkce (zde (...)2) je rovna "derivace vnější x derivace vnitřní", je pro (8a)
Má-li ale být výraz v posledním řádku roven nule, musí být ovšem i
což psáno jinak znamená
a protože v sumách přes i jsou a, b, c nezávislé na i, lze je "vytknout před závorku"; po změnách stran tak dostáváme konečně
Analogicky se získá z (8b) a (8c)
Protože součet 1 v poslední rovnici je roven počtu zadaných trojic [xi,yi,zi] (který označme n), lze přepsat tři poslední rovnice do maticového tvaru
Tři rovnice (9) o třech neznámých koeficientech a, b, c se nazývají soustava normálních rovnic. Jde o lineární soustavu rovnic, jejímž řešením se získají koeficienty "vyrovnávající" (regresní) funkce, proto se shora popsaný postup nazývá lineární regrese: nikoliv proto, že se vyrovnává lineární funkcí, ale že postup vede k lineární soustavě rovnic.
Pozn.: Soustava (9) byla odvozena pro vztah (2): z = z (x,y). Řešení pro vztah (1): y = y (x1, x2) má formálně stejný tvar jako (9) s tím, že nejprve místo x píšeme x1, pak místo y píšeme x2 a nakonec místo z píšeme y.
Myšlenka nastíněná v předchozí poznámce vede k velmi zajímavé metodě. Což kdyby se stejně formálně v (9) psalo místo x např. ex ? Soustava (9) by pak měla tvar
a byla by normálními rovnicemi ne pro funkční předpis
ale pro funkční předpis
Když se dále místo z bude formálně psát např. z2 a místo y bude např. ln y, pak rovnice (9) budou mít tvar
a příslušný funkční předpis bude
což zapsáno pro z je
Tato funkce - přestože je sama nelineární - vede k lineární soustavě normálních rovnic, správně tedy patří do oddílu Lineární regrese.
Naznačenou metodu popišme obecněji. Jak bylo možno sledovat, místo x, y, z se zapisovaly nějaké jiné hodnoty X, Y, Z takové, že
Takovou substitucí bylo dosaženo lineární soustavy normálních rovnic (9) v X, Y, Z. Jinak řečeno: jsme-li schopni k funkci
nalézt takové funkce j resp. y resp. s, že platí
tj.
pak při označení (10) po vyřešení soustavy
jsou nalezeny koeficienty a, b, c takové, že funkce (11) má právě s těmito koeficienty ze všech možných funkcí stejného tvaru nejmenší součet kvadrátů odchylek.
Závěrečný krok spočívá v rozšíření (10): na X nemusí být transformováno pouze x, ale jakákoliv funkční kombinace všech tří proměnných x, y, z. Rovnice (10) pak přechází na tvar
a upravený vztah (11) na tvar
přičemž zůstávají v platnosti všechna tvrzení předchozích odstavců, zvláště tvrzení o soustavě (12).