Regresja (statystyka) - Google

Regresja (statystyka)

Z Wikipedii

(Przekierowano z Regresja wieloraka)
Skocz do: nawigacji, szukaj

Regresja to w statystyce metoda, pozwalająca na zbadanie związku pomiędzy różnymi wielkościami występującymi w danych i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znanych wartości innych.

Z matematycznego punktu widzenia, regresją nazywamy dowolną metodę statystyczną pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą[1], dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających[1]).

Użycie regresji w praktyce sprowadza się do dwóch faz:

  • konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji, opisujÄ…cej jak zależy wartość oczekiwana zmiennej objaÅ›nianej od zmiennych objaÅ›niajÄ…cych. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także caÅ‚ym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp.. Model konstruuje siÄ™ tak, aby jak najlepiej pasowaÅ‚ do danych z próby, zawierajÄ…cej zarówno zmienne objaÅ›niajÄ…ce, jak i objaÅ›niane (tzw. zbiór uczÄ…cy). MówiÄ…c o wyliczaniu regresji ma siÄ™ na myÅ›li tÄ™ fazÄ™.
  • stosowanie modelu (scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaÅ›niajÄ…ce, w celu wyznaczenia wartoÅ›ci oczekiwanej zmiennej objaÅ›nianej.

Dział statystyki zajmujący się modelami i metodami regresji zwany jest analizą regresji. Regresja w której występuje więcej niż jedna zmienna objaśniająca zwana jest regresją wieloraką (ang. multiple regression).

Spis treści

[edytuj] Globalne modele parametryczne

W modelach parametrycznych ogólna postać modelu jest założona z góry, a celem procedury regresji jest tylko takie dobranie wartości występujących w nim parametrów, aby powstała funkcja możliwie dobrze odpowiadała próbie uczącej.

Zwykle stosuje się tzw. globalne modele parametryczne, gdzie wartości współczynników są takie same dla dowolnych wartości zmiennych objaśniających.

[edytuj] Ogólna postać modelu

W zapisie formalnym model przybiera zwykle postać:

Y = f(X, \beta) + \varepsilon

gdzie:

X – wektor zmiennych objaśniających (predyktorów),
Y – zmienna objaśniana,
β - wektor współczynników regresji (zwykle będących liczbami rzeczywistymi)
f(X,β) – funkcja regresji o wartościach w liczbach rzeczywistych,
\varepsilon – błąd losowy, o rozkładzie być może zależnym od X, przy czym \mathbb E(\varepsilon|X) = 0 oraz \sup_X \operatorname{Var}(\varepsilon_X | X) < \infty. Dzięki temu
\mathbb EY = f(X, \beta)

Niekiedy wprowadza się do modelu także błąd zmiennych objaśniających. Wzór zwykle przybiera wówczas formę:

Y = f(X+\varepsilon_X, \beta) + \varepsilon\

[edytuj] Miara błędu

Celem konstrukcji modelu jest przybliżenie nieznanej funkcji f\ przez jej estymator \widehat{f}. Sprowadza się to do takiego wyznaczenia wektora współczynników β, aby zminimalizować w zbiorze uczącym funkcję straty

L(\widehat{f},f)=\frac{1}{n}\sum_{i=1}^n \Delta(\widehat{f}(x_i),f(x_i))

gdzie \Delta(a,b)\ jest ustaloną miarą odległości[2] między wartościami a i b (tzw. miara błędu).

Wybór miary \Delta(a,b)\ bardzo wpływa na algorytm i wyniki regresji. Zwykle jako miarę błędów stosuje się sumę kwadratów różnic (błędów regresji):

\Delta(a,b)=(a-b)^2\

gdyż wówczas obliczenia są najprostsze - dopasowanie modelu sprowadza się do zastosowania prostej matematycznie metody najmniejszych kwadratów. Ma to jednak swoją wadę - kwadrat błędów dużo silniej zależy od obserwacji dla których błąd jest największy niż od tych, do których model dobrze się dopasował[3]. Metoda najmniejszych kwadratów daje więc niedokładne lub wręcz zafałszowane wyniki, jeśli w zbiorze uczącym występują obserwacje zbyt dalekie od średniej, tzw. elementy odstające (np. pomyłki przy wprowadzaniu danych). W związku z tym stosowane są także inne miary błędów, bardziej odporne, takie jak np. wartość bezwzględna różnicy.

[edytuj] Najpopularniejsze modele parametryczne

[edytuj] Regresja liniowa

Zobacz więcej w osobnym artykule: regresja liniowa.

Model regresji liniowej ma postać

Y=\beta_0+x_1\beta_1+x_2\beta_2+\dots +x_n\beta_n+\varepsilon

Wówczas algorytmem obliczania współczynników modelu jest metoda najmniejszych kwadratów (w przypadku wariancji jako miary błędu) albo np. metoda największej wiarygodności dla innych miar.

[edytuj] Regresja nieliniowa

Regresja, w której postać modelu dopuszcza nieliniową zależność pomiędzy zmiennymi objaśniającymi a zmienną objaśnianą.

Stosowane są różne modele, budowane na potrzeby konkretnego przypadku. Dla jednej zmiennej objaśniającej Z może to być na przykład:

Y=\beta_0+Z\beta_1+Z^2\beta_2+Z^3\beta_3+\varepsilon

Jak łatwo zauważyć model ten daje się sprowadzić do regresji liniowej przez utworzenie sztucznych zmiennych objaśniających X1 = Z, X2 = Z2, X3 = Z3. Regresja liniowa dopasuje wówczas do danych wielomian trzeciego stopnia zamiast prostej. Można stosować także inne funkcje sprowadzające model do postaci liniowej, np. logarytm.

[edytuj] Modele z interakcjami

Model regresji liniowej można również rozszerzyć w inny sposób, wprowadzając do niego jako sztucznie stworzone predyktory np. iloczyny dwóch lub większej liczby zmiennych objaśniających. Pozwala to na uwzględnienie tzw. interakcji pomiędzy zmiennymi, czyli zmiany siły wpływu jednej ze zmiennych przy różnych wartościach innej zmiennej.

[edytuj] Uogólnione modele liniowe (GLM)

W modelach tych przyjmuje się następujące założenia:

  • Zmienne objaÅ›niajÄ…ce wpÅ‚ywajÄ… na zmiennÄ… objaÅ›nianÄ… tylko przez tzw. skÅ‚adnik systematyczny
    η = XTβ
gdzie XT oznacza transpozycjÄ™ wektora X
  • RozkÅ‚ad prawdopodobieÅ„stwa zmiennej objaÅ›niajÄ…cej jest okreÅ›lony przez tzw. skÅ‚adnik losowy modelu:
    Y \sim N(\mu, \sigma^2), \mathbb EY = \mu
  • Wartość oczekiwana μ skÅ‚adnika losowego zależy od skÅ‚adnika systematycznego w sposób okreÅ›lony przez tzw. funkcjÄ™ wiążącÄ… l:
    η = l(μ)

W zależności od wyboru funkcji wiążącej otrzymuje się różne modele.

Nieznane parametry β są zwykle estymowane za pomocą metod największej wiarygodności, quasi-największej wiarygodności, lub metod bayesowskich.

[edytuj] Regresja logistyczna

Zobacz więcej w osobnym artykule: Regresja logistyczna.

Szczególny przypadek GLM, stosowany, gdy zmienna objaśniana Y przyjmuje tylko dwie wartości (zwykle oznaczane 0 i 1), np. mówi, czy prognozowane zdarzenie będzie miało miejsce. Funkcją wiążącą jest w tym przypadku logit.

[edytuj] Regresja nieparametryczna

Alternatywną koncepcją jest regresja nieparametryczna. Metody regresji nieparametrycznej nie zakładają, że estymowana funkcja f jest znana z dokładnością do skończenie wielu estymowalnych parametrów. Tym samym są często bardziej elastyczne w poszukiwaniu rozwiązań. Z drugiej strony w regresji parametrycznej o wiele prostszy jest matematyczny opis modelu, co pozwala na przykład na łatwe wyznaczanie przedziałów ufności prognozowanej wartości. W regresji nieparametrycznej bywa to trudniejsze.

[edytuj] Krokowa konstrukcja modelu regresji

Metody regresji krokowej (ang. stepwise regression) są sposobem na wybranie zmiennych objaśniających do modelu.

[edytuj] Regresja krokowa postępująca

W tej wersji zmienne sÄ… kolejno dodawane do modelu.

Przykładowo może ona polegać w pierwszym kroku na wyborze do modelu tej zmiennej objaśniającej, która jest najsilniej skorelowana ze zmienną objaśnianą i wyznacza model o istotnych parametrach. W drugim kroku wybierana jest kolejna zmienna objaśniająca, której wartości są najsilniej skorelowane z resztami kroku pierwszego, a rozszerzony model charakteryzuje się istotnością wszystkich parametrów. Oprócz istotności parametrów bada się również istotność współczynnika determinacji. Procedura podlega zakończeniu, gdy zabraknie zmiennych objaśniających lub dołączenie nowej zmiennej do równania prowadzi do utraty waloru istotności przez parametry lub współczynnik determinacji.

[edytuj] Regresja krokowa wsteczna

Polega w pierwszym kroku na skonstruowaniu modelu zawierającego wszystkie potencjalne zmienne objaśniające, a następnie na stopniowym eliminowaniu zmiennych tak, aby utrzymać model z najwyższa wartością współczynnika determinacji przy zachowaniu istotności parametrów.

Istnieją też metody mieszane, w których algorytm zarówno dodaje, jak i usuwa zmienne w kolejnych krokach.

[edytuj] Bibliografia

  • Jacek Koronacki, Jan Ćwik: Statystyczne systemy uczÄ…ce siÄ™. Warszawa: Wydawnictwa Naukowo-Techniczne, 2005. ISBN 83-204-3157-3. 

Przypisy

  1. ↑ 1,0 1,1 Zmienne objaśniające są też nazywane zmiennymi niezależnymi, a zmienna objaśniana zmienną zależną. Jest to o tyle mylące, że zmienne objaśniające wcale nie muszą być niezależne od siebie, a cała procedura regresji ma na celu wykrycie zależności między nimi i zmienną objaśnianą.
  2. ↑ To nie jest metryka - miara nie musi być symetryczna i może zachodzić \Delta(a,b)\ne \Delta(b,a)
  3. ↑ Podobna sytuacja z podobnymi konsekwencjami występuje w przypadku wariancji i odchylenia standardowego - zobacz sekcję Wrażliwość na błędy obserwacji w artykule "Odchylenie standardowe"

[edytuj] Zobacz też


Prezydent: byłem ganiany po kilku piętrach
Jestem konstytucyjnie najwyższym przedstawicielem Rzeczypospolitej i chciałbym tak być traktowany, także w Kancelarii Premiera. A nie ganiany po kilku piętrach przez zastępcę szefa kancelarii, choć droga windą trwa jedną minutę - powiedział prezydent Lech Kaczyński w rozmowie z TVP INFO.
L. Kaczyński wyda wielki bal prezydentów
Prezydent Lech Kaczyński zapowiada bal prezydentów z okazji 90. rocznicy odzyskania przez Polskę niepodległości. Jak podkreślił w wywiadzie dla TVP Info, obchodom tej rocznicy chciałby nadać rangę podobną do 60. rocznicy Powstania Warszawskiego.
Dzieci z Gruzji przyjechały na wakacje do Polski
85 dzieci z Gruzji przyleciało samolotem prezydenta RP do Rzeszowa. Pochodzące m.in. z okolic Gori i Tbilisi dzieci najbliższe dwa tygodnie spędzą w Bieszczadach.
Prezydent: ratyfikacja umowy ws. tarczy przed styczniem
Prezydent Lech Kaczyński ponownie wyraził zadowolenie z podpisania umowy w sprawie umiejscowienia w Polsce elementów amerykańskiej tarczy antyrakietowej.
Fotyga odchodzi od prezydenta
Szefowa Kancelarii Prezydenta Anna Fotyga podała się do dymisji, a prezydent dymisję przyjął - poinformowały "Wiadomości" TVP.
Linki: Strona g³ówna