Articles

Lokale regresjon

I 1964, Savitsky og Golay foreslått en metode tilsvarende LØSS, som er vanligvis referert til som Savitzky–Golay-filter.William S. Cleveland gjenoppdaget metode i 1979 og ga den en bestemt navn. Metoden ble utviklet videre av Cleveland og Susan J. Devlin (1988). LOWESS er også kjent som lokalt vektet polynomisk regresjon.

Ved hvert punkt i utvalg av data sette en lav-polynomet er montert på et delsett av dataene, med forklarende variable verdier nær det punktet der responsen blir beregnet., Den polynom er utstyrt med vektet minste kvadraters, noe som gir mer vekt, og poeng i nærheten av point hvis svar blir beregnet og mindre vekt steder lenger unna. Verdien av regresjon funksjon for poenget er da oppnådd ved å evaluere de lokale polynom med forklarende variable verdier for at data punktet. Den LØSS passform er fullført etter regresjon verdiene har blitt beregnet for hver av de n {\displaystyle n} data poeng. Mange av detaljene i denne metoden, slik som graden av polynomet modell og vekter, er fleksible., Den spekter av valg for hver del av metoden og typiske standardverdier er kort omtalt i de neste avsnittene.

Lokalisert undergrupper av dataEdit

delsett av dataene som er brukt for hver vektet minste kvadraters metode i LØSS er bestemt av en nærmeste naboer algoritme. En bruker-spesifiserte innspill til prosedyre kalt «båndbredde» eller «glatting parameteren avgjør hvor mye av dataene er brukt for å passe hver lokale polynom. Utjevning parameter α {\displaystyle \alpha } , er det brøkdel av det totale antallet n av data poeng som er brukt i hver lokale passform., Den delsett av dataene som er brukt i hver vektet minste kvadraters dermed består n α {\displaystyle n\alpha } poeng (avrundet til neste største heltall) som forklarende variabler’ verdier som er nærmest til det punktet hvor svaret blir beregnet.

α {\displaystyle \alpha } kalles utjevning parameter fordi det styrer fleksibilitet av LØSS regresjon funksjon. Store verdier av α {\displaystyle \alpha } produsere den kuleste funksjonene som wiggle minst i respons til svingninger i dataene., De mindre α {\displaystyle \alpha } er, jo nærmere regresjon funksjon vil være i overensstemmelse med data. Bruk av for lite en verdi av utjevning parameteren er ikke ønskelig, men siden regresjon funksjon vil etterhvert begynne å ta tilfeldige feil i data.

Grad av lokale polynomialsEdit

Den lokale polynomer passer til hver delsett av dataene er nesten alltid av første og andre grad, det er, enten lokalt lineær (i rett linje forstand) eller lokalt kvadratisk. Ved hjelp av en null polynomet slår LØSS inn i en vektet glidende gjennomsnitt., Høyere grad polynomer ville fungere i teorien, men gi modeller som ikke er virkelig i ånden av LØSS. LØSS er basert på ideer som en funksjon kan være godt rundet i en lite nabolag med en lav-order polynom og at enkle modeller som kan passe til data enkelt. Høy grad polynomer ville har en tendens til å overfit dataene i hver undergruppe og er numerisk ustabil, å gjøre nøyaktige beregninger vanskelig.,

Vekt functionEdit

Som nevnt ovenfor, vekt-funksjonen gir den mest vekt på å datapunkter nærmeste punktet for estimering og minst vekt på å datapunkter som er lengst unna. Bruk av vekter er basert på ideen om at poeng i nærheten av hverandre i den forklarende variabelen plass er mer sannsynlig å være relatert til hverandre på en enkel måte enn punkter som er lenger fra hverandre. Etter denne logikken, poeng som er egnet til å følge den lokale modellen beste påvirke lokale modell parameter estimater mest., Punkter som er mindre sannsynlig å faktisk svarer til den lokale modellen har mindre innflytelse på den lokale modell parameter estimater.

Den tradisjonelle vekt funksjonen brukes for LØSS er tri-kube vekt funksjon,

w ( x ) = ( 1 − d | 3 ) 3 {\displaystyle w(x)=(1-|d|^{3})^{3}}

der d er avstanden fra et gitt data fra punkt til punkt på kurven blir montert, skalert til å ligge i området fra 0 til 1.

Imidlertid noe annet vekt funksjon som tilfredsstiller egenskapene som er oppført i Cleveland (1979) kan også brukes., Vekten til et bestemt punkt i en lokalisert delsett av data er innhentet ved å evaluere vekt funksjon på avstanden mellom det punktet og punkt estimering, etter skalering avstanden slik at den maksimale absolutte avstanden over alle punktene i delsett av data er nøyaktig ett.

RSS x ⁡ ( A ) = ∑ i = 1 N ( y i − x) ^ i ) T w i ( x ) ( y i − A x ^ jeg ) . {\displaystyle \operatorname {RSS} _{x}(A)=\sum _{i=1}^{N}(y_{i}-En{\hat {x}}_{i})^{T}w_{i}(x)(y_{i}-En{\hat {x}}_{i}).,} Tr ⁡ ( W ( x ) ( Y − X)^) T ( Y − X)^) ) {\displaystyle \operatorname {Tr} (W(x)(Y-A{\hat {X}})^{T}(Y-A{\hat {X}}))} X ^ W ( x), X ^ T = Y W ( x), X ^ T . {\displaystyle En{\hat {X}}W(x){\hat {X}}^{T}=YW(x){\hat {X}}^{T}.} A ( x ) = Y W ( x), X ^ T ( X ^ W ( x), X ^ T ) − 1 . {\displaystyle En(x)=YW(x){\hat {X}}^{T}({\hat {X}}W(x){\hat {X}}^{T})^{-1}.}

En typisk valg for w ( x , z ) {\displaystyle w(x,z)} er Gaussisk vekt

w ( x , z ) = exp ⁡ ( − ( x − z ) 2 2 σ 2 ) {\displaystyle w(x,z)=\exp \left(-{\frac {(x-z)^{2}}{2\sigma ^{2}}}\right)}