Articles

Regresia locală

În 1964, Savitsky și Golay au propus o metodă echivalentă cu LOESS, denumită în mod obișnuit filtru Savitzky–Golay.William S. Cleveland a redescoperit metoda în 1979 și i-a dat un nume distinct. Metoda a fost dezvoltată în continuare de Cleveland și Susan J. Devlin (1988). LOWESS este, de asemenea, cunoscut sub numele de regresie polinomială ponderată local.

în fiecare punct din intervalul setului de date, un polinom de grad scăzut este montat la un subset de date, cu valori variabile explicative în apropierea punctului al cărui răspuns este estimat., Polinomul este montat folosind cele mai mici pătrate ponderate, dând mai multă greutate punctelor din apropierea punctului al cărui răspuns este estimat și mai puțină greutate punctelor mai departe. Valoarea funcției de regresie pentru punct este apoi obținută prin evaluarea polinomului local folosind valorile variabile explicative pentru acel punct de date. Loess fit este completă după ce valorile funcției de regresie au fost calculate pentru fiecare dintre punctele de date n {\displaystyle n}. Multe dintre detaliile acestei metode, cum ar fi gradul modelului polinomial și greutățile, sunt flexibile., Gama de opțiuni pentru fiecare parte a metodei și valorile implicite tipice sunt discutate pe scurt în continuare.

subseturi localizate de dateedit

subseturile de date utilizate pentru fiecare pătrat ponderat cel mai mic se potrivesc în LOESS sunt determinate de un algoritm de vecini cel mai apropiat. O intrare specificată de utilizator la procedura numită” lățime de bandă „sau” parametru de netezire ” determină cât de mult din datele sunt utilizate pentru a se potrivi fiecărui polinom local. Parametrul de netezire, α {\displaystyle \ alpha }, este fracțiunea din numărul total n de puncte de date care sunt utilizate în fiecare potrivire locală., Subsetul de date utilizate în fiecare ponderat pătrate se potrivesc, astfel, cuprinde n α {\displaystyle n\alpha } puncte (rotunjită la următorul cel mai mare număr întreg), ale căror variabile explicative valorile sunt mai apropiate de punctul în care răspunsul este estimat.

α {\displaystyle \ alpha } se numește parametrul de netezire deoarece controlează flexibilitatea funcției de regresie LOESS. Valorile mari ale α {\displaystyle \ alpha } produc cele mai netede funcții care se mișcă cel mai puțin ca răspuns la fluctuațiile datelor., Cu cât α {\displaystyle \alpha } este mai mic, cu atât funcția de regresie va fi mai apropiată de date. Cu toate acestea, utilizarea unei valori prea mici a parametrului de netezire nu este de dorit, deoarece funcția de regresie va începe în cele din urmă să capteze eroarea aleatorie din date.

gradul de polinom localedit

polinoamele locale care se potrivesc fiecărui subset de date sunt aproape întotdeauna de primul sau al doilea grad; adică fie liniar local (în sensul liniei drepte), fie patratic local. Folosind un polinom de grad zero transformă LOESS într-o medie mobilă ponderată., Polinoamele de grad superior ar funcționa teoretic, dar produc modele care nu sunt cu adevărat în spiritul LOESS. LOESS se bazează pe ideea că orice funcție poate fi bine aproximată într-un cartier mic de un polinom de ordin scăzut și că modelele simple pot fi adaptate cu ușurință la date. Polinoamele de grad înalt tind să suprapună datele din fiecare subset și sunt instabile numeric, ceea ce face dificilă calcularea exactă.,după cum sa menționat mai sus, funcția de greutate dă cea mai mare greutate punctelor de date cele mai apropiate de punctul de estimare și cea mai mică greutate punctelor de date care sunt cele mai îndepărtate. Utilizarea greutăților se bazează pe ideea că punctele apropiate unul de celălalt în spațiul variabil explicativ sunt mai susceptibile de a fi legate între ele într-un mod simplu decât punctele care sunt mai îndepărtate. Urmând această logică, punctele care sunt susceptibile să urmeze modelul local influențează cel mai bine parametrul modelului local estimează cel mai mult., Punctele care sunt mai puțin susceptibile de a se conforma efectiv modelului local au o influență mai mică asupra estimărilor parametrilor modelului local.

greutate tradițională funcția folosită pentru LOESS este tri-cub funcție de greutate,

w ( x ) = ( 1 − | d | 3 ) 3 {\displaystyle w(x)=(1-|d|^{3})^{3}}

în cazul în care d este distanța de la un anumit punct de date de la punctul de pe curba fiind montate, scalate pentru a se află în intervalul de la 0 la 1.cu toate acestea, orice altă funcție de greutate care satisface proprietățile enumerate în Cleveland (1979) ar putea fi de asemenea utilizată., Greutatea pentru un anumit punct din orice subset localizat de date este obținută prin evaluarea funcției de greutate la distanța dintre acel punct și punctul de estimare, după scalarea distanței astfel încât distanța maximă absolută peste toate punctele din subsetul de date să fie exact una.

RSS X ⁡ (A) = ∑ i = 1 N ( y i − a X ^ i) t w i ( x) (y i − a X ^ i). {\displaystyle \operatorname {RSS} _{x}(A)=\sum _{i=1}^{N}(y_{i}-A{\hat {x}}_{i})^{T}w_{m}(x)(y_{i}-A{\hat {x}}_{i}).,} Tr ⁡ ( W ( x ) ( Y − X ^ ) T ( Y − a X ^ ) ) {\displaystyle \operatorname {Tr} (W(x)(Y-O{\hat {X}})^{T}(Y-O{\hat {X}}))} X ^ W ( x ) X ^ T = Y W ( x ) X ^ T . {\displaystyle Un{\hat {X}}W(x){\hat {X}}^{T}=YW(x){\hat {X}}^{T}.} A (x) = Y W (x ) x ^ T ( X ^ W ( x) x ^ T) − 1 . {\displaystyle O(x)=YW(x){\hat {X}}^{T}({\hat {X}}W(x){\hat {X}}^{T})^{-1}.}

O alegere tipic pentru w ( x , z ) {\displaystyle w(x,z)} este Gaussian greutate

w ( x , z ) = exp ⁡ ( − ( x − z ) 2 2 σ 2 ) {\displaystyle w(x,z)=\exp \stânga(-{\frac {(x-z)^{2}}{2\sigma ^{2}}}\dreapta)}