Articles

Helyi regresszió

1964-ben Savitsky és Golay a LOESS–nek megfelelő módszert javasolt, amelyet általában Savitzky-Golay szűrőnek neveznek.William S. Cleveland 1979-ben fedezte fel újra a módszert, és külön nevet adott neki. A módszert tovább fejlesztette Cleveland és Susan J. Devlin (1988). LOWESS is ismert helyileg súlyozott polinom regresszió.

az adathalmaz tartományának minden egyes pontján az adatok egy részhalmazához alacsony fokú polinom van felszerelve, magyarázó változó értékekkel annak a pontnak a közelében, amelynek válaszát becsülik., A polinom a legkisebb négyzetek súlyozásával van felszerelve, így nagyobb súlyt ad a ponthoz közeli pontoknak, amelyek válaszát becsülik, és kisebb súlyt adnak a távolabb lévő pontoknak. A pont regressziós függvényének értékét ezután a helyi polinom értékelésével kapjuk meg az adott adatpont magyarázó változóértékeinek felhasználásával. A LOESS illesztés teljes, miután a regressziós függvényértékeket kiszámították az n {\displaystyle n} adatpontok mindegyikére. Ennek a módszernek számos részlete, mint például a polinom modell foka és a súlyok, rugalmas., Ezután röviden ismertetjük a módszer egyes részeire vonatkozó választási lehetőségeket, valamint a tipikus alapértelmezett értékeket.

lokalizált részhalmazai dataEdit

a részhalmaza használt adatok minden súlyozott legkisebb négyzetek illeszkedik LOESS határozza meg a legközelebbi szomszédok algoritmus. A “sávszélesség” vagy “simítási paraméter” nevű eljárás felhasználó által megadott bemenete határozza meg, hogy az adatok mekkora részét használják az egyes helyi polinomok illesztéséhez. Az α {\displaystyle \ alpha } simítási paraméter az egyes helyi illesztéseknél használt adatpontok teljes n számának töredéke., Az egyes súlyozott legkisebb négyzetekben alkalmazott adatok részhalmaza így tartalmazza az n α {\displaystyle n \ alpha } pontokat (a következő legnagyobb egész számra kerekítve), amelyek magyarázó változók értékei a legközelebb állnak ahhoz a ponthoz, ahol a választ becsülik.

α {\displaystyle \ alpha } simítási paraméternek nevezzük, mivel szabályozza a LOESS regressziós függvény rugalmasságát. Az α {\displaystyle \ alpha} nagy értékei a legsimább függvényeket hozzák létre, amelyek az adatok ingadozásaira reagálva a legkevésbé mozognak., Minél kisebb α {\displaystyle \alpha}, annál közelebb kerül a regressziós függvény az adatokhoz. A simítási paraméter túl kicsi értéke nem kívánatos, mivel a regressziós funkció végül elkezdi rögzíteni az adatok véletlenszerű hibáját.

helyi polinomok Fokaszerkesztés

az adatok minden egyes részhalmazához illeszkedő helyi polinomok szinte mindig első vagy második fokúak; Vagyis helyileg lineáris (egyenes vonal értelemben) vagy helyileg kvadratikus. A nulla fokos polinom használatával a lösz súlyozott mozgó átlaggá válik., A magasabb fokú polinomok elméletben működnének, de olyan modelleket hoznának létre, amelyek valójában nem a lösz szellemében vannak. A LOESS azon az elképzelésen alapul, hogy egy kis szomszédságban bármely függvény jól közelíthető egy alacsony rendű polinomhoz, és hogy az egyszerű modellek könnyen illeszthetők az adatokhoz. A nagyfokú polinomok hajlamosak az egyes részhalmazok adatait túlszárnyalni, és numerikusan instabilak, megnehezítve a pontos számításokat.,

súly functionEdit

mint már említettük, a súlyfüggvény a legnagyobb súlyt adja a becslési ponthoz legközelebbi adatpontoknak, a legkisebb súlyt pedig a legtávolabbi adatpontoknak. A súlyok használata azon az elképzelésen alapul, hogy a magyarázó változó térben egymáshoz közeli pontok nagyobb valószínűséggel kapcsolódnak egymáshoz egyszerű módon, mint a távolabbi pontok. Ezt a logikát követve azok a pontok, amelyek valószínűleg követik a helyi modellt, a legjobban befolyásolják a helyi modellparamétert., Azok a pontok, amelyek kevésbé valószínű, hogy valóban megfelelnek a helyi modellnek, kevésbé befolyásolják a helyi modellparaméter becsléseit.

A hagyományos súly funkciót használni, a LÖSZ, a tri-kocka tömege funkció,

w ( x ) = ( 1 − | d | 3 ) 3 {\displaystyle w(x)=(1-|d|^{3})^{3}}

ahol a d a távolság a megadott adatokat pont a pont a görbe felszerelhető, méretezni, hogy hazugság, a tartomány 0-tól 1.

azonban bármely más súlyfüggvény, amely megfelel a Clevelandben (1979) felsorolt tulajdonságoknak, szintén használható., A tömeg egy konkrét értelme honosított részhalmaza adatok kapott értékelése révén a tömeg a funkció a távolság, hogy pont a pont a becslési után méretezés a távolság, így a maximális abszolút távolság több, mint az összes pontot a részhalmaza adatok pontosan egy.

RSS x ⁡ (A) = ∑ I = 1 N ( y I − A x ^ i) t w i ( x) (y i − A x ^ i). {\displaystyle \ operatorname {RSS} _ {x} (A) = \ sum _ {I=1}^{n}(y_{i} – a {\hat {x}} _ {i})^{t}w_{i}(x)(y_{i}-a{\hat {x}}_{i}).,} Tr ⁡ ( W ( x ) ( Y − A X ^ ) T ( Y − A X^))) {\displaystyle \operatorname {Tr} (W(x) (Y-a{\hat {X}})^{t}(Y-a{\hat {X}}))})} A X ^ W ( x) x ^ T = Y W ( x) x ^ T . {\displaystyle a {\hat {X}}W(x) {\hat {X}}^{T} = YW (x){\hat {X}}}^{T}.} A ( x ) = Y W ( x ) x ^ T ( X ^ W ( x ) X ^ T ) − 1 . {\displaystyle A (x) = YW (x) {\hat {X}}^{t} ({\hat {X}} W (x) {\hat {X}}}^{T})^{-1}.}

egy tipikus választás w (x, z) {\displaystyle w (x, z)} A Gauss súly

w ( x , z) = exp ⁡ ( − ( x − z) 2 σ 2) {\displaystyle w (x, z) = \EXP \ left (- {\frac {(x-z)^{2}}{2 \ sigma ^{2}}}}}} \ jobb)}