Articles

Paikallinen regressio

Vuonna 1964, Savitsky ja Golay ehdotettu menetelmä vastaa LÖSSI, joka on yleisesti kutsutaan Savitzky–Golay-suodatin.William S. Cleveland löysi menetelmän uudelleen vuonna 1979 ja antoi sille erillisen nimen. Menetelmän kehittivät edelleen Cleveland ja Susan J. Devlin (1988). LOWESS tunnetaan myös paikallisesti painotettu regressio-polynomi.

jokaisessa tietojoukon vaihteluvälin pisteessä pienen asteen polynomi on asennettu aineiston osajoukkoon, jonka selittävät muuttujat ovat lähellä kohtaa, jonka vastetta arvioidaan., Polynomi on asennettu käyttäen painotettu vähiten neliöitä, jolloin enemmän painoa pistettä lähellä kohtaa, jonka vastaus on arvioitu ja vähemmän painoa pistettä kauempana. Arvo regressio-toiminto kohta on sitten saatu arvioimalla paikallisia polynomi käyttämällä selittävän muuttujan arvojen että tietoja kohtaan. LOESS fit on valmis, kun regressiofunktion arvot on laskettu kullekin n {\displaystyle N} – datapisteelle. Monet tämän menetelmän yksityiskohdat, kuten polynomimallin aste ja painot, ovat joustavia., Seuraavaksi käsitellään lyhyesti menetelmän kunkin osan valinnanvaraa ja tyypillisiä oletusarvoja.

Lokalisoitu osajoukkoja dataEdit

subsets tietoja käytetään kunkin painotettu pienimmän neliösumman sovi LÖSSIMAIDEN määräytyvät naapurit-algoritmi. Käyttäjän määritetty menettelyä kutsutaan ”kaistanleveys” tai ”smoothing parameter” – määrittää, miten paljon tietoa on käytetty sopimaan kunkin paikallisen polynomi. Tasoitusparametri, α {\displaystyle \alpha }, on murto-osa kussakin paikallisessa sopimisessa käytettävien datapisteiden kokonaismäärästä n., Tietojen alijoukko käytetään kunkin painotettu pienimmän neliösumman sovitus käsittää siten n α {\displaystyle n\alpha } pistettä (pyöristettynä seuraavaksi suurin kokonaisluku), jonka selittävien muuttujien arvot ovat lähimpänä kohta, jossa vaste on arvioitu.

α {\displaystyle \alpha } on nimeltään tasoitus parametri, koska se ohjaa joustavuutta LÖSSIMAIDEN regressio-toiminto. Suuria arvoja α {\displaystyle \alpha } tuottaa sujuvin toimintoja, jotka heiluminen vähiten vastauksena vaihtelut tiedot., Mitä pienempi α {\displaystyle \alpha } on, sitä lähempänä regressiofunktio on tietojen mukainen. Liian pienen tasoitusparametrin arvon käyttäminen ei kuitenkaan ole suotavaa, sillä regressiofunktio alkaa lopulta kaapata aineistossa olevaa satunnaisvirhettä.

missä Määrin paikallinen polynomialsEdit

paikallinen polynomi sopivaksi jokainen osajoukko tiedot ovat lähes aina ensimmäisen tai toisen asteen; se on joko paikallisesti lineaarinen (suora viiva merkityksessä) tai paikallisesti asteen. Käyttämällä nolla asteen polynomi muuttuu LOESS osaksi painotettu liukuva keskiarvo., Korkeamman asteen polynomit toimisivat teoriassa, mutta tuottavat malleja, jotka eivät todellisuudessa ole LOESSIN hengessä. LOESS perustuu ajatuksiin, että mikä tahansa funktio voidaan hyvin lähentää pienessä naapurustossa matalan kertaluvun polynomilla ja että yksinkertaiset mallit voivat sopia dataan helposti. Korkean asteen polynomi olisi taipumus ylittää tiedot kunkin osajoukon ja ovat numeerisesti epävakaa, mikä tekee tarkkoja laskelmia vaikeaa.,

Paino functionEdit

Kuten edellä mainittiin, paino toiminto antaa eniten painoa tietojen pistettä lähimmän pisteen arviointi ja ainakin paino tietojen pistettä, jotka ovat kaikkein kauimpana. Käyttö painot perustuu ajatukseen, että pistettä lähellä toisiaan selittävä muuttuja-avaruudessa ovat todennäköisesti liittyvät toisiinsa yksinkertaisella tavalla kuin pisteitä, jotka ovat kauempana toisistaan. Tämän logiikan mukaisesti paikallismallia todennäköisesti seuraavat kohdat vaikuttavat parhaiten paikalliseen malliparametriin, arvioi eniten., Pisteillä, jotka eivät ole yhtä todennäköisesti paikallisen mallin mukaisia, on vähemmän vaikutusta paikallisen mallin parametriarvioihin.

perinteisen paino-toimintoa käytetään LÖSSI on tri-kuutio paino toiminto,

w ( x ) = ( 1 − | d | 3 ) 3 {\displaystyle w(x)=(1-|d|^{3})^{3}}

, missä d on etäisyys annetaan tietoja pisteen käyrän asennettu, skaalattu olla välillä 0-1.

kuitenkin voidaan käyttää myös muita painofunktioita, jotka täyttävät Clevelandissa (1979) luetellut ominaisuudet., Paino tietyssä vaiheessa tahansa paikallinen tietojen alijoukko on saatu arvioimalla paino toiminto etäisyys, että piste ja piste-estimointi, kun skaalaus etäisyys niin, että suurin absoluuttinen etäisyys yli kaikki kohdat tietojen alijoukko on tasan yksi.

RSS-x ⁡ ( A ) = ∑ i = 1 N ( y i − x ^ i ) T w i ( x ) ( y i − x ^ i ) . {\displaystyle \operatorname {RSS} _{x}(A)=\sum _{i=1}^{N}(y_{i} On-{\hat {x}}_{i})^{T}w_{i}(x)(y_{i} On-{\hat {x}}_{i}).,} Tr ⁡ ( W ( x ) ( Y − X ^ ) T ( Y − X ^ ) ) {\displaystyle \operatorname {Tr} (W(x)(Y-A{\hat {X}})^{T}(Y-A{\hat {X}}))} X ^ W ( x ) X ^ T = Y W ( x ) X ^ T . {\displaystyle A{\hat {X}}W(x), {\hat {X}}^{T}=YW(x), {\hat {X}}^{T}.} A ( x ) = Y W ( x ) X ^ T ( X ^ W ( x ) X ^ T ) − 1 . {\displaystyle A(x)=YW(x), {\hat {X}}^{T}({\hat {X}}W(x), {\hat {X}}^{T})^{-1}.}

tyypillinen valinta w ( x , z ) {\displaystyle w(x,z)} on Gaussin paino

w ( x , z ) = exp ⁡ ( − ( x − z ) 2 2 σ 2 ) {\displaystyle w(x,z)=\exp \left(-{\frac {(x-z)^{2}}{2\sigma ^{2}}}\right)}