Articles

Místní regrese

V roce 1964, Savitsky a Golay navrhovaná metoda ekvivalentní SPRAŠ, která je běžně označována jako Savicky–Golay filtr.William S. Cleveland znovu objevil metodu v roce 1979 a dal jí odlišné jméno. Metoda byla dále vyvinuta Clevelandem a Susan J. Devlin (1988). LOWESS je také známý jako místně vážená polynomiální regrese.

v každém bodě v rozsahu datového souboru je polynom nízkého stupně namontován na podmnožinu dat s vysvětlujícími proměnnými hodnotami v blízkosti bodu, jehož odezva se odhaduje., Polynom je osazen pomocí vážených nejmenších čtverců, což dává větší váhu bodům v blízkosti bodu, jehož odpověď se odhaduje, a menší váhu na body dále. Hodnota regresní funkce pro bod se pak získá vyhodnocením lokálního polynomu pomocí vysvětlující proměnné hodnoty pro tento datový bod. SPRAESS fit je kompletní poté, co byly vypočítány hodnoty regresní funkce pro každý z datových bodů n {\displaystyle n}. Mnoho detailů této metody, jako je stupeň polynomiálního modelu a hmotnosti, je flexibilní., Rozsah možností pro každou část metody a typické výchozí hodnoty jsou stručně popsány dále.

lokalizované podmnožiny dataEdit

podmnožiny dat používané pro každé vážené nejmenší čtverce, které se vejdou do spraše, jsou určeny algoritmem nejbližších sousedů. Uživatel zadaný vstup do postupu s názvem „šířka pásma“ nebo „vyhlazování parametr“ určuje, kolik dat se používá, aby se vešly každý místní polynom. Parametr vyhlazení, α {\displaystyle \ alpha }, je zlomek celkového počtu n datových bodů, které se používají v každém lokálním uložení., Podmnožina dat použitých v jednotlivých vážených nejmenších čtverců obsahuje tedy n α {\displaystyle n\alpha } bodů (zaokrouhlená na příští největší celé číslo) vysvětlující proměnné, jejichž hodnoty jsou nejblíže k bodu, v němž reakci odhadnout.

α {\displaystyle \ alpha } se nazývá parametr vyhlazování, protože řídí flexibilitu regresní funkce SPRAESS. Velké hodnoty α {\displaystyle \ alpha } produkují nejhladší funkce, které se nejméně otáčejí v reakci na kolísání dat., Čím menší α {\displaystyle \ alpha } je, tím blíže bude regresní funkce odpovídat datům. Použití příliš malé hodnoty parametru vyhlazení však není žádoucí, protože regresní funkce nakonec začne zachytit náhodnou chybu v datech.

stupeň lokálních polynomůedit

místní polynomy vhodné pro každou podmnožinu dat jsou téměř vždy prvního nebo druhého stupně; to znamená buď lokálně lineární(v přímce) nebo lokálně kvadratické. Použití polynomu s nulovým stupněm změní SPRAESS na vážený klouzavý průměr., Polynomy vyššího stupně by fungovaly teoreticky, ale přinášejí modely, které ve skutečnosti nejsou v duchu SPRAŠŮ. SPRAŠ je založen na myšlenkách, že veškeré funkce lze dobře aproximovat v malém okolí o low-pořadí polynomu a jednoduchých modelů může být vhodné, aby data snadno. Polynomy s vysokým stupněm by měly tendenci překonávat data v každé podmnožině a jsou číselně nestabilní, což ztěžuje přesné výpočty.,

Hmotnost functionEdit

Jak bylo uvedeno výše, hmotnost funkce dává větší váhu na datové body nejbližšího bodu, odhad a nejmenší váhu, aby datové body, které jsou nejdál. Použití závaží je založen na myšlence, že body blízko sebe ve vysvětlující proměnné prostoru jsou více pravděpodobné, že bude vztahující se k sobě navzájem jednoduchým způsobem než body, které jsou dále od sebe. Podle této logiky body, které pravděpodobně budou následovat místní model, nejlépe ovlivňují odhady parametrů místního modelu nejvíce., Body, které jsou méně pravděpodobné, že skutečně odpovídají lokálnímu modelu, mají menší vliv na odhady parametrů lokálního modelu.

tradiční váhová funkce použitá pro SPRAŠE je tri-cube hmotnost funkci,

w ( x ) = ( 1 − | d | 3 ) 3 {\displaystyle w(x)=(1-a|d|^{3})^{3}}

kde d je vzdálenost daného datového bodu od bodu na křivce jsou vybaveny, měřítko ležet v rozsahu od 0 do 1.

lze však použít i jakoukoli jinou funkci hmotnosti, která splňuje vlastnosti uvedené v Clevelandu (1979)., Hmotnost pro konkrétní bod v jakékoliv lokalizované podmnožinu dat je získána vyhodnocením funkce hmotnost na vzdálenosti mezi tímto bodem a bodem odhad, po škálování vzdálenost tak, aby maximální absolutní vzdálenost přes všechny body v podmnožinu dat je přesně jedna.

RSS x ⁡ ( a) = ∑ i = 1 N (y I-a X ^ i) t w i ( x) (y I − a X ^ i). {\displaystyle \operatorname {RSS} _{x}(A)=\sum _{i=1}^{N}(y_{i}-{\hat {x}}_{i})^{T}w_{i}(x)(y_{i}-{\hat {x}}_{i}).,} Tr ⁡ ( W ( x ) ( Y − X ^ ) T ( Y − X ^ ) ) {\displaystyle \operatorname {Tr} (W(x)(Y-{\hat {X}})^{T}(Y-{\hat {X}}))} X ^ W ( x ) X ^ T = Y W ( x ) X ^ T . {\displaystyle A {\hat {x}} W (x) {\hat {X}^{T}=YW(x) {\hat {X}}^{t}.} A ( x ) = Y W ( x ) x ^ T ( X ^ W ( x ) x ^ T ) − 1 . {\displaystyle A (x)=YW (x){\hat {X}}^{t} ({\hat {x}}W (x){\hat {X}}^{T})^{-1}.}

typický volbou pro w ( x , z ) {\displaystyle w(x,z)} je Gaussovské hmotnost

w ( x , z ) = exp ⁡ ( − ( x − z ) 2 2 σ 2 ) {\displaystyle w(x,z)=\exp \left(-{\frac {(x-z)^{2}}{2\sigma ^{2}}}\right)}