Articles

Local regression

1964 년 Savitsky 와 Golay 는 일반적으로 SAVITZKY–Golay 필터라고 불리는 황토와 동등한 방법을 제안했습니다.William S.Cleveland 는 1979 년에이 방법을 재발견하여 별개의 이름을 부여했습니다. 이 방법은 Cleveland 와 Susan J.Devlin(1988)에 의해 추가로 개발되었습니다. LOWESS 는 국소 가중 다항식 회귀라고도합니다.

각 지점에서의 범위에서 데이터 설정 저도 다항에 맞추는 데이터의 하위 집합으로,설명변수 값을 지점 근처의 응답되는 것이다., 다항식 장착 가중치를 사용 최소제곱법을주는,무게를 더 근처에 점점 그에 응답되고 예상과 적은 중량을 점이 있습니다. 가치의 회귀 기능에 대한 지점은 다음 얻을 평가에 의해 현지 다항식을 사용하여 설명하는 변수 값에 대한 데이터 지점입니다. N{\displaystyle n}데이터 포인트 각각에 대해 회귀 함수 값이 계산 된 후 황토 맞춤이 완료됩니다. 다항식 모델의 정도와 가중치와 같은이 방법의 세부 사항 중 많은 부분이 유연합니다., 메소드의 각 부분과 일반적인 기본값에 대한 선택 범위는 다음에 간략하게 설명됩니다.

지역화된 하위 집합의 dataEdit

의 하위 집합이 사용된 데이터에 대한 각각의 가중 적어도 사각형에 맞는 황토에 의하여 결정되며 가장 가까운 이웃 알고리즘이 있습니다. 사용자 지정 입력하는 절차”라고 대역폭”또는”다듬기 매개 변수는”결정하는 방법을 많이 사용되는 데이터에 맞게 각 지역의 다항식. 스무딩 매개 변수 인 α{\displaystyle\alpha}는 각 로컬 맞춤에 사용되는 데이터 포인트의 총 수 n 의 분수입니다., 하위 집합의 데이터 각각에서 사용 가중 적어도 광장에 맞게 따라서 포함한 α n{\displaystyle n\n 알파}포인트(둥근 다음 가장 큰 정수)그의 설명변수 값에 가장 가까운 지점에 응답되는 것이다.

α{\displaystyle\alpha}는 황토 회귀 함수의 유연성을 제어하기 때문에 스무딩 매개 변수라고합니다. Α{\displaystyle\alpha}의 큰 값은 데이터의 변동에 대한 응답으로 가장 적게 흔들리는 가장 부드러운 함수를 생성합니다., Α{\displaystyle\alpha}가 작을수록 회귀 함수가 데이터에 더 가까워 질 것입니다. 를 사용하여 너무 작은 값을 부드럽게 변하는 것은 바람직하지 않다,그러나,이후 회귀 기능이 결국에는 시작을 캡처하는 임의의 데이터에 오류가.

학위의 현지 polynomialsEdit

로컬 다항식에 맞는 각 하위 집합의 데이터는 거의 항상의 번 또는 두 번째 학위를 즉,로컬형(에서 스트레이트 라인을 의미)또는 로컬로 차입니다. 0 도 다항식을 사용하면 황토가 가중 이동 평균으로 바뀝니다., 고차 다항식은 이론 상으로는 작동하지만 실제로는 황토의 정신에없는 모델을 산출합니다. 황토에 기반의 아이디어는 어떤 기능이 잘 될 수 있는 근사 근처의 작은 마을에서의 낮은 순서를 다항식 및 간단한 모델이 될 수 있는 맞게 데이터를 쉽게. 고차 다항식은 각 하위 집합의 데이터를 과도하게 맞추는 경향이 있으며 수치 적으로 불안정하여 정확한 계산을 어렵게 만듭니다.,

량 functionEdit

위에서 언급한 대로,중량 기능을 제공 대부분의 중량을 데이터 포인트에서 가장 가까운 포인트의 추정과 적은 중량을 데이터 포인트는 멀리 떨어져. 의 사용량을 기반으로 아이디어에 포인트 근처에서 서명 가변적인 공간이 될 가능성이 서로 관련이 간단한 방법으로 보다는 점을 추가로 떨어져있다. 다음과 같은 이 논리,포인트는 가능성이 높은 따라 로컬 모델에 가장 영향을 미치는 로컬 모델 매개 변수 예측합니다., 포인트는 가능성이 적은 실제로 따르는 로컬 모델에 적은 영향을 미치는 로컬 모델 매개 변수 추정치입니다.

전통적인 체중 기능을 사용되는 황토가 트라이브중 기능,

w(x)=(1−|d|3)3{\displaystyle w(x)=(1-|d|^{3})^{3}}

어디 d 은 거리의 주어진 데이터 지점에서 점 곡선에 장착되는,확장에서 거짓말을하는 범위는 0 에서 1.

그러나 클리블랜드(1979)에 나열된 속성을 만족하는 다른 가중치 함수도 사용할 수 있습니다., 체중에 대한 특정 시점에 어떤 지역화된 일부 데이터를 얻을 평가하여 이중에서 작동 사이의 거리는 점점 추정,크기를 조정한 후의 거리는 최대 절대 거리를 통해 모든 지점에서 하위 집합의 데이터는 정확하게 하나입니다.

RSS x⁡(A)=∑i=1N(y i−A x^i)T w i(x)(y i−A x^i). {\displaystyle\operatorname{RSS}_{x}(A)=\sum_{i=1}^{N}(y_{i}-a{\hat{x}}_{i})^{T}w_{i}(x)(y_{i}-a{\hat{x}}_{i}).,}Tr⁡(W(x)(Y−A X^)T(Y−A x^)){\displaystyle\operatorname{Tr}(W(x)(Y-A{\hat{X}})^{T}(Y-A{\hat{X}})}A X^W(x)X^T=Y W(x)X^T. {\displaystyle A{\hat{X}}W(x){\hat{X}}^{T}=YW(x){\hat{X}}^{T}.}A(x)=Y W(x)X^T(X^W(x)X^T)-1. {\displaystyle A(x)=YW(x){\hat{X}}^{T}({\hat{X}}W(x){\hat{X}}^{T})^{-1}.}

일반적인 선택 w(x,z){\displaystyle w(x,z)}은 가우시안 체중

w(x,z)=exp⁡(−(x−z)2 2 2σ){\displaystyle w(x,z)=\exp\left(-{\frac{(x-z)^{2}}{2\sigma^{2}}}\right)}