이전에 저는 비선형 회귀분석을 선택해야 하는 경우와 선형 회귀 및 비선형 회귀분석을 사용하여 곡면성을 모형화하는 방법에 대한 게시물을 작성했습니다. 이후 비선형 방정식과 선형 방정식의 차이점에 대해 혼란을 느낀다는 댓글이 여러 개 달렸습니다. 비선형 방정식과 선형 방정식 모두 곡선을 모델링할 수 있기 때문에, 이와 같은 혼란을 이해할 수 있습니다.
그렇다면 곡선을 모형화하는 기능이 아니라면 선형 회귀 방정식과 비선형 회귀 방정식의 차이점은 무엇일까요?
선형 회귀는 선형 모델이 필요합니다. 놀라운 일은 아니죠? 하지만 이것이 의미하는 바는 무엇일까요?
모형은 각 항이 상수이거나 매개변수와 예측 변수의 곱인 경우 선형입니다. 선형 방정식은 각 항의 결과를 더하여 구성됩니다. 이로 인해 방정식은 다음과 같은 한 가지 기본적인 형태로 제한됩니다.
반응 = 상수 + 매개변수 * 예측 변수 + ... + 매개변수 * 예측 변수
Y = b o + b1X1 + b2X2 + ... + bkXk
통계학에서 회귀 방정식(또는 함수)은 매개변수에서 선형인 경우 선형입니다. 방정식은 매개변수에서 선형이어야 하지만, 예측 변수는 곡면성을 도출하는 방식으로 변경할 수 있습니다. 예를 들어, 제곱 변수를 포함하여 U형 곡선을 도출할 수 있습니다.
Y = b o + b1X1 + b2X12
이 모형은 예측 변수가 제곱이어도 매개변수에서 선형입니다. 또한 매개변수에서 선형인 로그 함수 형식과 역함수 형식을 사용하여 여러 유형의 곡선을 도출할 수 있습니다.
다음은 제곱 조건을 사용하여 BMI와 체지방률 간 곡선 관계를 도출하는 선형 회귀 모형의 예시입니다.
선형 방정식이 한 가지 기본적인 형태로 제한되는 반면, 비선형 방정식은 여러 가지 형태일 수 있습니다. 방정식이 비선형인지 확인하는 가장 간단한 방법은 '비선형'이라는 단어 자체에 초점을 맞추는 것입니다. 이 방정식은 말 그대로 선형이 아닙니다. 위에서 설명한 선형 방정식의 기준을 충족하지 않는 방정식은 비선형 방정식입니다.
이는 여러 형태를 포함하므로, 비선형 회귀는 가장 유연한 곡선 도출 함수를 제공합니다. 다음은 Minitab의 비선형 함수 카탈로그의 몇 가지 예시입니다. Theta는 매개변수를, X는 비선형 함수의 예측 변수를 나타냅니다. 선형 회귀분석과 달리 이러한 함수에는 예측 변수당 두 개 이상의 매개변수가 있을 수 있습니다.
비선형 함수 | 가능한 모양 한 가지 |
---|---|
전력(convex): Theta1 * X^Theta2 | |
Weibull 증가: Theta1 + (Theta2 - Theta1) * exp(-Theta3 * X^Theta4) | |
Fourier: Theta1 * cos(X + Theta4) + (Theta2 * cos(2*X + Theta4) + Theta3 |
다음은 밀도와 전자 이동성의 관계를 나타내는 비선형 회귀 모형의 예시입니다.
비선형 방정식은 그래프에 다 포함되지 못할 정도로 깁니다.
Mobility = (1288.14 + 1491.08 * Density Ln + 583.238 * Density Ln^2 + 75.4167 * Density Ln^3) / (1 + 0.966295 * Density Ln + 0.397973 * Density Ln^2 + 0.0497273 * Density Ln^3)
실제로 선형 회귀분석과 비선형 회귀분석의 이름은 각 분석이 허용하는 모형의 함수 형식에서 따온 것입니다. 이로써 선형 방정식과 비선형 방정식을 더욱 명확하게 구분하고 선형 회귀분석에서 곡선을 모형화할 수 있음을 이해하실 수 있게 되었기를 바랍니다. 또한 비선형 회귀분석의 경우 R-제곱을 계산할 수 없음에도 불구하고 일부 곡선형 모형에 R-제곱이 나타나는 이유도 이해하셨기를 바랍니다.
회귀분석을 학습하는 분들은 제 회귀분석 튜토리얼을 참조하세요.