Published 2024. 3. 16. 21:43

[데이터마이닝/메모] 2강. 회귀모형 I

선형회귀모형

6분 43초
각 객체들의 오차는 서로 독립이고 평균이 0이고 일정한 분산을 가진 정규분포를 따른다고 가정
=> 각각 오차들이 최소가 되게 하는 직선을 긋고 그 직선을 찾는 식을 구하는 것 ...이 선형회귀모형이다

오차제곱합 => 오차가 +, - 가 있는데 서로 상쇄되기 때문에 제곱해서 합을 구하는 것이다.

11분 26초: 회귀 계수(가중치, 베타)의 해석

12분 50초: 입력 변수의 중요도 (t값, t value)
추정값(분자)이 굉장히 클때 표준오차(분모)도 굉장히 크다면.. 나눴을때 별로 변수의 중요도가 크지 않다고 볼 수 있다
t값의 절대값이 클수록 영향력이 크다고 할 수 있다

15분 23초 : F score
모형의 상수항인 베타 제로를 제외한 모든 회귀 계수가 0인지 아닌지를 검정하는 측도
=> 상수항 제외하고 계수가 0이면 그 입력변수는 y값에 영향을 미치지 않는다는 것임
=> 입력변수에서 적어도 하나의 변수라도 유의하면 유의하다고 보는 것임
=> ** F값이 크다해서 모든 입력변수가 유의하다는 것이 아님, 적어도 하나 이상 유의하다는 것

F=MSR/MSE
MSR: 평균적으로 회귀직선이 설명할 수 있는 부분
MSE: 평균제곱 오차
F를 계산하는 수식은 오차에 비해서 직선이 설명할 수 있는 부분이 얼마나 큰지 본다.
F가 크면 오차에 비해 직선이 설명할 수 있는 부분이 크다는 것이기 때문에 직선이 유의미하다고 보는 것이다.

F 값이 작으면 P값(유의확률)은 올라가게 된다. 서로 반비례관계이다.
P값이 보통 0.05보다 크면 의미가 없다고 얘기를 함 => P값이 0.05보다 크면 모든 입력 변수가 유의하지 않아서 회귀직선이 유용하지 않음을 의미

19분 27초*
R^2(R squared) : 전체 변동 중에 직선이 설명하는 부분
SSR: 직선에 의해서 퍼져있는 정도
SST: 관측치 하나당 전체 평균에 비해서 얼마나 변하는지, 얼마나 퍼져있는지 / 전체 변동

R^2가 1에 가까울수록 직선의 설명력이 높다

23분 30초
R^2는 변수의 개수(키, 혈압, 몸무게 등)가 증가할수록 R^2가 증가하므로 이것을 보정하기 위한 수정된 R^2(adjusted R^2)를 사용한다.

24분 17초
AIC
SSE: 오차합
AIC는 SSE(오차)와 관련있기 때문에 작을수록 좋다.
입력변수의 수가 다른 모형들을 비교 평가하는 기준으로 AIC도 종종 사용

입력변수의 개수가 늘면 오차가 떨어진다. AIC수식에서 p가 입력변수의 수이다.
AIC수식에서는 SSE와 p를 함께 고려한다.
AIC는 상당히 보편적으로 많이 쓰인다.

예측력 측도로 MSE와 MAE를 사용한다
MSE(mean squared error)
MAE(mean absolute error)

로지스틱 회귀모형

로지스틱 회귀모형
목표변수가 두개의 범주를 가진 이항형

32분 10초
목표변수를 y가 1을 가질 확률이라고 칭하자
목표변수가 범주 0, 1 대신에 1을 가질 확률!

πi가 확률!

확률이기 때문에 πi는 0과 1 사이의 값이다.
하지만 선형회귀는 이 범위를 넘을 수 있기 때문에 변환을 해준다(?
34분 15초

오즈비

odds ratio로 변환

=> 식 πi/1-πi
=> 0에서 무한대까지의 범위.

로짓변환
여기에 로그를 씌워줌으로써 음수 무한대~양수 무한대, 실수 전체 범위를 가짐
=> 이 로그까지 씌운 값(연속형 값)을 목표 변수로 보고 추정을 하자

로짓변환(odds ratio에 log씌운거)를 계산하면 선형회귀 식을 그대로 가져 쓸 수 있다는 것

38분 40초 / y축을 보면 a그래프는 πi이고, b그래프는 오즈비에 로그를 취한 로짓변환한 값이다. b는 선형인 것을 볼 수 있음

로지스틱 회귀모형의 회귀모수는 최대우도추정법에 의해 추정
뉴턴-랩슨, 피셔 스코링 방법에 의해 반복적으로 계산

로지스틱 회귀모형의 적합도는 이탈도(deviance)로 계산한다
이탈도는 어떤 모형 M의 최대우도 log(Lm)에서 포화모형 S의 최대우도 log(Ls)를 뺀 것에 -2를 곱한 값
포화모형은 y에 모든 관측치를 다 연결(통과)해서 설명할 수 있는 모형을 말한다 (오차가 없이 완벽히 적합된.. 아주 이상적인 모형)
이탈도는 값이 클수록 이탈도가 크니까 안좋음. 얼마나 벗어나는지.
이탈도가 클 경우에 포화모형에 비해 적합하지 않다고 평가

이론적으로 범주형 입력변수 처리 - 53분 40초
L개의 범주를 가지는 경우 L-1개의 가변수를 생성한다.

예를 들어 a, b, c 3개가 범주로 있을때

a=1, b=0 이면 a이고
a=0, b=1 이면 b 이고
a=0, b=0 이면 c이다 (a와 b는 아니니까)

따라서 가변수는 3-1인 2개 생성함

일반적인 회귀모형에서의 가변수는 이렇게 활용한다.
dummy함수는 좀 다른 원리다.

56분 8초
모형은 너무 과소적합, 과대적합 하지않아야 한다.

변수 선택 방법
- 후진소거법
- 전진선택법
- 단계적 선택법

느낀점
오즈비와 로짓변환을 많이 들어봤는데 의미는 지금 알았다
로지스틱 회귀모형도 왜 회귀가 붙은건지 잘 몰랐는데 로짓변환한 그래프를 보니까 알겠다..
신기하다....

학습개요

회귀분석은 변수들 사이에 함수적 관계를 조사하는 통계적 방법이다. 그 관계는 목표변수와 입력변수들을 연결하는 방정식 또는 모형의 형태로 표현된다. 본 강에서는 회귀모형을 데이터 마이닝에 어떻게 이용하는지 설명한다. 목표변수가 연속형인 경우에 선형회귀모형과 이항형인 경우에 로지스틱회귀모형으로 나누어 살펴본다.

학습목표

선형회귀모형을 이해하고 적용할 수 있다.
로지스틱회귀모형을 이해하고 적용할 수 있다.
회귀모형을 데이터 마이닝에 이용할 수 있다.

주요용어

선형회귀모형 : 연속형인 목표변수와 연속형 또는 범주형 입력변수들 사이의 관계를 나타내는 선형 함수
로지스틱회귀모형 : 목표변수의 값이 1인 확률의 로짓변환와 입력변수들의 선형 함수 관계로 나타내는 모형
로짓변환 : 성공 확률과 실패 확률의 비를 오즈비(odds ratio)라고 할 때, 이 오즈비에 로그(log)를 취한 변환 방법
최소제곱추정법 : 각 관측치로 부터 회귀 직선까지의 수직 거리 제곱의 합을 최소화하는 회귀모수를 찾는 추정법
최대우도추정법 : 우도함수(데이터의 확률함수를 모수 β의 함수로 취급)가 최대가 될 때의 모수의 값을 찾아 이를 추정치로 택하는 방법
이탈도 : 모형의 최대로그우도(maximized log-likelihood) log(LM)에서 포화모형(saturated model)의 최대로그우도 log(LS)를 뺀 것에 –2를 곱한 값

정리하기

회귀모형은 변수들 사이에 함수적 관계를 설명한다. 그 관계는 목표변수와 입력변수들을 연결하는 방정식 또는 모형의 형태로 표현된다.
연속형인 목표변수와 연속형 또는 범주형 입력변수들 사이에 관계를 나타내는 선형함수식을 선형회귀모형이라고 한다.
목표변수의 값이 두 개일 때 그 중에 하나를 취할 확률의 로짓변환과 입력변수들의 선형 함수 관계로 나타내는 식을 로지스틱 회귀모형이라고 한다.
주어진 데이터에 기반하여 얻은 회귀식에 새로 수집한 데이터의 입력변수 값을 대입하여 목표변수의 값을 예측한다.
선형회귀모형을 이용한 모형의 예측력은 평균제곱오차(MSE) 또는 평균절대오차(MAE)로 평가한다.
로지스틱회귀를 이용한 모형의 예측력은 예측정확도, 민감도, 특이도로 평가한다.

'대학교' 카테고리의 다른 글

[회귀모형/메모] 1강. 단순회귀모형(1) (0)	2024.03.24
[데이터마이닝/메모] 3강. 회귀모형 II (0)	2024.03.16
[데이터마이닝/메모] 1강. 데이터마이닝 (0)	2024.03.13
[예측방법론/메모] 1강. 예측의 개요 (0)	2024.02.23
방송대 실습 클라우드 PC - 한글, 어도비 프로그램(포토샵, 프리미어, 에펙 등) , SAS, SPSS 무료 사용 가능 (0)	2024.02.23

[데이터마이닝/메모] 2강. 회귀모형 I

선형회귀모형

로지스틱 회귀모형

'대학교' 카테고리의 다른 글

티스토리툴바