반응형

목표 인코딩(target encoding, target-based encoding, likelihood encoding)이란 범주형 변수와 대응하는 목표 변수의 값을 이용하는 방법입니다.  

 

범수형 변수의 수준별로 수준의  항목을 목표 변수의 평균값으로 치환하는 처리를 합니다.  예를 들면 범주형 변수에 A라는 항목이 4개 포함되어 각각 1.5, 3.0, 0, 1.2의 outcome이 주어져 있다면 outcome의 평균값이 1.425이기 대문에 범수형 변수 A는 1.425로 값을 치환합니다. 

 

 

tibble(
  feature = "A",
  outcome = c(1.5, 3.0, 0, 1.2)) %>% 
  catto_mean(response = outcome)
## # A tibble: 4 x 2
##   feature outcome
##     <dbl>   <dbl>
## 1    1.42     1.5
## 2    1.42     3  
## 3    1.42     0  
## 4    1.42     1.2

또한 아래처럼 목표 변수가 논리값인 경우는 수치로 변환한 값을 이용합니다(R에서는 TRUE가 1, FALSE가 0입니다).

 

df
## # A tibble: 8 x 3
##   feature outcome     n
##   <chr>     <dbl> <int>
## 1 A             1     4
## 2 A             0     4
## 3 A             0     4
## 4 A             0     4
## 5 B             1     2
## 6 B             0     2
## 7 C             1     2
## 8 C             1     2
df %>% 
  catto_mean(response = outcome)
## # A tibble: 8 x 3
##   feature outcome     n
##     <dbl>   <dbl> <int>
## 1    0.25       1     4
## 2    0.25       0     4
## 3    0.25       0     4
## 4    0.25       0     4
## 5    0.5        1     2
## 6    0.5        0     2
## 7    1          1     2
## 8    1          1     2

목표 인코딩에서는 카테고리 수준마다 데이터 전체의 값을 참조하는 것이 되기 때문에 직접 이용하는 경우는 데이터 누출로 이어질 수 있습니다. 또한 빈도가 낮은 수준이 있는 경우도 과적합의 원인이 될 가능성이 있기 때문에 주의가 필요합니다. 

 

 

 

같이 읽으면 좋은 글

 

 

【총정리】 AI, 머신러닝, 딥러닝 영어

목차 및 찾기 기능(Ctrl + F)을 이용해서 용어를 찾아보세요! 다시 참고하고 싶으신 경우 즐겨찾기에 추가해 두시면 편리합니다. 목차 A absolute value 절대값 accuracy 정확도 AdaBoost 에이다부스트 부스

easyprogramming.tistory.com

 

【AI, ML 용어】Regressor(회귀 변수)란? Feat. Regression

Regressor(회귀 변수)란? - 뜻, 의미 Regressor는 한국어로 번역할 경우 회귀 변수, 회귀자 등으로 표현할 수 있습니다. Regressor의 구체적인 정체는 한국어 번역에도 등장한 것처럼 변수입니다. 변수 중

easyprogramming.tistory.com

 

【IT 용어】 컨버트(convert)의 뜻은?

컨버트(convert)는 변환(하다), 변형(시키다), 교환(하다), 전향(하다), 바꾸다 등의 의미를 가진 영어 단어입니다. IT 분야에서는 데이터나 신호, 프로그램 등을 어떤 형식에서 다른 형식으로 변환하

easyprogramming.tistory.com

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기