예측하려는 타깃값이 범주형 데이터면 분류문제, 수치형 데이터면 회귀 문제입니다.
분류
분류classification란 어떤 대상을 정해진 범주에 구분해 넣은 작업을 뜻합니다.
머신러닝에서 분류는 주어진 피처에 따라 어떤 대상을 유한한 범주(타깃값)로 구분하는 방법입니다. 여기서 '타깃값은 범주형 데이터'라는 점이 중요합니다. 범주형 데이터는 객관식 문제와 같이 선택지가 있는 값입니다. 개와 고양이를 구분하는 문제, 스팸 메일과 일반 메일을 구분하는 문제, 질병 검사 결과가 양성인지 음성인지 구분하는 문제 등이 모두 분류에 속합니다. 유한한 선택지 중 하나로 구분하면 되니까요. 타깃값이 두 개인 분류를 이진분류, 세개 이상인 분류를 다중분류라고 합니다.
회귀
자연현상이나 사회 현상에서 변수 사이에 관계가 있는 경우가 많습니다. 예를 들어, 학습 시간이 시험 성적에 미치는 영향, 수면의 질이 건강에 미치는 영향, 공장의 재고 수준이 회사 이익에 미치는 영향 등이 있죠. 이때 영향을 미치는 변수를 독립변수라고하고, 양향을 받는 변수를 종속변수라고 합니다. 방금 예에서는 학습시간, 수면의 질, 공장의 재고 수준이 독립변수고, 시험 성적, 건강, 회사 이익이 종속 변수입니다.
회귀regression이란 독립변수와 종속변수 간 관계를 모델링 하는 방법입니다, 회귀가 분류와 다른 점은 종속변수(타깃값)가 범주형 데이터가 아니라는 사실입니다. 회귀 문제에서 '종속변수는 수치형 데이터'입니다.
==> 회귀 평가지표