Mining Algorithm
- 공분산(Covariance)
- 공: co~ 여러
- 분산: 분포 (확률 변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지)
- 공분산: 2개의 확률변수의 선형 관계를 나타내는 값 e.g. 수학을 잘하면 영어도 잘한다
- 상관관계 분석, 상관계수(Correlation)
- 두 변수 사이의 관계의 거리와 방향을 파악하는 통계 기법
- 상관계수(correlation coefficient): 상관관계의 강도를 나태낸 수치 (-1에서 1사이의 값을 가짐)
- 양(1): 두 관계 비례
- 음(-1): 두 관계 반비계
- 0: 서로 관계없음

- 기준: 정해진 것은 없으나 대략 아래와같이 분류
- 상관관계 분석 종류
- Pearson Correlation Coefficient(피어슨 상관계수)
- 두 변수 간의 선형 관계를 측정
- 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를 의미
- 예: pearsonr 함수 (Python의 scipy.stats 라이브러리에서 제공)
- Spearman's Rank Correlation Coefficient(스피어만 상관계수)
- 두 변수 간의 순위 상관관계를 측정
- 피어슨 상관계수와 달리 데이터가 반드시 정규 분포를 따르지 않아도 됨
- 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 순위 상관관계를, -1에 가까울수록 강한 역순위 상관관계를 의미
- Kendall's Tau Correlation Coefficient(켄달의 타우 상관계수)
- 두 변수 간의 순위 상관관계를 측정
- 스피어만 상관계수와 유사하지만, 다른 계산 방식을 사용하여 더 견고한 순위 상관관계를 제공
- 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 순위 상관관계를, -1에 가까울수록 강한 역순위 상관관계를 의미
- Pearson Correlation Coefficient(피어슨 상관계수)
- 회귀계수 (Regression Coefficient)
- 두 변수만 가지고 상관계수를 알 수는 없음 (선향이 아니고서는)
- 여러 변수에 대한 관계를 판단하는 통계 기법 (변수간의 인과관계를 파악)
- 1개 이상의 독립변수(x)들이 종속변수(y)에 미치는 영향 분석
- 독립변수가 종속 변수에 미치는 영향의 크기와 방향을 나타내는 값
- 모델 적합도 평가
- 회귀 분석에서는 모델의 적합도를 평가하기 위해 SSE, SST, SSR을 사용
- 데이터의 전체 변동을 나타냄
- 모델이 설명하지 못한 종속 변수의 변동
- SSE (Sum of Squared Errors, 오차 제곱합):
- SST (Total Sum of Squares, 총 제곱합):
- 종속 변수의 전체 변동.
- 실제 값과 평균 값의 차이를 제곱한 후 합산.
-
- SSR (Sum of Squared Regression, 회귀 제곱합):
- 모델이 설명한 종속 변수의 변동.
- 예측 값과 평균 값의 차이를 제곱한 후 합산.

실습) 상관/ 회귀계수
실습) 회귀/ 결정계수 계산
SVM (Support Vector Machine)
실습
svm (Titanic)
QUIZ
Q) 아래 코드에서 만들어진 Neural-Net의 노드 개수로 알맞은 것은?
model = tf.keras.models.Sequential([
tf.keras.layers.Dense(64, input_shape=(100,)),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(5, activation='softmax') ])
tf.keras.layers.Dense(64, input_shape=(100,)),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(5, activation='softmax') ])
A) 입력층: 100개 / 은닉층: 각각 64개, 128개 / 출력층: 5개
- 첫 번째 Dense 층:
- 노드 개수: 64
- 입력 형태: (100,) (즉, 입력 벡터의 길이는 100)
- 이 층은 입력 데이터를 받아서 64개의 노드로 변환
- 이것은 첫 번째 은닉층
- 두 번째 Dense 층:
- 노드 개수: 128
- 활성화 함수: ReLU
- 첫 번째 은닉층의 64개의 노드로부터 입력을 받아 128개의 노드로 변환
- 이것은 두 번째 은닉층
- 세 번째 Dense 층:
- 노드 개수: 5
- 활성화 함수: Softmax
- 두 번째 은닉층의 128개의 노드로부터 입력을 받아 5개의 노드로 변환
- 이것은 출력층