24.06.28 Mining Algorithm

Mining Algorithm

공분산(Covariance)
- 공: co~ 여러
- 분산: 분포 (확률 변수가 기대값으로부터 얼마나 떨어진 곳에 분포하는지)
- 공분산: 2개의 확률변수의 선형 관계를 나타내는 값 e.g. 수학을 잘하면 영어도 잘한다
상관관계 분석, 상관계수(Correlation)
- 두 변수 사이의 관계의 거리와 방향을 파악하는 통계 기법
- 상관계수(correlation coefficient): 상관관계의 강도를 나태낸 수치 (-1에서 1사이의 값을 가짐)
- 양(1): 두 관계 비례
- 음(-1): 두 관계 반비계
- 0: 서로 관계없음

기준: 정해진 것은 없으나 대략 아래와같이 분류
상관관계 분석 종류
1. Pearson Correlation Coefficient(피어슨 상관계수)
  - 두 변수 간의 선형 관계를 측정
  - 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 양의 상관관계를, -1에 가까울수록 강한 음의 상관관계를 의미
  - 예: pearsonr 함수 (Python의 scipy.stats 라이브러리에서 제공)
2. Spearman's Rank Correlation Coefficient(스피어만 상관계수)
  - 두 변수 간의 순위 상관관계를 측정
  - 피어슨 상관계수와 달리 데이터가 반드시 정규 분포를 따르지 않아도 됨
  - 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 순위 상관관계를, -1에 가까울수록 강한 역순위 상관관계를 의미
3. Kendall's Tau Correlation Coefficient(켄달의 타우 상관계수)
  - 두 변수 간의 순위 상관관계를 측정
  - 스피어만 상관계수와 유사하지만, 다른 계산 방식을 사용하여 더 견고한 순위 상관관계를 제공
  - 값의 범위는 -1에서 1까지이며, 1에 가까울수록 강한 순위 상관관계를, -1에 가까울수록 강한 역순위 상관관계를 의미

회귀계수 (Regression Coefficient)
- 두 변수만 가지고 상관계수를 알 수는 없음 (선향이 아니고서는)
- 여러 변수에 대한 관계를 판단하는 통계 기법 (변수간의 인과관계를 파악)
- 1개 이상의 독립변수(x)들이 종속변수(y)에 미치는 영향 분석
- 독립변수가 종속 변수에 미치는 영향의 크기와 방향을 나타내는 값
모델 적합도 평가
- 회귀 분석에서는 모델의 적합도를 평가하기 위해 SSE, SST, SSR을 사용
- 데이터의 전체 변동을 나타냄
- 모델이 설명하지 못한 종속 변수의 변동
- SSE (Sum of Squared Errors, 오차 제곱합):
- SST (Total Sum of Squares, 총 제곱합):
  - 종속 변수의 전체 변동.
  - 실제 값과 평균 값의 차이를 제곱한 후 합산.
- - SSR (Sum of Squared Regression, 회귀 제곱합):
  - 모델이 설명한 종속 변수의 변동.
  - 예측 값과 평균 값의 차이를 제곱한 후 합산.

실습) 상관/ 회귀계수

실습) 회귀/ 결정계수 계산

SVM (Support Vector Machine)

실습

svm (Titanic)

QUIZ

Q) 아래 코드에서 만들어진 Neural-Net의 노드 개수로 알맞은 것은?

model = tf.keras.models.Sequential([
tf.keras.layers.Dense(64, input_shape=(100,)),
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(5, activation='softmax') ])

A) 입력층: 100개 / 은닉층: 각각 64개, 128개 / 출력층: 5개

첫 번째 Dense 층:
- 노드 개수: 64
- 입력 형태: (100,) (즉, 입력 벡터의 길이는 100)
- 이 층은 입력 데이터를 받아서 64개의 노드로 변환
- 이것은 첫 번째 은닉층
두 번째 Dense 층:
- 노드 개수: 128
- 활성화 함수: ReLU
- 첫 번째 은닉층의 64개의 노드로부터 입력을 받아 128개의 노드로 변환
- 이것은 두 번째 은닉층
세 번째 Dense 층:
- 노드 개수: 5
- 활성화 함수: Softmax
- 두 번째 은닉층의 128개의 노드로부터 입력을 받아 5개의 노드로 변환
- 이것은 출력층

저작자표시 비영리

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Happy Life

24.06.28 Mining Algorithm

Mining Algorithm

실습) 상관/ 회귀계수

실습) 회귀/ 결정계수 계산

SVM (Support Vector Machine)

실습

svm (Titanic)

QUIZ

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역