본문 바로가기

TIL/Machine learning

(7)
24.06.11 Review (Sampling/Preparation/K-NN/Model Evaluation) Data Sampling 단순 무작위 samplingimport numpy as npimport pandas as pd# 임의의 데이터 생성data = pd.DataFrame({    'id': range(1, 101),  # 1부터 100까지의 id    'value': np.random.rand(100)  # 임의의 값})# 단순 무작위 샘플링으로 10개의 샘플 선택sample_random = data.sample(n=10)print(sample_random)계통 sampling# 계통 샘플링을 위한 간격(k) 계산k = len(data) // 10  # 예를 들어, 전체 데이터에서 10개의 샘플을 선택하고자 할 때의 간격# 시작점을 무작위로 선택start = np.random.randint(0, k..
24.06.10 Review (Summary/ Linear Regression with Pytorch) Overall Load MapOverall process for data analysisMining Algorism(Machine model)데이터 유형Tips자기만의 EDA code를 짜두고 잘 정리해 두기Model에 따라 돌려본 hyperparameter, 변수(중요도가 높은 기준 등의 다양한 조합을 했을 때 뭘 선택했는지), 데이터분할방식, 훈련세트비율, scaling 등 모두 기록해두면서 모델 성능을 관리하기 --> 여러번 수행했을 때 그냥 pass하지 말고 분석하기e.g. 아래 예시 Linear Regression with PytorchLinear Regression독립변수들과 종속변수 간의 관계를 예측할 때, 그 사이의 관계를 선형(1차 함수)으로 가정하고 모델링하는 지도학습 알고리즘Pytor..
24.05.28 Ensemble model (Bagging/ Random tree) Cross validationstratifiedKFold()Grid Search model parameter: 일반적인 parameter 의미. 모델이 학습하면서 변화하게되는 값. 딥러닝 모델의 경우 가중치가 파라미터하이퍼 parameter: 매개변수. 모델의 학습 전에 설정해 주는 값. 아무런 설정도 하지않으면 기본값(default)로 학습하게 됨Ensemble Learning (앙상블 model) 1. Bagging(Bootstrapp Aggregating)Each member of the ensemble is constructed from a different training datasetEach dataset is generated by sampling from the total N data ex..
24.05.27 알고리즘 개념(Decision Tree) Algorithm 종류Decision TreeClassfication/ Regression 모두 가능최대 장점: 미리 예측할 수 있음 (초반에 많이 사용) = set of  rules(일련의 규칙)을 알려줌e.g. 알파고의 경우 "여기에 둬라"라는 답만 줄뿐, "왜" 인지에 대해서는 답을 못주지만, Decision Tree의 경우 이유를 알려줌(규칙 제공)Classification TreeClassify or predict an outcome based on a set of predictorsThe output is a set of rulesTerminology CART(classification and regression tree --> Decision tree의 종류)Advatages- Normali..
24.05.24 통계 / scaling / data split Today's study통계scaling Data split (test/ train data로 나누기)통계적 수치 이해하기분산/ 표준편차표본에 대한 표준편차의 경우 분산에 n이 아닌 n-1을 나눠준다 (자유도) (모집단의 표준편차는 분산에 n을 나눠줌)correlation(상관계수) 두 변수의 관계를 수치화 한 것상관계수는 -1과 1사이의 값을 가짐1이면 양의 관계/ -1이면 음의 관계0에 가까울 수록 선형적인 관계가 아님numerical(수치) 데이터는 --> Pearson 상관계수 (일반적으로 상관관계 봤어? 하면 이것!) numerial or categorical 데이터는 --> Spearman 상관계수로 두 데이터 관계를 구할 수 있음df.corr()에서 shift+tap 누르고 보면 method..
24.05.23 데이터 시각화 Today's study데이터 시각화 (그래프 그리기)데이터 시각화 데이터가 가지고 있는 정보를 시각적으로 표현데이터 분석의 초기과정에서 유용한 탐색적 데이터분석(exploratory data analysis, EDA) 도구로 사용 필요한 이유데이터의 기본적인 상태확인: 통계량, 결측치, 이상치 등 확인분석을 위한 기준(가정)을 세우는데 도움이 됨최종 결과를 효과적으로 표현, 전달Pandas를 사용하여 다중 산점도(scatter plots)를 생성하는 방법fig와 ax는 각각 figure와 axes 객체를 의미plt.subplots() 함수를 사용하여 5x5 인치 크기의 그래프를 생성ax.scatter()는 산점도를 그리는 함수datasaurus[datasaurus["dataset"] == "dino"]..
24.05.22 머신러닝 개념 및 이상치/결측치 해결 Today's studyMachine learing 개념Machince learining 모델링 과정 (데이터 준비)1) 데이터전처리 - 결측치 해결하기 (Null 값 제거 등) - 이상치 해결하기 (튀는 값 제거 등)... Maching learning 작업순서1. 문제정의     - 머신러닝으로 풀 수 있는 문제가 맞는지 확인    - 분류/ 회귀/ 예측/ 이상값감지/ 그룹화/ 강화학습 중 어디 속하는지 확인2. 데이터 준비    - 데이터 수집/ 데이터 전처리/ 데이터 추가3. 알고리즘 선택 4. 모델학습5. 모델 평가    - 언더피팅/ 오버피팅/ 모델 용량/ 평가지표 Data typeCategorical data Nominal data- 비교(equality)- 최빈값Ordinal data- 비..