본문 바로가기

전체 글

(33)
24.05.27 알고리즘 개념(Decision Tree) Algorithm 종류Decision TreeClassfication/ Regression 모두 가능최대 장점: 미리 예측할 수 있음 (초반에 많이 사용) = set of  rules(일련의 규칙)을 알려줌e.g. 알파고의 경우 "여기에 둬라"라는 답만 줄뿐, "왜" 인지에 대해서는 답을 못주지만, Decision Tree의 경우 이유를 알려줌(규칙 제공)Classification TreeClassify or predict an outcome based on a set of predictorsThe output is a set of rulesTerminology CART(classification and regression tree --> Decision tree의 종류)Advatages- Normali..
24.05.24 통계 / scaling / data split Today's study통계scaling Data split (test/ train data로 나누기)통계적 수치 이해하기분산/ 표준편차표본에 대한 표준편차의 경우 분산에 n이 아닌 n-1을 나눠준다 (자유도) (모집단의 표준편차는 분산에 n을 나눠줌)correlation(상관계수) 두 변수의 관계를 수치화 한 것상관계수는 -1과 1사이의 값을 가짐1이면 양의 관계/ -1이면 음의 관계0에 가까울 수록 선형적인 관계가 아님numerical(수치) 데이터는 --> Pearson 상관계수 (일반적으로 상관관계 봤어? 하면 이것!) numerial or categorical 데이터는 --> Spearman 상관계수로 두 데이터 관계를 구할 수 있음df.corr()에서 shift+tap 누르고 보면 method..
24.05.23 데이터 시각화 Today's study데이터 시각화 (그래프 그리기)데이터 시각화 데이터가 가지고 있는 정보를 시각적으로 표현데이터 분석의 초기과정에서 유용한 탐색적 데이터분석(exploratory data analysis, EDA) 도구로 사용 필요한 이유데이터의 기본적인 상태확인: 통계량, 결측치, 이상치 등 확인분석을 위한 기준(가정)을 세우는데 도움이 됨최종 결과를 효과적으로 표현, 전달Pandas를 사용하여 다중 산점도(scatter plots)를 생성하는 방법fig와 ax는 각각 figure와 axes 객체를 의미plt.subplots() 함수를 사용하여 5x5 인치 크기의 그래프를 생성ax.scatter()는 산점도를 그리는 함수datasaurus[datasaurus["dataset"] == "dino"]..