본문 바로가기

분류 전체보기44

[DACON] - 영화 관객수 예측(회귀) with Python 분석 진행 기간 : 2022.12.30 ~ 2023.01.16 INTRO. 최근 통계분석에 정신없이 시간을 보내며 한동안 분석과제에 소홀했다는 생각이 들었다. 이 영화 관객수 예측 과제는 몇 가지 변수의 데이터가 분석에 다루기 까다로운 형태로 되어있어서 데이터 전처리와 EDA에서 가장 많은 시간을 보낸 과제이다. 그래서인지 한 번에 끝내지 않고 긴 시간에 나누어 분석을 진행했다는 핑계로 정리를 하고자 한다. 이전 분석과제에서는 DACON - FIFA 선수 이적료 예측 분석을 진행하며 정리해 보았다. DACON - FIFA 선수 이적료 예측(회귀) with Python INTRO. 두 달 전에 FIFA선수 이적료 예측 문제를 풀어본 경험이 있었다. 하지만 이번 기회에 처음으로 돌아가 두 달 전에 놓친 부분.. 2023. 1. 22.
[시계열 분석, Timeseries Analysis] - 시계열 분해, 정상성 with Python 이번엔시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전글에서 연관분석(지지도, 신뢰도, 향상도)에 대해서 다뤄보며 정리해 봤다. 연관분석(Association Analysis) with Python 사건의 연관규칙을 찾아내는 연관분석에 대해서 정리해 보자. 이 전글에선 군집분석 중에서 비계층적 군집분석(K-means, 혼합분포)에 대해서 정리하며 다뤄보았다. 군집분석(Clustering) - 비계층적 py-moon.tistory.com 시계열 분석 안에서 시계열 분해는 추세(Trend), 계절성(Seasonality), 잔차(Residual)로 분해하는 기법이다. 여기서 추세와 계절성은 시간의 요인이고, 잔차(불규칙요인)는 외부요인이다. a.. 2023. 1. 20.
[연관분석, Association Analysis] with Python 사건의 연관규칙을 찾아내는 연관분석에 대해서 정리해 보자. 이 전글에선 군집분석 중에서 비계층적 군집분석(K-means, 혼합분포)에 대해서 정리하며 다뤄보았다. 군집분석(Clustering) - 비계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 py-moon.tistory.com 연관분석은 소비자의 행동패턴을 사건의 연관규칙으로 분석하기도 한다. 인스타, 유튜브, OTT플랫폼에서 알고리즘으로 인한 추천 게시물을 받아본 적이 있을 것이다. 이처럼 게시물을 추천해 주는 알고리즘의 기반이 되는 연관분석의 개념 중 지지도(Support), 신뢰도.. 2023. 1. 18.
[군집분석, Clustering] - 비계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리 py-moon.tistory.com 오늘은 군집의 수를 미리 정해놓고 군집을 형성하는 비계층적(분할적) 군집분석에 대해서 정리해 보자. 비계층적 군집분석에서는 K-means 군집분석과 혼합분포 군집분석에 대해서 다룰 예정이다. 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. K-means 비계층적 알고리즘의 단계 군집 수의 설정 각 군집의 중심.. 2023. 1. 16.
[군집분석, Clustering] - 계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리해 보자. 이전엔 교차분석에 대해서 정리해보았다. 교차분석(ChiSquare Test) 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전에 T검정과 분산분석에서는 종속변수가 연속 py-moon.tistory.com 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. 군집화의 단계 특성변수의 선정 유사성의 측정 군집의 도출 해석과 활용 계층적 군집분석을 수행하기 위해 USArrests데이터를 사용한다. 1 2 3 4 5 6 7 8 9.. 2023. 1. 14.
[교차분석, ChiSquare Test] with Python 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전엔 다중 회귀분석과 다중공선성에 대해서 정리해 보았다. 다중 회귀분석 - 다중공선성 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 py-moon.tistory.com 이전에 T검정과 분산분석에서는 종속변수가 연속형 변수였지만 카이제곱 검정은 독립변수, 종속변수 둘 다 범주형 변수인 경우에 사용한다. 카이제곱 검정은 검정의 목적에 따라 3가지 검정으로 분류된다. 관찰빈도가 기대분포를 따르는지 검정하는 경우 -> 적합성 검정 두 개.. 2023. 1. 12.
[다중 회귀분석, Multiple Regression] - 다중공선성 with Python 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 이 전엔 선형 회귀분석에 대해서 정리해 보았다. 선형 회귀분석(Linear Regression) 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 py-moon.tistory.com 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 회귀분석과 다중 선형 회귀분석의 차이점은 독립변수의 수이다. 단순 선형 회귀분석 -> 독립변수 1개, 종속변수 1개 다중 선형 회귀분석 -> 독립변수 2개 이상, 종속변수 1개 다중 선형 회귀분석에서 다중공선성을 .. 2023. 1. 10.
[선형 회귀분석, Linear Regression] with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 이 전엔 이원배치 분산분석(Two-way ANOVA)에 대해서 정리해 보았다. 이원배치 분산분석(Two-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s py-moon.tistory.com 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 통계적으로 유의한가? 모형은 데이터를 얼마나 설명할 수 있는가? 모형 내의 회귀계수는 유의한가? 회귀분석은 kc_house_data를 활용해서 정리하고자 한다.. 2023. 1. 8.
[이원배치 분산분석, Two-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 이 전엔 일원배치 분산분석(One-way ANOVA)에 대해서 정리해 보았다. 일원배치 분산분석(One-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 ( py-moon.tistory.com 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 2개 범주형 사후검정 진행 교호작용 효과(두 요인이 동시에 미치는 영향) 이원.. 2023. 1. 6.
[DACON] - FIFA 선수 이적료 예측(회귀) with Python INTRO. 두 달 전에 FIFA선수 이적료 예측 문제를 풀어본 경험이 있었다. 하지만 이번 기회에 처음으로 돌아가 두 달 전에 놓친 부분이 없었는지를 확인하고 코드를 수정해 보았다. 올린 코드에는 df.head(), df.info(), df.describe(), df.shape, df.isnull(), 등등 데이터 이해를 위한 기초 통계량이나 정보에 대해서 확인하는 코드가 생략이 되어있다. 난 이러한 부분에 대해선 전처리나 EDA를 진행하면서도 수시로 찍어보면서 확인해야 하는 부분이라고 생각한다. 상기 이유로 넣지 않았다. 이 전글에선 DACON-타이타닉 생존 예측 분석과제를 수행하고 정리해 보며 다뤄보았다. DACON - 타이타닉 생존 예측(분류) 분석 진행 기간 : 2022.12.21 ~ 2022... 2023. 1. 4.