본문 바로가기

Python26

[교차분석, ChiSquare Test] with Python 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전엔 다중 회귀분석과 다중공선성에 대해서 정리해 보았다. 다중 회귀분석 - 다중공선성 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 py-moon.tistory.com 이전에 T검정과 분산분석에서는 종속변수가 연속형 변수였지만 카이제곱 검정은 독립변수, 종속변수 둘 다 범주형 변수인 경우에 사용한다. 카이제곱 검정은 검정의 목적에 따라 3가지 검정으로 분류된다. 관찰빈도가 기대분포를 따르는지 검정하는 경우 -> 적합성 검정 두 개.. 2023. 1. 12.
[다중 회귀분석, Multiple Regression] - 다중공선성 with Python 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 이 전엔 선형 회귀분석에 대해서 정리해 보았다. 선형 회귀분석(Linear Regression) 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 py-moon.tistory.com 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 회귀분석과 다중 선형 회귀분석의 차이점은 독립변수의 수이다. 단순 선형 회귀분석 -> 독립변수 1개, 종속변수 1개 다중 선형 회귀분석 -> 독립변수 2개 이상, 종속변수 1개 다중 선형 회귀분석에서 다중공선성을 .. 2023. 1. 10.
[선형 회귀분석, Linear Regression] with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 이 전엔 이원배치 분산분석(Two-way ANOVA)에 대해서 정리해 보았다. 이원배치 분산분석(Two-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s py-moon.tistory.com 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 통계적으로 유의한가? 모형은 데이터를 얼마나 설명할 수 있는가? 모형 내의 회귀계수는 유의한가? 회귀분석은 kc_house_data를 활용해서 정리하고자 한다.. 2023. 1. 8.
[이원배치 분산분석, Two-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 이 전엔 일원배치 분산분석(One-way ANOVA)에 대해서 정리해 보았다. 일원배치 분산분석(One-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 ( py-moon.tistory.com 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 2개 범주형 사후검정 진행 교호작용 효과(두 요인이 동시에 미치는 영향) 이원.. 2023. 1. 6.
[일원배치 분산분석, One-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 이 전엔 독립표본 T-검정에 대해서 정리하면서 복습해 보았다. 독립표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속 py-moon.tistory.com 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 1개 범주형 사후검정 진행 주효과(각각의 요인에 의한 효과) 일원배치 분산분석은 iris데이터를 활.. 2023. 1. 2.
[DACON] - 타이타닉 생존 예측(분류) with Python 분석 진행 기간 : 2022.12.21 ~ 2022.12.31 INTRO. 타이타닉 생존자 예측하는 분석과제는 올해 초에 캐글을 처음 접하면서 처음 해본 분석과제로 기억한다. 지금 하는 분석과의 차이점이 있다면 그땐 주로 베이스라인 코드를 보며 배우는 성격이 강했다면, 지금은 대부분 내 머릿속에서 나오는 아이디어로 이루어져 있다. 물론 아직 모르는 부분이 많기 때문에 구글링은 필수적이다. 너무 본인만의 방식을 고집하는 것은 좋지 않기 때문이다. 이 전글에선 DACON - 서울시 따릉이 대여량 예측 분석과제를 수행하고 정리해 보았다. DACON - 서울시 따릉이 대여량 예측(회귀) 이 전엔 DACON-와인 품질 분류 분석과제를 수행해보고 복습해보았다. DACON - 와인 품질 분류(분류) 두 달 전쯤 처음.. 2022. 12. 31.
[독립표본 T-검정, Independent Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 이 전엔 대응표본 T-검정에 대해서 정리하고 복습해 보았다. 대응표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속변수는 연속형, 독립변수는 1개 범주형 독립표본 T검정에 대한 정리는 고양이에 대한 데이터를 통해 진행해 보겠다. 1 2 3 4 import pandas as pd cats = pd.rea.. 2022. 12. 29.
[대응표본 T-검정, Paired Samles T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 이 전엔 일표본 T-검정에 대해서 정리해보고 복습해 보았다. 일표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기 py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . 1 2 3 4 5 6 import pandas as pd data = {'before':[7,3,4,5,2,1,6,6,5,4], 'after':[8,4,5,6,2,3,6,8,6,5]} data = pd.Data.. 2022. 12. 27.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 5편 시각화 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전에서 진행한 모델링에 관한 내용을 다루었다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 py-moon.tistory.com 모델링에서 총 7가지의 모델을 가지고 cross_val_score을 사용해서 모델을 학습시키고 성능을 출력한 다음, 비교해 본 결과로 로지스틱 회귀모델이 가장 안정적이고도 높은 성능을 내주어서 최종 모델로 선정하게 되었다. 이번 글에서 정리 할 내용은 분석과정에.. 2022. 12. 23.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대 py-moon.tistory.com 앞서 정리한 글에서는 모델링하기 전 진행한 전처리 과정이다. 우리는 모델링 과정에서 여러 분류모델을 비교분석하고, 가장 성능이 좋았던 분류 모델을 선정하는 과정을 거쳤다. 각각의 분류모델에 대해서 어떤 학습을 거쳤는지와 선정한 모델에 대한 이유.. 2022. 12. 21.