본문 바로가기

분류 전체보기44

[일원배치 분산분석, One-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 이 전엔 독립표본 T-검정에 대해서 정리하면서 복습해 보았다. 독립표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속 py-moon.tistory.com 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 1개 범주형 사후검정 진행 주효과(각각의 요인에 의한 효과) 일원배치 분산분석은 iris데이터를 활.. 2023. 1. 2.
[DACON] - 타이타닉 생존 예측(분류) with Python 분석 진행 기간 : 2022.12.21 ~ 2022.12.31 INTRO. 타이타닉 생존자 예측하는 분석과제는 올해 초에 캐글을 처음 접하면서 처음 해본 분석과제로 기억한다. 지금 하는 분석과의 차이점이 있다면 그땐 주로 베이스라인 코드를 보며 배우는 성격이 강했다면, 지금은 대부분 내 머릿속에서 나오는 아이디어로 이루어져 있다. 물론 아직 모르는 부분이 많기 때문에 구글링은 필수적이다. 너무 본인만의 방식을 고집하는 것은 좋지 않기 때문이다. 이 전글에선 DACON - 서울시 따릉이 대여량 예측 분석과제를 수행하고 정리해 보았다. DACON - 서울시 따릉이 대여량 예측(회귀) 이 전엔 DACON-와인 품질 분류 분석과제를 수행해보고 복습해보았다. DACON - 와인 품질 분류(분류) 두 달 전쯤 처음.. 2022. 12. 31.
[독립표본 T-검정, Independent Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 이 전엔 대응표본 T-검정에 대해서 정리하고 복습해 보았다. 대응표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속변수는 연속형, 독립변수는 1개 범주형 독립표본 T검정에 대한 정리는 고양이에 대한 데이터를 통해 진행해 보겠다. 1 2 3 4 import pandas as pd cats = pd.rea.. 2022. 12. 29.
[대응표본 T-검정, Paired Samles T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 이 전엔 일표본 T-검정에 대해서 정리해보고 복습해 보았다. 일표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기 py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . 1 2 3 4 5 6 import pandas as pd data = {'before':[7,3,4,5,2,1,6,6,5,4], 'after':[8,4,5,6,2,3,6,8,6,5]} data = pd.Data.. 2022. 12. 27.
[일표본 T-검정, One Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기준값이 존재 1 2 3 4 import pandas as pd cats = pd.read_csv('data/cats.csv') cats.head() cs > 데이터를 읽어와서 head를 찍어본다. 1 2 3 4 5 6 Sex Bwt Hwt 0 F 2.0 7.0 1 F 2.0 7.4 2 F 2.0 9.5 3 F 2.1 7.2 4 F 2.1 7.3 cs > 세 개의 컬럼으로 이루어진 데이터셋인 것을 확인할 수 있다 1 2 3 4 5 import scipy.stats as stats from scipy.stats impor.. 2022. 12. 25.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 5편 시각화 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전에서 진행한 모델링에 관한 내용을 다루었다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 py-moon.tistory.com 모델링에서 총 7가지의 모델을 가지고 cross_val_score을 사용해서 모델을 학습시키고 성능을 출력한 다음, 비교해 본 결과로 로지스틱 회귀모델이 가장 안정적이고도 높은 성능을 내주어서 최종 모델로 선정하게 되었다. 이번 글에서 정리 할 내용은 분석과정에.. 2022. 12. 23.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대 py-moon.tistory.com 앞서 정리한 글에서는 모델링하기 전 진행한 전처리 과정이다. 우리는 모델링 과정에서 여러 분류모델을 비교분석하고, 가장 성능이 좋았던 분류 모델을 선정하는 과정을 거쳤다. 각각의 분류모델에 대해서 어떤 학습을 거쳤는지와 선정한 모델에 대한 이유.. 2022. 12. 21.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 py-moon.tistory.com 앞선 글에서 두 가지의 가설을 검정하였다. 첫 번째 가설 : 각색 여부에 따른 연극 관객 수의 평균 차이가 존재할까? 결과는 그 평균의 차이가 유의하지 않다는 것. 두 번째 가설 : 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간의 상관관계가 존재할까? .. 2022. 12. 20.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.
내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 쓰는 코드들이고, 분명한 건 이 글은 내가 데이터분석을 거듭할수록 수정의 여지가 존재하는 것이다. 아는 것보다 알아야 할 것들이 많은 나에겐 공부해야 할 것들이 많은 것은 매 번 분석을 진행하면서 느끼는 부분이다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 전처리 과정에서 필요한 코드를 미리 가져온다. > 전처리 안에서도 다양한 카테고리들이 존재하지만, 굳이 나누진 않겠다. > 사용목적, 상.. 2022. 12. 17.