본문 바로가기

가설검정8

[교차분석, ChiSquare Test] with Python 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전엔 다중 회귀분석과 다중공선성에 대해서 정리해 보았다. 다중 회귀분석 - 다중공선성 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 py-moon.tistory.com 이전에 T검정과 분산분석에서는 종속변수가 연속형 변수였지만 카이제곱 검정은 독립변수, 종속변수 둘 다 범주형 변수인 경우에 사용한다. 카이제곱 검정은 검정의 목적에 따라 3가지 검정으로 분류된다. 관찰빈도가 기대분포를 따르는지 검정하는 경우 -> 적합성 검정 두 개.. 2023. 1. 12.
[이원배치 분산분석, Two-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 이 전엔 일원배치 분산분석(One-way ANOVA)에 대해서 정리해 보았다. 일원배치 분산분석(One-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 ( py-moon.tistory.com 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 2개 범주형 사후검정 진행 교호작용 효과(두 요인이 동시에 미치는 영향) 이원.. 2023. 1. 6.
[일원배치 분산분석, One-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 이 전엔 독립표본 T-검정에 대해서 정리하면서 복습해 보았다. 독립표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속 py-moon.tistory.com 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 1개 범주형 사후검정 진행 주효과(각각의 요인에 의한 효과) 일원배치 분산분석은 iris데이터를 활.. 2023. 1. 2.
[독립표본 T-검정, Independent Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 이 전엔 대응표본 T-검정에 대해서 정리하고 복습해 보았다. 대응표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속변수는 연속형, 독립변수는 1개 범주형 독립표본 T검정에 대한 정리는 고양이에 대한 데이터를 통해 진행해 보겠다. 1 2 3 4 import pandas as pd cats = pd.rea.. 2022. 12. 29.
[대응표본 T-검정, Paired Samles T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 이 전엔 일표본 T-검정에 대해서 정리해보고 복습해 보았다. 일표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기 py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . 1 2 3 4 5 6 import pandas as pd data = {'before':[7,3,4,5,2,1,6,6,5,4], 'after':[8,4,5,6,2,3,6,8,6,5]} data = pd.Data.. 2022. 12. 27.
[일표본 T-검정, One Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기준값이 존재 1 2 3 4 import pandas as pd cats = pd.read_csv('data/cats.csv') cats.head() cs > 데이터를 읽어와서 head를 찍어본다. 1 2 3 4 5 6 Sex Bwt Hwt 0 F 2.0 7.0 1 F 2.0 7.4 2 F 2.0 9.5 3 F 2.1 7.2 4 F 2.1 7.3 cs > 세 개의 컬럼으로 이루어진 데이터셋인 것을 확인할 수 있다 1 2 3 4 5 import scipy.stats as stats from scipy.stats impor.. 2022. 12. 25.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음 보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주제였다. 우리는 원작이라는 키워드에 초점을 두기로 했다. 따라서, 우리 주제는 원작과 원작을 각색한 공연과의 상관관계 도출 및 원작을 기반으로 각색 공연 관객 수 예측이다. 가설1 : 원작이 존재하는 연극이 그렇지 않은 연극에 비해 높은 흥행을 기록할 것이다. 여기에선 가설1에 대한 내용만을 다룰 것이다. 데이터가 10G에 가까웠기 때문에 데이터를 다루기가 매우 부담스러웠다. 우리는 데이터를 연도별로(2019, 2020, 2021, 2022) 나누어서 따로 작업하고 나중에 합치기로 했다. 1 2 3.. 2022. 12. 16.