본문 바로가기

통계분석11

[군집분석, Clustering] - 비계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리 py-moon.tistory.com 오늘은 군집의 수를 미리 정해놓고 군집을 형성하는 비계층적(분할적) 군집분석에 대해서 정리해 보자. 비계층적 군집분석에서는 K-means 군집분석과 혼합분포 군집분석에 대해서 다룰 예정이다. 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. K-means 비계층적 알고리즘의 단계 군집 수의 설정 각 군집의 중심.. 2023. 1. 16.
[군집분석, Clustering] - 계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리해 보자. 이전엔 교차분석에 대해서 정리해보았다. 교차분석(ChiSquare Test) 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전에 T검정과 분산분석에서는 종속변수가 연속 py-moon.tistory.com 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. 군집화의 단계 특성변수의 선정 유사성의 측정 군집의 도출 해석과 활용 계층적 군집분석을 수행하기 위해 USArrests데이터를 사용한다. 1 2 3 4 5 6 7 8 9.. 2023. 1. 14.
[교차분석, ChiSquare Test] with Python 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전엔 다중 회귀분석과 다중공선성에 대해서 정리해 보았다. 다중 회귀분석 - 다중공선성 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 py-moon.tistory.com 이전에 T검정과 분산분석에서는 종속변수가 연속형 변수였지만 카이제곱 검정은 독립변수, 종속변수 둘 다 범주형 변수인 경우에 사용한다. 카이제곱 검정은 검정의 목적에 따라 3가지 검정으로 분류된다. 관찰빈도가 기대분포를 따르는지 검정하는 경우 -> 적합성 검정 두 개.. 2023. 1. 12.
[다중 회귀분석, Multiple Regression] - 다중공선성 with Python 다중 선형 회귀분석 중에서 필수적으로 해결해야 하는 것인 다중공선성에 대해 정리해보고자 한다. 이 전엔 선형 회귀분석에 대해서 정리해 보았다. 선형 회귀분석(Linear Regression) 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 py-moon.tistory.com 다중공선성 : 다중 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제 단순 선형 회귀분석과 다중 선형 회귀분석의 차이점은 독립변수의 수이다. 단순 선형 회귀분석 -> 독립변수 1개, 종속변수 1개 다중 선형 회귀분석 -> 독립변수 2개 이상, 종속변수 1개 다중 선형 회귀분석에서 다중공선성을 .. 2023. 1. 10.
[선형 회귀분석, Linear Regression] with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치는 영향을 추적해서 식으로 표현하는 회귀분석을 복습해 보자. 이 전엔 이원배치 분산분석(Two-way ANOVA)에 대해서 정리해 보았다. 이원배치 분산분석(Two-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s py-moon.tistory.com 회귀분석의 검토사항 모형이 데이터를 잘 적합하고 있는가? 회귀모형이 통계적으로 유의한가? 모형은 데이터를 얼마나 설명할 수 있는가? 모형 내의 회귀계수는 유의한가? 회귀분석은 kc_house_data를 활용해서 정리하고자 한다.. 2023. 1. 8.
[이원배치 분산분석, Two-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 이원배치 분산분석을 복습해 보자. 이 전엔 일원배치 분산분석(One-way ANOVA)에 대해서 정리해 보았다. 일원배치 분산분석(One-way ANOVA) 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 ( py-moon.tistory.com 기본가정 정규성, 독립성을 만족한다 (아닐 시 Friedman test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 2개 범주형 사후검정 진행 교호작용 효과(두 요인이 동시에 미치는 영향) 이원.. 2023. 1. 6.
[일원배치 분산분석, One-way ANOVA] with Python 두 개 이상의 다수 집단 간 평균은 비교하는 분산분석에서 일원배치 분산분석을 복습해 보자. 이 전엔 독립표본 T-검정에 대해서 정리하면서 복습해 보았다. 독립표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 독립표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨이 부호 순위 검정, 맨휘트니 검정) 등분산성 만족 (아닐 시 Welch`s t-test) 종속 py-moon.tistory.com 기본가정 및 조건 정규성, 독립성을 만족한다 (아닐 시 Kruskal-Wallis test진행) 등분산성을 만족한다 (아닐 시 Welch`s ANOVA진행) 종속변수는 1개 연속형, 독립변수는 1개 범주형 사후검정 진행 주효과(각각의 요인에 의한 효과) 일원배치 분산분석은 iris데이터를 활.. 2023. 1. 2.
[대응표본 T-검정, Paired Samles T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 대응표본 T-검정을 복습해보자. 이 전엔 일표본 T-검정에 대해서 정리해보고 복습해 보았다. 일표본 T-검정 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기 py-moon.tistory.com 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 1개 범주형 짝(개수) 만족 . 1 2 3 4 5 6 import pandas as pd data = {'before':[7,3,4,5,2,1,6,6,5,4], 'after':[8,4,5,6,2,3,6,8,6,5]} data = pd.Data.. 2022. 12. 27.
[일표본 T-검정, One Sample T-Test] with Python 두 집간 간의 평균 차이를 검정하는 T검정에서 일표본 T-검정을 복습해보자. 기본가정 정규성 만족 (아닐 시 윌콕슨의 부호 순위 검정) 종속변수는 연속형, 독립변수 범주형 검증하고자 하는 기준값이 존재 1 2 3 4 import pandas as pd cats = pd.read_csv('data/cats.csv') cats.head() cs > 데이터를 읽어와서 head를 찍어본다. 1 2 3 4 5 6 Sex Bwt Hwt 0 F 2.0 7.0 1 F 2.0 7.4 2 F 2.0 9.5 3 F 2.1 7.2 4 F 2.1 7.3 cs > 세 개의 컬럼으로 이루어진 데이터셋인 것을 확인할 수 있다 1 2 3 4 5 import scipy.stats as stats from scipy.stats impor.. 2022. 12. 25.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.