본문 바로가기

내가 하는 데이터분석/내가 했던 공모전5

공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 5편 시각화 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전에서 진행한 모델링에 관한 내용을 다루었다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 py-moon.tistory.com 모델링에서 총 7가지의 모델을 가지고 cross_val_score을 사용해서 모델을 학습시키고 성능을 출력한 다음, 비교해 본 결과로 로지스틱 회귀모델이 가장 안정적이고도 높은 성능을 내주어서 최종 모델로 선정하게 되었다. 이번 글에서 정리 할 내용은 분석과정에.. 2022. 12. 23.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대 py-moon.tistory.com 앞서 정리한 글에서는 모델링하기 전 진행한 전처리 과정이다. 우리는 모델링 과정에서 여러 분류모델을 비교분석하고, 가장 성능이 좋았던 분류 모델을 선정하는 과정을 거쳤다. 각각의 분류모델에 대해서 어떤 학습을 거쳤는지와 선정한 모델에 대한 이유.. 2022. 12. 21.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 py-moon.tistory.com 앞선 글에서 두 가지의 가설을 검정하였다. 첫 번째 가설 : 각색 여부에 따른 연극 관객 수의 평균 차이가 존재할까? 결과는 그 평균의 차이가 유의하지 않다는 것. 두 번째 가설 : 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간의 상관관계가 존재할까? .. 2022. 12. 20.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음 보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주제였다. 우리는 원작이라는 키워드에 초점을 두기로 했다. 따라서, 우리 주제는 원작과 원작을 각색한 공연과의 상관관계 도출 및 원작을 기반으로 각색 공연 관객 수 예측이다. 가설1 : 원작이 존재하는 연극이 그렇지 않은 연극에 비해 높은 흥행을 기록할 것이다. 여기에선 가설1에 대한 내용만을 다룰 것이다. 데이터가 10G에 가까웠기 때문에 데이터를 다루기가 매우 부담스러웠다. 우리는 데이터를 연도별로(2019, 2020, 2021, 2022) 나누어서 따로 작업하고 나중에 합치기로 했다. 1 2 3.. 2022. 12. 16.