본문 바로가기

Python26

공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 py-moon.tistory.com 앞선 글에서 두 가지의 가설을 검정하였다. 첫 번째 가설 : 각색 여부에 따른 연극 관객 수의 평균 차이가 존재할까? 결과는 그 평균의 차이가 유의하지 않다는 것. 두 번째 가설 : 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간의 상관관계가 존재할까? .. 2022. 12. 20.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.
내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 쓰는 코드들이고, 분명한 건 이 글은 내가 데이터분석을 거듭할수록 수정의 여지가 존재하는 것이다. 아는 것보다 알아야 할 것들이 많은 나에겐 공부해야 할 것들이 많은 것은 매 번 분석을 진행하면서 느끼는 부분이다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 전처리 과정에서 필요한 코드를 미리 가져온다. > 전처리 안에서도 다양한 카테고리들이 존재하지만, 굳이 나누진 않겠다. > 사용목적, 상.. 2022. 12. 17.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음 보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주제였다. 우리는 원작이라는 키워드에 초점을 두기로 했다. 따라서, 우리 주제는 원작과 원작을 각색한 공연과의 상관관계 도출 및 원작을 기반으로 각색 공연 관객 수 예측이다. 가설1 : 원작이 존재하는 연극이 그렇지 않은 연극에 비해 높은 흥행을 기록할 것이다. 여기에선 가설1에 대한 내용만을 다룰 것이다. 데이터가 10G에 가까웠기 때문에 데이터를 다루기가 매우 부담스러웠다. 우리는 데이터를 연도별로(2019, 2020, 2021, 2022) 나누어서 따로 작업하고 나중에 합치기로 했다. 1 2 3.. 2022. 12. 16.
[DACON] - 서울시 따릉이 대여량 예측(회귀) with Python 이 전엔 DACON-와인 품질 분류 분석과제를 수행해보고 복습해보았다. DACON - 와인 품질 분류(분류) 두 달 전쯤 처음 데이콘을 접하며 접근하기 쉬운 초급대회를 선정하여 내 수준을 알아보고, 복습도 할 겸 참여해봤다. 그저 아는 만큼만 하려니 어렵지 않았지만 결과는 형편없었다. 그 이후 전 py-moon.tistory.com 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') train.. 2022. 12. 16.
[DACON] - 와인 품질 분류(분류) with Python 두 달 전쯤 처음 데이콘을 접하며 접근하기 쉬운 초급대회를 선정하여 내 수준을 알아보고, 복습도 할 겸 참여해봤다. 그저 아는 만큼만 하려니 어렵지 않았지만 결과는 형편없었다. 그 이후 전처리나 EDA에서 한 과정씩만 추가해보자 라는 다짐을 하게 되었다. 이전의 전처리나 EDA를 돌아보니 너무 대충한 느낌이 있었기 때문이고, 이 것이 결과와 직결되는 문제로 작용되었다. 물론, 한번 두번으로 다 안다는 착각을 하는 어리석은 자가 되기 싫었던 이유일까 매번 새로운 데이터를 볼 때마다 새로운 감상을 느낄 수 있었다. 목적 : 주어진 데이터를 활용하여 와인 품질을 분류하는 것. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 .. 2022. 12. 16.