본문 바로가기

전체 글44

공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 4편 모델링 진행 기간 : 20220801 ~ 20221019 이 전글에선 공모전을 진행하며 전처리에 대한 부분을 정리하며 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대 py-moon.tistory.com 앞서 정리한 글에서는 모델링하기 전 진행한 전처리 과정이다. 우리는 모델링 과정에서 여러 분류모델을 비교분석하고, 가장 성능이 좋았던 분류 모델을 선정하는 과정을 거쳤다. 각각의 분류모델에 대해서 어떤 학습을 거쳤는지와 선정한 모델에 대한 이유.. 2022. 12. 21.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 py-moon.tistory.com 앞선 글에서 두 가지의 가설을 검정하였다. 첫 번째 가설 : 각색 여부에 따른 연극 관객 수의 평균 차이가 존재할까? 결과는 그 평균의 차이가 유의하지 않다는 것. 두 번째 가설 : 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간의 상관관계가 존재할까? .. 2022. 12. 20.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주 py-moon.tistory.com 1편에서는 가설1에 해당하는 각색 여부에 따른 연극 관객 수의 평균 차이를 검정하는 것이었다. 결과는 그 평균의 차이가 유의하지 않다는 것이었다. 이번에 정리할 내용은 가설2에 해당하는 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간에 상관관계 검정이다. 귀무가설 : 원작의 흥행정도와 해당 원작을 각색.. 2022. 12. 18.
내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 쓰는 코드들이고, 분명한 건 이 글은 내가 데이터분석을 거듭할수록 수정의 여지가 존재하는 것이다. 아는 것보다 알아야 할 것들이 많은 나에겐 공부해야 할 것들이 많은 것은 매 번 분석을 진행하면서 느끼는 부분이다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 전처리 과정에서 필요한 코드를 미리 가져온다. > 전처리 안에서도 다양한 카테고리들이 존재하지만, 굳이 나누진 않겠다. > 사용목적, 상.. 2022. 12. 17.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음 보는 2명의 팀원들과 같은 뜻을 가지고 공모전에 참여하게 되었다. 주제는 공연소비, 유통 측면에서 시장 문제점을 해결 및 발전시킬 수 있는 범주 내 자유주제였다. 우리는 원작이라는 키워드에 초점을 두기로 했다. 따라서, 우리 주제는 원작과 원작을 각색한 공연과의 상관관계 도출 및 원작을 기반으로 각색 공연 관객 수 예측이다. 가설1 : 원작이 존재하는 연극이 그렇지 않은 연극에 비해 높은 흥행을 기록할 것이다. 여기에선 가설1에 대한 내용만을 다룰 것이다. 데이터가 10G에 가까웠기 때문에 데이터를 다루기가 매우 부담스러웠다. 우리는 데이터를 연도별로(2019, 2020, 2021, 2022) 나누어서 따로 작업하고 나중에 합치기로 했다. 1 2 3.. 2022. 12. 16.
[DACON] - 서울시 따릉이 대여량 예측(회귀) with Python 이 전엔 DACON-와인 품질 분류 분석과제를 수행해보고 복습해보았다. DACON - 와인 품질 분류(분류) 두 달 전쯤 처음 데이콘을 접하며 접근하기 쉬운 초급대회를 선정하여 내 수준을 알아보고, 복습도 할 겸 참여해봤다. 그저 아는 만큼만 하려니 어렵지 않았지만 결과는 형편없었다. 그 이후 전 py-moon.tistory.com 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') train.. 2022. 12. 16.
[DACON] - 와인 품질 분류(분류) with Python 두 달 전쯤 처음 데이콘을 접하며 접근하기 쉬운 초급대회를 선정하여 내 수준을 알아보고, 복습도 할 겸 참여해봤다. 그저 아는 만큼만 하려니 어렵지 않았지만 결과는 형편없었다. 그 이후 전처리나 EDA에서 한 과정씩만 추가해보자 라는 다짐을 하게 되었다. 이전의 전처리나 EDA를 돌아보니 너무 대충한 느낌이 있었기 때문이고, 이 것이 결과와 직결되는 문제로 작용되었다. 물론, 한번 두번으로 다 안다는 착각을 하는 어리석은 자가 되기 싫었던 이유일까 매번 새로운 데이터를 볼 때마다 새로운 감상을 느낄 수 있었다. 목적 : 주어진 데이터를 활용하여 와인 품질을 분류하는 것. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 .. 2022. 12. 16.
데이터 분석 전문가ADP(Advanced Data Analytics Professional) 1과목 - 데이터의 이해 제1장 데이터의 이해 1절 데이터와 정보 1. 데이터 정의와 특성 2. 데이터의 유형 3. 지식경영의 핵심이슈 4. 데이터와 정보의 관계 2절 데이터 베이스 정의와 특징 1. 용어의 연혁 2. 데이터베이스의 정의 3. 데이터베이스의 특징 3절 데이터베이스의 활용 1. 기업내부 데이터베이스 제2장 데이터의 가치와 미래 1절 빅데이터의 이해 1. 빅데이터의 이해 2. 출현 배경과 변화 3. 빅데이터의 기능 4. 빅데이터가 만들어 내는 본질적인 변화 2절 빅데이터의 가치와 영향 1. 빅데이터의 가치 2. 빅데이터의 영향 3절 비즈니스 모델 1. 빅데이터 활용 사례 2. 빅데이터 활용 기본 테크닉 4절 위기 요인과 통제 방안 1. 빅데이터 시대의 위기 요인 2. 위기 요인에 따른 통제 .. 2022. 7. 7.