본문 바로가기

내가 하는 데이터분석38

[다중 회귀, Multiple Regression] with Python 여러 개의 독립변수와 한 개의 종속변수로 이루어진 회귀 분석인 다중 회귀(Multiple Regression) 분석에 대해서 정리해보고자 한다. 이 전글에서 머신러닝 중 다항 회귀(Polynomial Regression)에 대해서 정리하던 중에 다중 회귀 예시가 나와서 잠깐 다룬 적이 있다. 다항 회귀(Polynomial Regression Model) with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 py-moon.tistory.com 위 게시물에서 1개의 독립변수로 .. 2023. 2. 1.
[다항 회귀, Polynomial Regression] with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 py-moon.tistory.com 데이터가 단순 선형 회귀 때처럼 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을 때, 각 변수의 거듭제곱을 새로운 변수로 추가하면 선형 모델을 사용할 수 있다. 이렇게 확장된 특성을 데이터셋에 선형 보델로 훈련시키는 기법인 다항 회귀(Polynomial Regression.. 2023. 1. 30.
[시계열 분석, Timeseries Analysis] - AR, MA, ARIMA with Python 시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전의 통계분석에선 시계열 분석 중에서 시계열 분해, 정상성에 대해서 정리하며 다뤄보았다. 시계열 분석(Timeseries Analysis) - 시계열 분해, 정상성 with Python 이번엔시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전글에서 연관분석(지지도, 신뢰도, 향상도)에 대해서 다뤄보며 정리 py-moon.tistory.com 이번에 정리해 볼 내용은 시계열 분석 중에서 시계열 모형인 AR모형, MA모형, ARIMA모형이다. 이 전글에서 사용했던 데이터와 코드를 그대로 가지고 이어서 진행해보고자 한다. 먼저, AR(Au.. 2023. 1. 28.
[단순 선형 회귀, Simple Linear Regression] with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 의료비 지출에 대한 선형 회귀 모델을 만들어본다면, 나이가 독립변수가 되고 의료비가 종속변수가 된다. 여기서 선형 모델의 파라미터인 가중치 합과 편향을 가지고 예측을 수행한다. 회귀모델에서 많이 사용하는 성능평가지표는 MSE(Mean Square Error:평균 제곱 오차)이다. 이를 최소화하는 모델이 흔히 말하는 좋은 모델이라 말할 수 있다. 이전의 통계분석에서도 선형 회귀를 다룬 적이 있지만, 선형 회귀분석(Linear Regression) with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치.. 2023. 1. 26.
내가 하는 전처리(Preprocessing) EP.02 이 전의 전처리 글에선 이상치 정제, 데이터 정규화에 대한 글을 정리하며 다뤄보았다. 내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 py-moon.tistory.com 이번 전처리에서는 데이터 스케일링에 대해서 정리해보고자 한다. 데이터 스케일링은 크게는 범주형과 수치형 데이터 스케일링으로 구분한다. 해당 순서에 맞게 적어보려 한다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 먼저,.. 2023. 1. 24.
[DACON] - 영화 관객수 예측(회귀) with Python 분석 진행 기간 : 2022.12.30 ~ 2023.01.16 INTRO. 최근 통계분석에 정신없이 시간을 보내며 한동안 분석과제에 소홀했다는 생각이 들었다. 이 영화 관객수 예측 과제는 몇 가지 변수의 데이터가 분석에 다루기 까다로운 형태로 되어있어서 데이터 전처리와 EDA에서 가장 많은 시간을 보낸 과제이다. 그래서인지 한 번에 끝내지 않고 긴 시간에 나누어 분석을 진행했다는 핑계로 정리를 하고자 한다. 이전 분석과제에서는 DACON - FIFA 선수 이적료 예측 분석을 진행하며 정리해 보았다. DACON - FIFA 선수 이적료 예측(회귀) with Python INTRO. 두 달 전에 FIFA선수 이적료 예측 문제를 풀어본 경험이 있었다. 하지만 이번 기회에 처음으로 돌아가 두 달 전에 놓친 부분.. 2023. 1. 22.
[시계열 분석, Timeseries Analysis] - 시계열 분해, 정상성 with Python 이번엔시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전글에서 연관분석(지지도, 신뢰도, 향상도)에 대해서 다뤄보며 정리해 봤다. 연관분석(Association Analysis) with Python 사건의 연관규칙을 찾아내는 연관분석에 대해서 정리해 보자. 이 전글에선 군집분석 중에서 비계층적 군집분석(K-means, 혼합분포)에 대해서 정리하며 다뤄보았다. 군집분석(Clustering) - 비계층적 py-moon.tistory.com 시계열 분석 안에서 시계열 분해는 추세(Trend), 계절성(Seasonality), 잔차(Residual)로 분해하는 기법이다. 여기서 추세와 계절성은 시간의 요인이고, 잔차(불규칙요인)는 외부요인이다. a.. 2023. 1. 20.
[연관분석, Association Analysis] with Python 사건의 연관규칙을 찾아내는 연관분석에 대해서 정리해 보자. 이 전글에선 군집분석 중에서 비계층적 군집분석(K-means, 혼합분포)에 대해서 정리하며 다뤄보았다. 군집분석(Clustering) - 비계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 py-moon.tistory.com 연관분석은 소비자의 행동패턴을 사건의 연관규칙으로 분석하기도 한다. 인스타, 유튜브, OTT플랫폼에서 알고리즘으로 인한 추천 게시물을 받아본 적이 있을 것이다. 이처럼 게시물을 추천해 주는 알고리즘의 기반이 되는 연관분석의 개념 중 지지도(Support), 신뢰도.. 2023. 1. 18.
[군집분석, Clustering] - 비계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리 py-moon.tistory.com 오늘은 군집의 수를 미리 정해놓고 군집을 형성하는 비계층적(분할적) 군집분석에 대해서 정리해 보자. 비계층적 군집분석에서는 K-means 군집분석과 혼합분포 군집분석에 대해서 다룰 예정이다. 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. K-means 비계층적 알고리즘의 단계 군집 수의 설정 각 군집의 중심.. 2023. 1. 16.
[군집분석, Clustering] - 계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리해 보자. 이전엔 교차분석에 대해서 정리해보았다. 교차분석(ChiSquare Test) 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전에 T검정과 분산분석에서는 종속변수가 연속 py-moon.tistory.com 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. 군집화의 단계 특성변수의 선정 유사성의 측정 군집의 도출 해석과 활용 계층적 군집분석을 수행하기 위해 USArrests데이터를 사용한다. 1 2 3 4 5 6 7 8 9.. 2023. 1. 14.