본문 바로가기

Python26

[나이브 베이즈 분류, Naive Bayes Classification] - BernoulliNB with Python 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법인 나이브베이즈(NaiveBayes)에 대해서 정리해 보자. 그중에서 오늘은 BernoulliNB에 대해서 알아볼 것이다. 이 전의 머신러닝에서는 나이브베이즈(NaiveBayes) 기법 중 MultinomialNB에 대해서 알아보며 실습해 보았다. [나이브 베이즈 분류Naive Bayes Classification] - MultinomialNB with Python 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법인 나이브베이즈(NaiveBayes)에 대해서 정리해 보자. 그중에서 오늘은 MultinomialNB에 대해서 알아볼 것이다. 이 전의 py-moon.tistory.com 나이브(Naive).. 2023. 2. 19.
[나이브 베이즈 분류, Naive Bayes Classification] - MultinomialNB with Python 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법인 나이브베이즈(NaiveBayes)에 대해서 정리해 보자. 그중에서 오늘은 MultinomialNB에 대해서 알아볼 것이다. 이 전의 머신러닝에서는 나이브베이즈(NaiveBayes) 기법 중 GaussianNB에 대해서 알아보며 실습해 보았다. 나이브 베이즈 분류(Naive Bayes Classification) - GaussianNB with Python 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법인 나이브베이즈(NaiveBayes)에 대해서 정리해 보자. 그중에서 오늘은 GaussianNB에 대해서 알아볼 것이다. 이 전의 머 py-moon.tistory.com 나이브(Naive)는 직역하.. 2023. 2. 17.
[나이브 베이즈 분류, Naive Bayes Classification] - GaussianNB with Python 데이터가 각 클래스에 속할 특징 확률을 계산하는 조건부 확률 기반의 분류 방법인 나이브베이즈(NaiveBayes)에 대해서 정리해 보자. 그중에서 오늘은 GaussianNB에 대해서 알아볼 것이다. 이 전의 머신러닝에서는 앙상블 기법 중 랜덤포레스트에 대해서 분류와 회귀를 실습해 보았다. 앙상블(Ensemble) - RandomForest with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 앙상블 기법 중에서 부스팅(Bo py-moon.tistory.com 나이브(Naive)는 직역하면 단순하다, 순진하다는 의미를 가진다. 베이즈(Bayes)는 베이지안 통계를 기반으로 .. 2023. 2. 15.
[앙상블, Ensemble] - RandomForest with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 앙상블 기법 중에서 부스팅(Boosting)에 대해서 다뤄보며 분류 알고리즘뿐 아니라 회귀 알고리즘에 대해서도 알아보았다. 앙상블(Ensemble) - Boosting with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 앙상블 기법 중에서 배깅(Baggi py-moon.tistory.com 앙상블 기법에는 기본적으로 배깅(Bagging, Bootstrap Aggregating), 부스팅(Boosting), .. 2023. 2. 13.
[다항 회귀, Polynomial Regression] with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 py-moon.tistory.com 데이터가 단순 선형 회귀 때처럼 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을 때, 각 변수의 거듭제곱을 새로운 변수로 추가하면 선형 모델을 사용할 수 있다. 이렇게 확장된 특성을 데이터셋에 선형 보델로 훈련시키는 기법인 다항 회귀(Polynomial Regression.. 2023. 1. 30.
[단순 선형 회귀, Simple Linear Regression] with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 의료비 지출에 대한 선형 회귀 모델을 만들어본다면, 나이가 독립변수가 되고 의료비가 종속변수가 된다. 여기서 선형 모델의 파라미터인 가중치 합과 편향을 가지고 예측을 수행한다. 회귀모델에서 많이 사용하는 성능평가지표는 MSE(Mean Square Error:평균 제곱 오차)이다. 이를 최소화하는 모델이 흔히 말하는 좋은 모델이라 말할 수 있다. 이전의 통계분석에서도 선형 회귀를 다룬 적이 있지만, 선형 회귀분석(Linear Regression) with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치.. 2023. 1. 26.
내가 하는 전처리(Preprocessing) EP.02 이 전의 전처리 글에선 이상치 정제, 데이터 정규화에 대한 글을 정리하며 다뤄보았다. 내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 py-moon.tistory.com 이번 전처리에서는 데이터 스케일링에 대해서 정리해보고자 한다. 데이터 스케일링은 크게는 범주형과 수치형 데이터 스케일링으로 구분한다. 해당 순서에 맞게 적어보려 한다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 먼저,.. 2023. 1. 24.
[DACON] - 영화 관객수 예측(회귀) with Python 분석 진행 기간 : 2022.12.30 ~ 2023.01.16 INTRO. 최근 통계분석에 정신없이 시간을 보내며 한동안 분석과제에 소홀했다는 생각이 들었다. 이 영화 관객수 예측 과제는 몇 가지 변수의 데이터가 분석에 다루기 까다로운 형태로 되어있어서 데이터 전처리와 EDA에서 가장 많은 시간을 보낸 과제이다. 그래서인지 한 번에 끝내지 않고 긴 시간에 나누어 분석을 진행했다는 핑계로 정리를 하고자 한다. 이전 분석과제에서는 DACON - FIFA 선수 이적료 예측 분석을 진행하며 정리해 보았다. DACON - FIFA 선수 이적료 예측(회귀) with Python INTRO. 두 달 전에 FIFA선수 이적료 예측 문제를 풀어본 경험이 있었다. 하지만 이번 기회에 처음으로 돌아가 두 달 전에 놓친 부분.. 2023. 1. 22.
[군집분석, Clustering] - 비계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 계층적 군집분석은 저번에 정리해 보았다. 군집분석(Clustering) - 계층적 군집분석 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리 py-moon.tistory.com 오늘은 군집의 수를 미리 정해놓고 군집을 형성하는 비계층적(분할적) 군집분석에 대해서 정리해 보자. 비계층적 군집분석에서는 K-means 군집분석과 혼합분포 군집분석에 대해서 다룰 예정이다. 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. K-means 비계층적 알고리즘의 단계 군집 수의 설정 각 군집의 중심.. 2023. 1. 16.
[군집분석, Clustering] - 계층적 군집분석 with Python 각 객체의 유사성을 측정해서 유사성이 높은 대상집단을 분류하는 군집분석을 정리해 보자. 그중에서 군집의 수를 미리 정하지 않는 방식으로 군집을 형성하는 계층적 군집분석에 대해서 정리해 보자. 이전엔 교차분석에 대해서 정리해보았다. 교차분석(ChiSquare Test) 각 범주에 따른 종속변수의 분포를 설명하거나, 두 변수가 서로 연관성이 있는지를 검정하는 교차분석 즉, 카이제곱 검정을 통해 정리해 보자. 이전에 T검정과 분산분석에서는 종속변수가 연속 py-moon.tistory.com 종속변수가 존재하지 않는 군집분석은 비지도 학습이다. 군집화의 단계 특성변수의 선정 유사성의 측정 군집의 도출 해석과 활용 계층적 군집분석을 수행하기 위해 USArrests데이터를 사용한다. 1 2 3 4 5 6 7 8 9.. 2023. 1. 14.