본문 바로가기

분류 전체보기44

[앙상블, Ensemble] - Boosting with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 앙상블 기법 중에서 배깅(Bagging)에 대해서 다뤄보며 분류 알고리즘뿐 아니라 회귀 알고리즘에 대해서도 알아보았다. 앙상블(Ensemble) - Bagging with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 K-최근접 이웃(K-Nearest Neighbor, py-moon.tistory.com 앙상블 기법에는 기본적으로 배깅(Bagging, Bootstrap Aggregating), 부스팅(Boost.. 2023. 2. 11.
[앙상블, Ensemble] - Bagging with Python 단일 결정트리의 단점을 극복하기 위해 여러 머신러닝 모델을 연결하여 더 강력한 모델을 방법인 앙상블(Ensemble)에 대해서 알아보자. 이 전의 머신러닝에서 우리는 K-최근접 이웃(K-Nearest Neighbor, KNN)에 대해서 다뤄보며 분류 알고리즘 뿐 아니라 회귀 알고리즘에 대해서도 알아보았다. K-최근접 이웃(K-Nearest Neighbor, KNN) with Python 유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정으로 데이터를 분류하는 K-최근접 이웃(KNN)에 대해서 정리해 보자. 이 전의 머신러닝에서는 초평면과 마진의 개념으로 분 py-moon.tistory.com 앙상블 기법에는 기본적으로 배깅(Bagging, Bootstrap Aggregating), 부스.. 2023. 2. 9.
[K-최근접 이웃, K-Nearest Neighbor] KNN with Python 유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정으로 데이터를 분류하는 K-최근접 이웃(KNN)에 대해서 정리해 보자. 이 전의 머신러닝에서는 초평면과 마진의 개념으로 분류와 회귀를 지원하는 서포트 벡터 머신(Support Vector Machine)에 대해서 정리해 보았다. 서포트 벡터 머신(Support Vector Machine) with Python 새로운 데이터가 입력되었을 때, 기존 데이터를 활용해서 분류하는 방법인 서포트 벡터 머신(Support Vector Machine)에 대해서 다뤄보자. 이 전의 머신러닝에서는 로지스틱 회귀를 이용해서 이진 분 py-moon.tistory.com KNN의 기본원리는 이러하다. 학습데이터를 그대로 저장한 뒤 새로운 데이터 포인트에 대해.. 2023. 2. 7.
[서포트 벡터 머신, Support Vector Machine] SVM with Python 새로운 데이터가 입력되었을 때, 기존 데이터를 활용해서 분류하는 방법인 서포트 벡터 머신(Support Vector Machine)에 대해서 다뤄보자. 이 전의 머신러닝에서는 로지스틱 회귀를 이용해서 이진 분류와 다중 분류를 진행해 보았다. 로지스틱 회귀(Logistic Regression Model) with Python 선형 회귀모델을 분류로 사용해서 샘플이 특정 클래스에 속할 확률을 추정하는 데 사용하는 기법인 로지스틱 회귀(Logistic Regression)에 대해서 다뤄보자. 이 전의 머신러닝에서는 다중 회귀(Multiple py-moon.tistory.com 서포트 벡터 머신은 지도학습 모델로서 회귀와 분류 문제를 해결할 때 사용되는 알고리즘이다. 회귀와 분류에서 사용되는 알고리즘이 다른데 .. 2023. 2. 5.
[로지스틱 회귀, Logistic Regression] with Python 선형 회귀모델을 분류로 사용해서 샘플이 특정 클래스에 속할 확률을 추정하는 데 사용하는 기법인 로지스틱 회귀(Logistic Regression)에 대해서 다뤄보자. 이 전의 머신러닝에서는 다중 회귀(Multiple Regression)에 대해서 다뤄보며 L1규제, L2규제, Elastic net에 대한 내용도 다뤄보았다. 다중 회귀(Multiple Regression Model) with Python 여러 개의 독립변수와 한 개의 종속변수로 이루어진 회귀 분석인 다중 회귀(Multiple Regression) 분석에 대해서 정리해보고자 한다. 이 전글에서 머신러닝 중 다항 회귀(Polynomial Regression)에 대해서 정 py-moon.tistory.com 로지스틱 회귀분석은 종속변수의 수치를.. 2023. 2. 3.
[다중 회귀, Multiple Regression] with Python 여러 개의 독립변수와 한 개의 종속변수로 이루어진 회귀 분석인 다중 회귀(Multiple Regression) 분석에 대해서 정리해보고자 한다. 이 전글에서 머신러닝 중 다항 회귀(Polynomial Regression)에 대해서 정리하던 중에 다중 회귀 예시가 나와서 잠깐 다룬 적이 있다. 다항 회귀(Polynomial Regression Model) with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 py-moon.tistory.com 위 게시물에서 1개의 독립변수로 .. 2023. 2. 1.
[다항 회귀, Polynomial Regression] with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 py-moon.tistory.com 데이터가 단순 선형 회귀 때처럼 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을 때, 각 변수의 거듭제곱을 새로운 변수로 추가하면 선형 모델을 사용할 수 있다. 이렇게 확장된 특성을 데이터셋에 선형 보델로 훈련시키는 기법인 다항 회귀(Polynomial Regression.. 2023. 1. 30.
[시계열 분석, Timeseries Analysis] - AR, MA, ARIMA with Python 시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전의 통계분석에선 시계열 분석 중에서 시계열 분해, 정상성에 대해서 정리하며 다뤄보았다. 시계열 분석(Timeseries Analysis) - 시계열 분해, 정상성 with Python 이번엔시간의 흐름에 따라 기록된 데이터를 바탕으로 미래의 변화에 대한 추세를 분석방법인 시계열 분석을 다뤄보자. 이 전글에서 연관분석(지지도, 신뢰도, 향상도)에 대해서 다뤄보며 정리 py-moon.tistory.com 이번에 정리해 볼 내용은 시계열 분석 중에서 시계열 모형인 AR모형, MA모형, ARIMA모형이다. 이 전글에서 사용했던 데이터와 코드를 그대로 가지고 이어서 진행해보고자 한다. 먼저, AR(Au.. 2023. 1. 28.
[단순 선형 회귀, Simple Linear Regression] with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 의료비 지출에 대한 선형 회귀 모델을 만들어본다면, 나이가 독립변수가 되고 의료비가 종속변수가 된다. 여기서 선형 모델의 파라미터인 가중치 합과 편향을 가지고 예측을 수행한다. 회귀모델에서 많이 사용하는 성능평가지표는 MSE(Mean Square Error:평균 제곱 오차)이다. 이를 최소화하는 모델이 흔히 말하는 좋은 모델이라 말할 수 있다. 이전의 통계분석에서도 선형 회귀를 다룬 적이 있지만, 선형 회귀분석(Linear Regression) with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치.. 2023. 1. 26.
내가 하는 전처리(Preprocessing) EP.02 이 전의 전처리 글에선 이상치 정제, 데이터 정규화에 대한 글을 정리하며 다뤄보았다. 내가 하는 전처리(Preprocessing) EP.01 데이터분석을 진행하다 보면 공통적으로 혹은 필수적으로 거쳐야 할 과정들이 있다. 그중 여기서 다루고자 하는 것은.. 바로 전처리 과정이다. 아래의 코드들은 실제로 내가 분석을 진행할 때 py-moon.tistory.com 이번 전처리에서는 데이터 스케일링에 대해서 정리해보고자 한다. 데이터 스케일링은 크게는 범주형과 수치형 데이터 스케일링으로 구분한다. 해당 순서에 맞게 적어보려 한다. 1 2 3 4 import pandas as pd import numpy as np import seaborn as sns from scipy import stats cs > 먼저,.. 2023. 1. 24.