본문 바로가기

머신러닝4

[K-최근접 이웃, K-Nearest Neighbor] KNN with Python 유사한 특성을 가진 데이터는 유사한 범주에 속하는 경향이 있다는 가정으로 데이터를 분류하는 K-최근접 이웃(KNN)에 대해서 정리해 보자. 이 전의 머신러닝에서는 초평면과 마진의 개념으로 분류와 회귀를 지원하는 서포트 벡터 머신(Support Vector Machine)에 대해서 정리해 보았다. 서포트 벡터 머신(Support Vector Machine) with Python 새로운 데이터가 입력되었을 때, 기존 데이터를 활용해서 분류하는 방법인 서포트 벡터 머신(Support Vector Machine)에 대해서 다뤄보자. 이 전의 머신러닝에서는 로지스틱 회귀를 이용해서 이진 분 py-moon.tistory.com KNN의 기본원리는 이러하다. 학습데이터를 그대로 저장한 뒤 새로운 데이터 포인트에 대해.. 2023. 2. 7.
[다항 회귀, Polynomial Regression] with Python 이 전의 머신러닝에서는 단순 선형 회귀(Simple Linear Regression Model)에 대해서 다뤄보았다. 단순 선형 회귀(Simple Linear Regression Model) with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 py-moon.tistory.com 데이터가 단순 선형 회귀 때처럼 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을 때, 각 변수의 거듭제곱을 새로운 변수로 추가하면 선형 모델을 사용할 수 있다. 이렇게 확장된 특성을 데이터셋에 선형 보델로 훈련시키는 기법인 다항 회귀(Polynomial Regression.. 2023. 1. 30.
[단순 선형 회귀, Simple Linear Regression] with Python 머신러닝 기법 중 단순 선형 회귀모델에 대해 다뤄보며 정리하고자 한다. 선형 회귀는 입력(하나의 독립변수)에 대한 선형함수를 만들어 미래를 예측하는 알고리즘이다. 예를 들어, 나이에 따른 의료비 지출에 대한 선형 회귀 모델을 만들어본다면, 나이가 독립변수가 되고 의료비가 종속변수가 된다. 여기서 선형 모델의 파라미터인 가중치 합과 편향을 가지고 예측을 수행한다. 회귀모델에서 많이 사용하는 성능평가지표는 MSE(Mean Square Error:평균 제곱 오차)이다. 이를 최소화하는 모델이 흔히 말하는 좋은 모델이라 말할 수 있다. 이전의 통계분석에서도 선형 회귀를 다룬 적이 있지만, 선형 회귀분석(Linear Regression) with Python 하나 혹은 그 이상의 원인(독립변수)이 종속변수에 미치.. 2023. 1. 26.
공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 3편 전처리 진행 기간 : 20220801 ~ 20221019 이 전글에서는 가설2에 대해서 다뤄보면서 정리해 보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 2편 가설2 진행 기간 : 20220801 ~ 20221019 이 전에는 가설1에 대해서 다뤄보았다. 공연예술통합전산망(KOPIS) 빅데이터 분석 공모전 1편 가설1 20220801 ~ 20221019 우연한 계기로 처음보는 2명의 팀원들과 같은 뜻을 py-moon.tistory.com 앞선 글에서 두 가지의 가설을 검정하였다. 첫 번째 가설 : 각색 여부에 따른 연극 관객 수의 평균 차이가 존재할까? 결과는 그 평균의 차이가 유의하지 않다는 것. 두 번째 가설 : 원작의 흥행 정도와 해당 원작을 각색한 연극의 관객 수 간의 상관관계가 존재할까? .. 2022. 12. 20.