본문 바로가기

머신러닝8

[머신러닝] 학습 알고리즘 최적화 1. 경사하강법(Gradient Descent)의 이해  2. 확률적 경사하강법(Stochastic Gradient Descent: SGD)과 SGD Classification 이해 및 실습 3. SGD Regression 이해 및 실습  2. SGDClassifier   ▪ 분류에 대한 다양한 손실 함수 및 패널티를 지원하는 확률적 경사하강법 - 손실 파라미터    ▪ loss="hinge": (소프트마진) 선형 SVM    ▪ loss="modified_huber": smoothed hinge loss    ▪ loss="log_loss": 로지스틱 회귀 - 패널티 파라미터(= regularization, 정규화: 과대적합을 예방하고 성능을 높임)    - penalty="L2": Ridge     .. 2024. 9. 13.
[머신러닝] 10주차 학습 알고리즘 최적화 : 경사하강법(Gradient Descent) 학습 정확도 검증 정확도예측 정확도 - 예측이 잘되었는지도 확인                      보통 8:2 . 8:1:1                            7:3   7:1.5:1.5 경사하강법 (Gradient Descent) ▪ 함수의 최소값을 찾는 반복적인 최적화 알고리즘   (곡선의 꼭짓점 찾기 = 기울기 0인 곳)▪ 경사 하강을 이용하여 함수의 최소값을 찾는 방법 ▪임의의 지점에서 시작하여 기울기의 음수에 비례하도록 움직임 ▪ linear regression, logistic regression, SVM and neural network을 위한 최적화된 파라미터를 찾음 손실함수- 실제값과 예측값의 차이를 구하는 함수 ▪ 오차와 손실함수는 비례 관계 ▪ 머신러닝 학습에서 손실.. 2024. 8. 22.
4주차 머신러닝 :: 선형회귀 분류  선형회귀 : 1차원 방정식 상에서 예측- 입력 데이터의 특징들이 선형 조합의 특성을 갖은 회귀 학습 알고리즘 모델 - 입력 데이터들을 이용하여 데이터들을 가장 잘 설명할 수 있는 직선(linear)을 찾는 방법  종속 변수  : 어떤 입력 값의 영향을 받아서 변화하는 변수독립 변수 :  다른 변수에 영향을 받지 않고 종속 변수에 영향을 주는 변수 회귀(Regression)와 분류(Classfication)   목표  : 우리가 학습한 데이터를 통계로 어떤 임의의 점이 평면 상에 그려졌을 때 최적의 선형 모델을 찾는 것    선형회귀(Linear Regression)의 학습/추론 과정 ▪ 레이블이 있는 데이터 집합: 을 가지고 있다 가정 ▪ N: 데이터 집합의 크기(개수), xi: i = 1, . .. 2024. 8. 10.
5주차 머신러닝 :: Support Vector Machine(SVM) 3차원 이상은 비선형 - Kernel 방법을 이용  1. 서포트 벡터 머신 및 Kernel 방법 학습     서포트 벡터 머신(Support Vector Machine)이란?   • 회귀(Regression), 분류(Classification), 이상치 검출(Outlier Detection)에 사용할 수 있는 지도학습 모델 • 분류를 위한 기준선을 정의하는 모델 • 분류를 위한 기준선 = 결정 경계(Decision Boundary)      ▪ 결정경계는 속성에 따라 변화 ▪ 속성 2개 = 2차원 형태 ⇒ 선 형태 ▪ 속성 3개 = 3차원 형태 ⇒ 평면 형태 ▪ N개 속성일 때 결정경계 = “초평면”(Hyperplane)- (단순한 평면이 아닌 고차원일때)    좋은 결정 경계란? ▪ 각 클래스의 데이터.. 2024. 8. 9.
3주차 머신러닝 데이터 시각화 파이썬에서는 split() 은 리스트1,7은 1,6까지를 말하는 것  groupby은 같은 것을 묶어준 판다스는 데이터 읽고 쓰기 유용 데이터 읽기pd.read_file_csvpd.read_file_xls chdir (경로 바꾸기)  - 왜? - 별도의 공간이 아닌 하나의 경로로 동일화하기    데이터 쓰기  ▪ CSV파일의 경우: DataFrame.to_csv(‘file_name’,index=False) ▪ 엑셀의 경우: DataFrame.to_excel(‘file_name.xlsx’,sheet_name=‘Sheet 1’)          . Matplotlib 라이브러리 기본 실습Matplotlib 라이브러리   2차원 그래프를 그리기 위한 파이썬 라이브러리▪ MATLAB과 유사함▪ 라이브러리 링크:.. 2024. 8. 5.
2주차 - 머신러닝 데이터분석 :: 판다스(Pandas) 난nan (아무것도 없다는 뜻)        시리즈(Series)와 데이터프레임(DataFrame) 데이터 구조 제공 ▪ 각 행과 열의 이름 부여 ▪ 행의 이름 인덱스index , 열의 이름 컬럼스columns 1행에 nan   시리즈series ▪ 동일 유형의 데이터를 저장하는 1차원 배열 ▪ Series 클래스 사용 데이터프레임dataframe ▪시리즈 데이터가 여러 개 모여서 2차원적 구조를 갖는 것 ▪ DataFrame 클래스 사용 ▪ 파이썬의 딕셔너리와 같이 열 이름을 키key로, 데이터를 값value으로 입력---  엑셀에서 쓰는 파일 똑같은 형식     01234는 인덱스 번호      데이터 프레임(DataFrame) ▪ 판다스 시리즈의 순서가 있는 콜렉션 ▪ 행, 열, 레이블, 헤더로 구.. 2024. 8. 2.