파이썬에서는 split() 은 리스트
1,7은 1,6까지를 말하는 것
groupby은 같은 것을 묶어준
판다스는 데이터 읽고 쓰기 유용
데이터 읽기
pd.read_file_csv
pd.read_file_xls
chdir (경로 바꾸기) - 왜? - 별도의 공간이 아닌 하나의 경로로 동일화하기
데이터 쓰기
▪ CSV파일의 경우: DataFrame.to_csv(‘file_name’,index=False)
▪ 엑셀의 경우: DataFrame.to_excel(‘file_name.xlsx’,sheet_name=‘Sheet 1’)
. Matplotlib 라이브러리 기본 실습
Matplotlib 라이브러리
2차원 그래프를 그리기 위한 파이썬 라이브러리
▪ MATLAB과 유사함
▪ 라이브러리 링크: www.matplotlib.org
▪ 그래프 속성 정보 참고 링크: https://www.mathworks.com/help/matlab/ref/plot.html#btzpndl-1
subplot은 분리 (1,2,1) 1행 2열 의 c첫번째
laout 은 좀그 떨어뜨려놓기
r-x 는 빨간색으로 x
Matplotlib 라이브러리 기본 실습 MNIST 데이터 실습
MNIST 데이터세트
▪ 고등학생과 미국 인구조사국 직원들이 손으로 쓴 70,000개의 작은 숫자 이미지
▪ 각 이미지에는 어떤 숫자를 나타내는지 레이블 되어 있음
▪ 이미지가 70,000개 있고 각 이미지에는 784(=28 X 28 픽셀)개의 특성이 있음
▪ 0(흰색)부터 255(검은색)까지의 픽셀
▪ =>> 28 ×28 배열로 크기를 바꾸고 Matplot의 imshow() 함수를 사용해 그리기!
사이킷런에서 읽어 들인 데이터셋들의 일반적인 딕셔너리 구조
▪ DESCR: 데이터셋을 설명하는 키
▪ data: 샘플이 하나의 행, 특성이 하나의 열로 구성된 배열을 가진 키
▪ Target:레이블 배열을 담은 키
28x28
번호 넣어서 확인할 수 있다
2. Seaborn 이해 및 실습 라이브러리
데이터 세트의 흐름(trends)을 그래프로 그리는 것에 최적화
▪ Seaborn의 다양한 그래프들
▪ displot: 분포와 밀도를 확인할 수 있는 형태
▪ relplot: 2개의 열(column)간의 상관관계를 나타내는 형태
▪ pairplot: 그리드형태로 각 집합의 조합에 대해 히스토그램과 분포도를 나타내는 형태
▪ countplot: 항목별 갯수를 나타내는 막대그래프 형태
▪ boxplot: 데이터 분포와 주요 통계량을 시각화하는 박스 형태
▪ swarmplot: 범주형 데이터의 분포를 시각화하는 형태
▪ violinplot: 데이터의 분포와 밀도를 시각화하는 형태
* pandas.plot 응용 (많이 안씀)
'머신러닝 > 머신러닝 실무' 카테고리의 다른 글
4주차 머신러닝 :: 선형회귀 (0) | 2024.08.10 |
---|---|
5주차 머신러닝 :: Support Vector Machine(SVM) (0) | 2024.08.09 |
2주차 - 머신러닝 데이터분석 :: 판다스(Pandas) (0) | 2024.08.02 |
2주차 - 머신러닝 데이터분석 :: Numpy, Pandas 실습 (0) | 2024.08.01 |
[머신러닝] 머신 러닝이란? (0) | 2024.07.31 |