본문 바로가기
머신러닝/머신러닝 실무

3주차 머신러닝 데이터 시각화

by udeserveit1 2024. 8. 5.

파이썬에서는 split() 은 리스트

1,7은 1,6까지를 말하는 것

 

 

groupby은 같은 것을 묶어준

 

판다스는 데이터 읽고 쓰기 유용

 

데이터 읽기

pd.read_file_csv

pd.read_file_xls

 

chdir (경로 바꾸기)  - 왜? - 별도의 공간이 아닌 하나의 경로로 동일화하기

 

 

 

 

데이터 쓰기

 

CSV파일의 경우: DataFrame.to_csv(‘file_name’,index=False)

▪ 엑셀의 경우: DataFrame.to_excel(‘file_name.xlsx’,sheet_name=‘Sheet 1’)

 

 

 

 

 

 

 

 

 

 

. Matplotlib 라이브러리 기본 실습

Matplotlib 라이브러리

 

 

 

2차원 그래프를 그리기 위한 파이썬 라이브러리

▪ MATLAB과 유사함

▪ 라이브러리 링크: www.matplotlib.org

▪ 그래프 속성 정보 참고 링크: https://www.mathworks.com/help/matlab/ref/plot.html#btzpndl-1

 

 

 

 

 

 

 

subplot은 분리  (1,2,1) 1행 2열 의 c첫번째

laout 은 좀그 떨어뜨려놓기

 

r-x 는 빨간색으로 x

\

 

 

 

 

S

 

 

 

 

 

 

 

Matplotlib 라이브러리 기본 실습 MNIST 데이터 실습

MNIST 데이터세트

▪ 고등학생과 미국 인구조사국 직원들이 손으로 쓴 70,000개의 작은 숫자 이미지

▪ 각 이미지에는 어떤 숫자를 나타내는지 레이블 되어 있음

▪ 이미지가 70,000개 있고 각 이미지에는 784(=28 X 28 픽셀)개의 특성이 있음

▪ 0(흰색)부터 255(검은색)까지의 픽셀

▪ =>> 28 ×28 배열로 크기를 바꾸고 Matplot의 imshow() 함수를 사용해 그리기!

 

 

사이킷런에서 읽어 들인 데이터셋들의 일반적인 딕셔너리 구조

▪ DESCR: 데이터셋을 설명하는 키

▪ data: 샘플이 하나의 행, 특성이 하나의 열로 구성된 배열을 가진 키

▪ Target:레이블 배열을 담은 키

 

 

 

 

 

 

 

28x28

 

 

 

 

번호 넣어서 확인할 수 있다

 

 

 2. Seaborn 이해 및 실습 라이브러리

 

 

데이터 세트의 흐름(trends)을 그래프로 그리는 것에 최적화

 

▪ Seaborn의 다양한 그래프들

 

  ▪ displot: 분포와 밀도를 확인할 수 있는 형태

  ▪ relplot: 2개의 열(column)간의 상관관계를 나타내는 형태

  ▪ pairplot: 그리드형태로 각 집합의 조합에 대해 히스토그램과 분포도를 나타내는 형태

  ▪ countplot: 항목별 갯수를 나타내는 막대그래프 형태

  boxplot: 데이터 분포와 주요 통계량을 시각화하는 박스 형태

 ▪ swarmplot: 범주형 데이터의 분포를 시각화하는 형태

 ▪ violinplot: 데이터의 분포와 밀도를 시각화하는 형태

 

 

 

* pandas.plot 응용 (많이 안씀)