본문 바로가기
머신러닝/머신러닝 실무

2주차 - 머신러닝 데이터분석 :: 판다스(Pandas)

by udeserveit1 2024. 8. 2.

난nan (아무것도 없다는 뜻)

 

 

 

 

 

 

 

시리즈(Series)와 데이터프레임(DataFrame) 데이터 구조 제공

▪ 각 행과 열의 이름 부여

▪ 행의 이름 인덱스index , 열의 이름 컬럼스columns

 

1행에 nan

 

  시리즈series

▪ 동일 유형의 데이터를 저장하는 1차원 배열

▪ Series 클래스 사용

 

데이터프레임dataframe

시리즈 데이터가 여러 개 모여서 2차원적 구조를 갖는 것

▪ DataFrame 클래스 사용

▪ 파이썬의 딕셔너리와 같이 열 이름을 키key로, 데이터를 값value으로 입력

---  엑셀에서 쓰는 파일 똑같은 형식

 

 

 

 

 

01234는 인덱스 번호

 

 

 

 

 

데이터 프레임(DataFrame)

▪ 판다스 시리즈의 순서가 있는 콜렉션

▪ 행, 열, 레이블, 헤더로 구성

▪ pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

 

 

 

\

 

기본적으로 열의 정보가 기본

 

 

 

 

 

 

 

 

칼럼의 제목이 feature 

           값들이 

 

행은 한 삶의 정보

 

 

 

 

iloc은 4번의 행 

 

 

 

 

 

 

 

axis =1은 열,, inplace- true 지워라

 

disposable 은 행 

 

 

 

dropna() nan이 포힘된행이 통째로 날릴 때 ,axis 써주기, 기본값이 지정되어있다

nan 포함된 axis 1 열 버리기

 

 

 

tresh 는 nan 2개 이상이면 빼라

 

 

fillna 평균값으로 채워라

 

 

 

df['X'].fillna(value = xcol_mean) 함수는 데이터프레임 df 의 'X' 열에서 결측값(NaN)을 'X' 열의 평균값으로 대체하는 방법
각 열의 결측값을 해당 열의 평균값으로 데체하는 코드를 실행하고 , 최종 데이터프레임 출력

 

주어진 데이터를 기반으로 pandas DataFrame을 생성하는 코드

 

 

 

  • product_sum: 각 상품의 총 판매량 합계
  • product_count: 각 상품의 판매 기록 수
  • product_describe: 각 상품의 판매량에 대한 기술 통계 (평균, 표준편차, 최소값, 25% 백분위수, 중앙값, 75% 백분위수, 최대값)