본문 바로가기
머신러닝/머신러닝 실무

2주차 - 머신러닝 데이터분석 :: Numpy, Pandas 실습

by udeserveit1 2024. 8. 1.

시각화툴

 

행렬 형태로 바꿔주는 Numpy

라이브러리

 

 

판다스 2차원 이상의 형태를

 

캐글에서 데이터 받으면 csv

 

 

머신러닝을 위한 데이터 분석 기법 과 NUMPY

 

공공데이터  : 하양의 날씨등

 

 

공개된 인공지능 데이터 세트

▪ AI Hub: https://aihub.or.kr/

 

AI-Hub

[영상이미지] 비동일 객체 인식 오류 방지 데이터 #YOLOX # CNN # R-CNN # Mask R-CNN 조회수 10,031 관심등록 8 다운수 53

aihub.or.kr

 

▪ AIFactory 데이터분석 대회: http://aifactory.space/

 

인공지능팩토리

[챗GPT 러닝데이 & MS 애저톤] 챗GPT에 날개를 달아줄 랭체인! 1부 | 컴포넌트 - 김태영 AIFactory 🍀 세미나가 종료되어 발표자료 받으시려면 참가접수 후 데이터탭에서 받으실 수 있습니다.LLM(Large Lan

aifactory.space:443

 

▪ 인공지능 대회: https://dacon.io/

 

데이터사이언티스트 AI 컴피티션

10만 AI 팀이 협업하는 데이터 사이언스 플랫폼. AI 경진대회와 대상 맞춤 온/오프라인 교육, 문제 기반 학습 서비스를 제공합니다.

dacon.io

 

▪ 캐글 데이터셋분야별 AI 데이터: https://www.kaggle.com/datasets

 

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

 

▪ Machine Learning 데이터: http://archive.ics.uci.edu/ml/index.php

 

UCI Machine Learning Repository

Welcome to the UC Irvine Machine Learning Repository We currently maintain 668 datasets as a service to the machine learning community. Here, you can donate and find datasets used by millions of people all around the world!

archive.ics.uci.edu

 

▪ Awesome Public Datasets: https://github.com/awesomedata/awesome-public-datasets

 

 

GitHub - awesomedata/awesome-public-datasets: A topic-centric list of HQ open datasets.

A topic-centric list of HQ open datasets. Contribute to awesomedata/awesome-public-datasets development by creating an account on GitHub.

github.com

 

 

 

머신러닝에 많이 사용되는 라이브러리

구분 공식사이트 구분  
언어 파이썬(python) https://www.python.org 라이브러리 사이킷 런(Sickit-learn) https://scikit-learn.org
텐서플로(TensorFlow) https://www.tens orflow.org
라이브러리 관리 저장소 파이파이(Pypi) https://pypi.org 케라스(Keras)& 파이토치(PyTorch)

Keras: Deep Learning for humans
라이브러리 넘파이(Numpy) https://numpy.org
맷플롯립(Matplotlib) https://matplotlib.org

 

 

데이터 분석

▪ 원시데이터(raw data)에서 정보를 추출하는 것

▪ 예) 마이크로소프트 엑셀, R 언어, SQL, 파이썬, 등

 

넘파이(NumPy)

▪ 수치에 관한 파이썬 패키지

▪ 벡터와 행렬 연산을 지원

▪ 선형 대수의 문제 해결

▪ 수치 데이터 -> 배열로 변환

 

 NumPy 패키지 설치

 

파이썬의 pip install 사용

▪ pip install numpy ▪ (파이썬3) pip3 install numpy

▪ (pip설치) sudo easy_install pip / sudo easy_install pip3

 

 아나콘다의 conda install 사용

▪ conda install numpy

▪ (pip설치) conda update pip /conda update pip3

▪ Colab에서는 기본적으로 설치되어 있음

 

 

 

Colab에서는 기본적으로 설치되어 있음

 

 

 

 

 

 

 

 

▪ import numpy as np

▪ from numpy import *

 

▪ numpy

 다차원 배열

 Numpy 차원: 축axis

 

Numpy 차원 : 축(axis)

 

Shape: (4,)  --튜플

 

axis 0 = 하나

 

 

 

axis 0  = 행

axis 1 = 열

 

 

Shape : (3,4) ---3행4열

 

 

 

Shape :

 

axis 2 =면

\

 

 ndarray 객체

▪ n차원 배열을 의미

▪ 성능이 우수

▪ 동일한 자료형의 항목들만 저장

 

 

dtype은 캄퓨터 마다 다르나 옛날 컴퓨터는 64-> 따라서 itemsize 는 8

 

 

 

어느 회사의 직원 4인 월급이 각각 [178, 197, 202, 210]라고 하고, 이를 넘파이 배열에 아래와 같이 저장하자

 

▪ 넘파이는 스칼라 값을 벡터의 각 원소로 전파하여 덧셈 수행: 브로드캐스팅

▪ 스칼라 값을 복사하여 같은 차원의 벡터를 만드는 작업이 없어 복사에 의한 속 도 저하 막음

 

 

 

 

 

np.linspace는 두번째 값도 포함 

똑같은 간격으로 

 

 

 

 

np.ones (2,3)은 이라는 항목 하나를 넣어준 것 ( (2,3) )

 

컴퓨터는 1차원으로 해석

고차원도 다 -> 1차원으로

 

 

 

대괄호 두 개 - 2차원

 

[1.,1.,1.] 1행

 

넘파이는 수를 다룸 -> eye는 정방 행렬을 다룸

 

randn은 정규분포에서 라는 뜻,

 

 

arg 는 인덱스 위치 .

 

ma[0,2]는 0행과 1행까지

처음부터 끝까지

 

 

 

 

 

ma[1:] 처음부터 1행까지

 

 

 

 

s