목록전체 글 (75)
SiLaure's Data
- Dataframe 기초 method dataframe의 맨 위 다섯 줄을 보여주는 head() df.head() 출력 : 더보기 위에서부터 3줄 df.head(3) 출력 : 더보기 아래에서부터 3줄 df.tail(3) 출력 : 더보기 dataframe index df.index 출력 : 더보기 DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05', '2021-01-06'], dtype='datetime64[ns]', freq='D') dataframe columns df.columns 출력 : Index(['A', 'B', 'C', 'D'], dtype='object') dataframe values --..
- Pandas? 데이터 분석에서 가장 많이 사용하는 라이브러리 pandas는 "python data analysis"의 약자 pandas는 정형 데이터 처리에 특화되어 있다. pandas 역시 다양한 머신러닝 라이브러리들에 의존성을 가지고 있습니다. e.g. scikit-learn, scipy, statsmodel, tensorflow(딥러닝), pytorch, ... 간단하게 생각하면, python에서 excel의 기능을 사용할 수 있다. pandas = python + excel // pandas & excel // pandas VS MS Excel 하지만, pandas는 numpy array를 베이스로 지원하며 파이썬과 함께 강력한 시너지를 내기 때문에, 엑셀 그 이상의 퍼포먼스를 낼 수 있다. ..
- Powerful Numpy numpy array는 파이썬 리스트에 비해 연산이 빠르다. broadcast, static type binding, fixed array size, ... 등의 vectorize 조건에서. == 원소의 개수가 많을 때. 그렇다면 Numpy는 정말 얼마나 강력한가? np.random.seed(0) # Numpy array의 각 원소의 역수를 취하는 함수. # values라고 하는 list 또는 numpy array를 받아서 해당하는 numpy array를 저장하는 함수로 # 하나씩 역수를 취해준다. def reverse_num(values): output = np.empty(len(values)) for i in range(len(values)): output[i] = 1...
- Aggregation functions : 전체 데이터 값에 대해 수치적 계산을 해 주는 함수 mat1 array([[-0.92644426, 0.45063478, 0.61315517], [-0.32615381, 1.10159801, -0.91424833], [-0.69560478, 0.01941608, 0.18662921], [ 1.30146264, -1.1894387 , -0.11196524], [ 0.23942379, -0.21262613, -0.11753845]]) # 15개 숫자의 총합. np.sum(mat1) axis : 기본 축을 의미 axis=0 column 을 기준으로 연산 axis=1 은 row 를 기준으로 연산 # 다른 축으로 더해보기 np.sum(mat1, axis=0) np.su..
- Numpy Methods jupyter notebook에서 글자 + Shift + Tab을 누르면 설명이 나온다. import numpy as np # 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다. mat1 = np.random.randn(5,3) mat1 array([[-0.92644426, 0.45063478, 0.61315517], [-0.32615381, 1.10159801, -0.91424833], [-0.69560478, 0.01941608, 0.18662921], [ 1.30146264, -1.1894387 , -0.11196524], [ 0.23942379, -0.21262613, -0.11753845]]) # mat1에 절대값 씌우기 np.ab..
비슷하다? 비슷하다는 기준이 무엇인지 알아야 한다. Q. 벡터란 무엇인가? Vector = List of Numbers 기저(basis) = 축(axis) 축? : 공간 또는 위치를 나타낼 때의 절대적 개념의 기준 데이터의 column 차원(dimension) = 벡터의 원소 개수 숫자. 숫자가 3개면 3차원, 1000000개면 1000000차원 방향(direction) = 단위 벡터(unit vector) 벡터를 그 벡터의 크기로 나눈 것 어떤 벡터가 어느 방향을 가리키고 있는지 나타내는 것 - categorical feature 만약 어떤 설문조사에서 남 / 여 / 무응답 인 선택지가 있을 때 이를 수치화 한다면 0 / 1 / 2 로 해도 될까? 학력을 초졸 / 중졸 / 고졸 / 학사 / 석사 / 박..
- Array Operation (like vector) --> Universal Function numpy array를 쓰는 가장 큰 이유는 vector처럼 사용할 수 있기 때문이다. e.g. arr1 = np.array([1, 2, 3, 4, 5]) --> (1, 2, 3, 4, 5) == vector 그렇기 때문에 scipy, matplotlib, scikit-learn, pandas, tensorflow, pytorch 등 대부분의 데이터분석 라이브러리들이 numpy array를 사용한다. 대부분의 데이터 분석 라이브러리들은 벡터를 사용하는데, 그 벡터가 바로 numpy array로 표현되기 때문. 데이터 분석은 99.9% 데이터를 벡터로 표현하여 분석하기 때문에, 이 특징은 굉장히 중요하다. 벡..
- Numpy Array 만들기 1. np라는 이름으로 numpy library를 불러온다. import numpy as np 2. Python list 선언한다. data = [1, 2, 3, 4, 5] # data, type(data) 3. Python 2차원 리스트(행렬) 선언한다. data2 = [[1, 2, 3], [4, 5, 6], [7, 8, 9]] 4. Python list를 numpy array로 변환한다. arr1 = np.array(data) # 2번처럼 미리 Python list를 선언하는 대신 list를 안에서 선언하고 바로 np.array를 만들 수 있다. np.array([1, 2, 3, 4, 5]) ndarray : numpy.ndarray(n-dimensional array..
- What is Numpy? "numerical python"의 약자. 컴퓨터공학의 한 분야로, 실수 계산이 python의 취약점을 보완하기 위한 도구로 사용한다. 데이터가 vector(정형데이터 --표 형식)로 표시되기 때문에 벡터 연산이 필요하다. numerical python을 이해하기 위해서는 Numerical Computing과 을 알아야 한다. 1. Numerical Computing : 컴퓨터가 실수값을 효과적으로 계산할 수 있도록 하는 연구 분야 2. Vector Arithmetic : 벡터 연산 --데이터가 벡처로 표현되기 때문에 필요하다. (Vecotr는 숫자의 모음을 말한다.) numpy는 다양한 머신러닝 라이브러리들에 의존성을 가지고 있고, 일반 파이썬 리스트에 비해 성능이 월등히..
- File I/O : 프로그램에서 파일을 열고 닫는 것 open()을 이용해서 열고 close()를 이용해서 닫는다. close를 하지 않으면 jupyter가 계속해서 파일을 점유하고 있게 되어, 시스템 낭비가 일어난다. with open() 을 쓰면 동시에 처리할 수 있기 때문에 편하다. open() 함수는 다양한 옵션을 제공하지만 기본적으로는 txt파일을 여는 것을 기본으로 가정한다. 다른 타입의 파일을 열기 위해선 다른 라이브러리들이 필요하다. e.g. csv, excel 파일을 열기 위해 pandas, csv, openpyxl 라이브러리를 사용할 수 있다. e.g. png, jpg 파일을 열기 위해 PIL, opencv 라이브러리를 사용할 수 있다. e.g. pk, pkl 파일을 열기 위해 pi..