목록Records of/Learning (53)
SiLaure's Data
- Seborn Library : 데이터를 정제, 분석 후 matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리. - 특징 Python에 내장된 Matplot Library보다 Powerful 하다. 예쁘다. 정보를 쉽게 이해할 수 있도록 시각화 처리를 할 수 있다. pandas DataFrame과 매우 호환이 잘 된다. - 기본 세팅 e.g. sns.xxxplot(data=df) - 공식 홈페이지에서 볼 만한 페이지 http://seaborn.pydata.org/introduction.html An introduction to seaborn — seaborn 0.11.1 documentation Seaborn is a library for making statistical graphi..
Pandas에서는 데이터를 불러올 때 여러가지 함수들을 사용할 수 있고, 그 함수들은 file, 확장자에 귀속된다. data 폴더에 있는 iris.csv 파일을 불러와서 변수 data에 저장하기 data = pd.read_csv("../data/Iris.csv") data 출력 : 더보기 data 특징 확인하기 data.info() 출력 : 더보기 RangeIndex: 150 entries, 0 to 149 Data columns (total 6 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Id 150 non-null int64 1 SepalLengthCm 150 non-null float64 2 SepalWidthC..
Pandas에는 DataFrame과 Series밖에 없다. - DataFrame Indexing Indexing : 데이터에서 어떤 특정 조건을 만족하는 원소를 찾는 방법. : "이게 된다고?" 할 정도로 전체 DataFrame에서 조건에 만족하는 데이터를 쉽게 찾아서 조작할 때 유용하게 사용할 수 있다. Python list indexing과 Numpy fancy indexing 이 혼재되어 있어 앞의 두 가지를 복습하면 이해하기 쉬울 것 ! - pandas dataframe은 column 이름을 이용하여 기본적인 Indexing이 가능하다. dataframe에 바로 indexing을 사용하면 column을 indexing 해 온다. 여러 컬럼을 가져올 때는 list 형식으로 가져와야 한다. # A를 ..
- Dataframe 기초 method dataframe의 맨 위 다섯 줄을 보여주는 head() df.head() 출력 : 더보기 위에서부터 3줄 df.head(3) 출력 : 더보기 아래에서부터 3줄 df.tail(3) 출력 : 더보기 dataframe index df.index 출력 : 더보기 DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05', '2021-01-06'], dtype='datetime64[ns]', freq='D') dataframe columns df.columns 출력 : Index(['A', 'B', 'C', 'D'], dtype='object') dataframe values --..
- Pandas? 데이터 분석에서 가장 많이 사용하는 라이브러리 pandas는 "python data analysis"의 약자 pandas는 정형 데이터 처리에 특화되어 있다. pandas 역시 다양한 머신러닝 라이브러리들에 의존성을 가지고 있습니다. e.g. scikit-learn, scipy, statsmodel, tensorflow(딥러닝), pytorch, ... 간단하게 생각하면, python에서 excel의 기능을 사용할 수 있다. pandas = python + excel // pandas & excel // pandas VS MS Excel 하지만, pandas는 numpy array를 베이스로 지원하며 파이썬과 함께 강력한 시너지를 내기 때문에, 엑셀 그 이상의 퍼포먼스를 낼 수 있다. ..
- Powerful Numpy numpy array는 파이썬 리스트에 비해 연산이 빠르다. broadcast, static type binding, fixed array size, ... 등의 vectorize 조건에서. == 원소의 개수가 많을 때. 그렇다면 Numpy는 정말 얼마나 강력한가? np.random.seed(0) # Numpy array의 각 원소의 역수를 취하는 함수. # values라고 하는 list 또는 numpy array를 받아서 해당하는 numpy array를 저장하는 함수로 # 하나씩 역수를 취해준다. def reverse_num(values): output = np.empty(len(values)) for i in range(len(values)): output[i] = 1...
- Aggregation functions : 전체 데이터 값에 대해 수치적 계산을 해 주는 함수 mat1 array([[-0.92644426, 0.45063478, 0.61315517], [-0.32615381, 1.10159801, -0.91424833], [-0.69560478, 0.01941608, 0.18662921], [ 1.30146264, -1.1894387 , -0.11196524], [ 0.23942379, -0.21262613, -0.11753845]]) # 15개 숫자의 총합. np.sum(mat1) axis : 기본 축을 의미 axis=0 column 을 기준으로 연산 axis=1 은 row 를 기준으로 연산 # 다른 축으로 더해보기 np.sum(mat1, axis=0) np.su..
- Numpy Methods jupyter notebook에서 글자 + Shift + Tab을 누르면 설명이 나온다. import numpy as np # 표준정규분포에서 random sampling을 한 원소를 가지는 5x3 행렬을 만든다. mat1 = np.random.randn(5,3) mat1 array([[-0.92644426, 0.45063478, 0.61315517], [-0.32615381, 1.10159801, -0.91424833], [-0.69560478, 0.01941608, 0.18662921], [ 1.30146264, -1.1894387 , -0.11196524], [ 0.23942379, -0.21262613, -0.11753845]]) # mat1에 절대값 씌우기 np.ab..