목록Records of/Learning (53)
SiLaure's Data
HTTP(Hyper Text Transfer Protocol) : HTML 문서 등의 리소스를 전송하는 프로토콜* Protocol : 미리 정의된 규약 Hyper Text : HTML 문서 HTML : Hyper Text Markup Language 모든 Web Page는 HTML로 되어있다. 결국 HTTP란 HTML 문서를 전송하는 규약으로, 웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있다. - HTTP를 요청하는 방식 2가지 1. Get 요청방식 데이터를 URL에 포함하여 전달하는 방식 정보 공유가 가능하다. 주로 리소스(페이지) 요청에 사용된다. 2. Post 요청 눈에 안 보이는 요청 방식이다. 데이터를 숨기기 위해 데이터를 Form data에 포함하여 전달한다. 주로 로그인..
- Indexing (same as python list, but more powerful) 기본적으로는 list indexing과 동일하다. 그러나 list indexing에서는 제공되지 않는 (리스트 안에 수식 --연산기능)가 제공된다. 콜론(:) 이 slicing 기능을 한다. array 생성 arr1 = np.arange(10) arr1 출력 : array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 첫 번째 원소 arr1[0] 출력 : 0 마지막 원소 arr1[-1] 출력 : 9 앞에서부터 원소 3개 slicing arr1[:3] 출력 : array([0, 1, 2]) 2차원 numpy array arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9,..
- Heatmap 정사각형 그림에 데이터에 대한 정도 차이를 색 차이로 보여주는 plot. --feature 간 수치의 차이가 있어야 한다. 말 그대로 heatmap이기 때문에, 열화상 카메라로 사물을 찍은 것처럼 정보의 차이를 보여준다. pairplot과 비슷하게 feature간 관계를 시각화할 때 많이 사용하며, pairplot과 함께 쓰는 경우가 많다. feature의 수가 많을 때 정보의 차이를 확연하게 확인할 수 있다. 상관계수로 계산한 행렬로 차이를 나타낸다. 상관계수 : -1과 1사이의 수로, 1에 가까울 수록 양의 상관관계, -1에 가까울 수록 음의 상관관계이다. 0이면 관계가 없는 서로 독립된 feature이다. heatmap을 찍기 전 각 feature간 상관관계를 파악하기 위해 Cor..
- Scatterplot(산포도/산점도) lineplot과 비슷하게 x, y에 대한 전체적인 분포를 확인하는 plot. lineplot은 경향성에 초점을 둔다면, scatterplot은 데이터 그 자체가 퍼져있는 모양에 중점을 둔다. penguin 데이터에 scatterplot을 출력 body mass에 대한 flipper length의 분포를 species 의 차이 별로 뿌려준다. sns.scatterplot(data=penguins, x='body_mass_g', y='flipper_length_mm', hue='species') 출력 : 부리의 두께와 깊이가 성별로 얼마나 차이나는지 알 수 있는 plot이 출력된다. sns.scatterplot(data=penguins, x='bill_length_..
선을 이용한 plot들 - Lineplot : 특정 데이터를 x, y로 표시하여 관계를 확인할 수 있는 plot. (선 그래프) 수치형 지표들 간의 경향을 파악할 때 많이 사용한다. x와 y의 관계 변화를 볼 때 사용하기 좋다. 종에 따른 몸무게와 발사이즈의 분포 sns.lineplot(data=penguins, x='body_mass_g', y='flipper_length_mm', hue='species') 출력 : 종에 따른 부리의 길이와 깊이의 분포 sns.lineplot(data=penguins, y='bill_length_mm', x='bill_depth_mm', hue='species') 출력 : - Pointplot : 선을 그림과 동시에 각 포인트 별 얼마나 차이가 있는지 보여주는 plot..
분포 정보를 보여주는 plotting 기법 - Boxplot : 데이터의 각 종류별로 사분위 수(quantile)를 표시하는 plot. 특정 데이터의 전체적인 분포를 확인하기 좋은 시각화 기법. --중요 데이터가 어디에 얼마나 있나 확인하기 좋다. outlier(◆)를 통해 주요 분포에서 벗어난 데이터가 있는지 확인할 수 있다. box와 전체 range의 그림을 통해 outlier를 찾기 쉽다. (IQR : Inter-Quantile Range) penguin 데이터에 boxplot을 출력 sns.boxplot(data=penguins, x='flipper_length_mm', y='species', hue='species') 출력 : boxplot 안의 선 : 평균 box의 크기 : 평균을 기준으로 전..
- Barplot : 어떤 데이터에 대한 값의 크기를 막대로 보여주는 plot. (a.k.a. 막대그래프) 가로 / 세로 두 가지로 모두 출력 가능하다. 히스토그램과는 다르다.(**) 수치데이터, 범주데이터와 상관 없이 그 데이터의 수치값을 찍어준다. sns.barplot(data=penguins, x='flipper_length_mm', y='species', hue='species') 출력 : x와 y를 반대로 sns.barplot(data=penguins, x='species', y='flipper_length_mm', hue='species') 출력 : - Countplot 범주형 속성을 가지는 데이터들의 histogram을 보여주는 plot. 종류별 count를 보여주는 방법다 특정 데이터에 대..
- Seaborn을 사용하기 전에 ... Library와 data를 불러오고, 시각화를 위한 세팅 하기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set_theme(style='whitegrid') penguins = sns.load_dataset('penguins') penguins 출력 : - 기본 구문 구성 sns.~~~plot(data = xxx, x, y, hue) hue : 색상을 나누는 기준 - Histplot 가장 기본적으로 사용되는 히스토그램을 출력하는 plot. 전체 데이터를 특정 구간별 정보를 확인할 때 사용한다. e.g. sns.histplot(data=..