목록Records of (68)
SiLaure's Data

HTTP(Hyper Text Transfer Protocol) : HTML 문서 등의 리소스를 전송하는 프로토콜* Protocol : 미리 정의된 규약 Hyper Text : HTML 문서 HTML : Hyper Text Markup Language 모든 Web Page는 HTML로 되어있다. 결국 HTTP란 HTML 문서를 전송하는 규약으로, 웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있다. - HTTP를 요청하는 방식 2가지 1. Get 요청방식 데이터를 URL에 포함하여 전달하는 방식 정보 공유가 가능하다. 주로 리소스(페이지) 요청에 사용된다. 2. Post 요청 눈에 안 보이는 요청 방식이다. 데이터를 숨기기 위해 데이터를 Form data에 포함하여 전달한다. 주로 로그인..

EDA를 수행할 때 포함되어야 하는 것들은 다음과 같다. 1. 평균, 분산과 같은 통계량들을 확인하였는가? 2. 시각화 기법들(barplot, histplot 등)을 사용하였는가? 3. pivot table을 이용하여 데이터를 다양한 시각으로 관찰하였는가? 4. pandas fancy indexing을 활용하여 원하는 데이터를 필터링하여 사용하였는가? 5. 분석한 코드에 설명(주석 or Markdown)을 기재하였는가? 일단 import와 data 읽어오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set_theme(style='whitegrid') plt.style.use(..
- Indexing (same as python list, but more powerful) 기본적으로는 list indexing과 동일하다. 그러나 list indexing에서는 제공되지 않는 (리스트 안에 수식 --연산기능)가 제공된다. 콜론(:) 이 slicing 기능을 한다. array 생성 arr1 = np.arange(10) arr1 출력 : array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 첫 번째 원소 arr1[0] 출력 : 0 마지막 원소 arr1[-1] 출력 : 9 앞에서부터 원소 3개 slicing arr1[:3] 출력 : array([0, 1, 2]) 2차원 numpy array arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9,..
import pandas as pd # 다른 파일도 불러오자. data2 = pd.read_csv("../data/kaggle_survey_2020_responses.csv") data2 # 박사 학위 소지자들만 골라보자. data2.Q4.unique() # --masking 작업 data2["Q4"] == "Doctoral degree" data2[data2.Q4 == "Doctoral degree"] # masking을 전체 dataframe에 index로 걸어주면 해당 column이 true인 데이터만 뽑아낼 수 있다. phd = data2["Q4"] == "Doctoral degree" phd # (OPTIONAL) 박사 학위 소지자이면서, 대한민국 국적을 가진 사람들을 뽑아보자. # set(ph..

- Heatmap 정사각형 그림에 데이터에 대한 정도 차이를 색 차이로 보여주는 plot. --feature 간 수치의 차이가 있어야 한다. 말 그대로 heatmap이기 때문에, 열화상 카메라로 사물을 찍은 것처럼 정보의 차이를 보여준다. pairplot과 비슷하게 feature간 관계를 시각화할 때 많이 사용하며, pairplot과 함께 쓰는 경우가 많다. feature의 수가 많을 때 정보의 차이를 확연하게 확인할 수 있다. 상관계수로 계산한 행렬로 차이를 나타낸다. 상관계수 : -1과 1사이의 수로, 1에 가까울 수록 양의 상관관계, -1에 가까울 수록 음의 상관관계이다. 0이면 관계가 없는 서로 독립된 feature이다. heatmap을 찍기 전 각 feature간 상관관계를 파악하기 위해 Cor..

- Scatterplot(산포도/산점도) lineplot과 비슷하게 x, y에 대한 전체적인 분포를 확인하는 plot. lineplot은 경향성에 초점을 둔다면, scatterplot은 데이터 그 자체가 퍼져있는 모양에 중점을 둔다. penguin 데이터에 scatterplot을 출력 body mass에 대한 flipper length의 분포를 species 의 차이 별로 뿌려준다. sns.scatterplot(data=penguins, x='body_mass_g', y='flipper_length_mm', hue='species') 출력 : 부리의 두께와 깊이가 성별로 얼마나 차이나는지 알 수 있는 plot이 출력된다. sns.scatterplot(data=penguins, x='bill_length_..

선을 이용한 plot들 - Lineplot : 특정 데이터를 x, y로 표시하여 관계를 확인할 수 있는 plot. (선 그래프) 수치형 지표들 간의 경향을 파악할 때 많이 사용한다. x와 y의 관계 변화를 볼 때 사용하기 좋다. 종에 따른 몸무게와 발사이즈의 분포 sns.lineplot(data=penguins, x='body_mass_g', y='flipper_length_mm', hue='species') 출력 : 종에 따른 부리의 길이와 깊이의 분포 sns.lineplot(data=penguins, y='bill_length_mm', x='bill_depth_mm', hue='species') 출력 : - Pointplot : 선을 그림과 동시에 각 포인트 별 얼마나 차이가 있는지 보여주는 plot..

분포 정보를 보여주는 plotting 기법 - Boxplot : 데이터의 각 종류별로 사분위 수(quantile)를 표시하는 plot. 특정 데이터의 전체적인 분포를 확인하기 좋은 시각화 기법. --중요 데이터가 어디에 얼마나 있나 확인하기 좋다. outlier(◆)를 통해 주요 분포에서 벗어난 데이터가 있는지 확인할 수 있다. box와 전체 range의 그림을 통해 outlier를 찾기 쉽다. (IQR : Inter-Quantile Range) penguin 데이터에 boxplot을 출력 sns.boxplot(data=penguins, x='flipper_length_mm', y='species', hue='species') 출력 : boxplot 안의 선 : 평균 box의 크기 : 평균을 기준으로 전..