목록분류 전체보기 (75)
SiLaure's Data
Parsing? html문서 내에서 원하는 값만 추출하는 것 - HTML 문자열 파싱 문자열로 정의된 html 데이터 파싱하기 (예제) html = ''' Contents Title Test contents Test Test Test 1 Test Test Test 2 Test Test Test 3 ''' - find() 함수 : 특정 html tag를 검색하거나 검색 조건을 명시하여 찾고자 하는 tag를 검색할 수 있다. soup = BeautifulSoup(html) tag 명으로 찾을 수 있다. soup.find('h3') 출력 : Contents Title 여러 개일 경우 첫 번째의 태그를 찾아준다. soup.find('p') 출력 : Test contents 속성을 이용해서 같은 이름을 가진 다른..

- 공공데이터 Open API 사용하기 1. 공공데이터 포털 회원가입/로그인 (https://www.data.go.kr/) 2. API 사용 요청, 키 발급 3. API 문서(specification) 확인 4. API 테스트 및 개발 - Key 값 확인하기 서비스 호출을 트래킹 할 목적이나 악의적인 사용을 금지할 목적으로 주로 사용한다. 새로 발급받은 키는 30분 이후 사용이 가능하다. (1시간에서 변경됨.) 참고문서를 다운받아서 확인해보면 API 활용 메뉴얼을 볼 수 있다. - EndPoint 확인하기 : API가 서비스 되는 서버의 IP 또는 domain 주소 http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKe..

- request 모듈 1. http request/response를 위한 모듈 2. HTTP method를 메소드 명으로 사용하여 request 요청 e.g. get, post 1. get 요청하기 1) http get 요청하기 2) query parameter 이용하여 데이터 전달하기 url을 통해 요청하기 import requests url = 'https://news.v.daum.net/v/20190728165812603' resp = requests.get(url) resp 출력 : 200은 가장 일반적인 성공 메시지 resp.text 출력 : 페이지 소스 보기(view-source:https://news.v.daum.net/v/20190728165812603)와 같다 2. post 요청하기 1..

HTTP(Hyper Text Transfer Protocol) : HTML 문서 등의 리소스를 전송하는 프로토콜* Protocol : 미리 정의된 규약 Hyper Text : HTML 문서 HTML : Hyper Text Markup Language 모든 Web Page는 HTML로 되어있다. 결국 HTTP란 HTML 문서를 전송하는 규약으로, 웹 사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있다. - HTTP를 요청하는 방식 2가지 1. Get 요청방식 데이터를 URL에 포함하여 전달하는 방식 정보 공유가 가능하다. 주로 리소스(페이지) 요청에 사용된다. 2. Post 요청 눈에 안 보이는 요청 방식이다. 데이터를 숨기기 위해 데이터를 Form data에 포함하여 전달한다. 주로 로그인..

EDA를 수행할 때 포함되어야 하는 것들은 다음과 같다. 1. 평균, 분산과 같은 통계량들을 확인하였는가? 2. 시각화 기법들(barplot, histplot 등)을 사용하였는가? 3. pivot table을 이용하여 데이터를 다양한 시각으로 관찰하였는가? 4. pandas fancy indexing을 활용하여 원하는 데이터를 필터링하여 사용하였는가? 5. 분석한 코드에 설명(주석 or Markdown)을 기재하였는가? 일단 import와 data 읽어오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set_theme(style='whitegrid') plt.style.use(..
- Indexing (same as python list, but more powerful) 기본적으로는 list indexing과 동일하다. 그러나 list indexing에서는 제공되지 않는 (리스트 안에 수식 --연산기능)가 제공된다. 콜론(:) 이 slicing 기능을 한다. array 생성 arr1 = np.arange(10) arr1 출력 : array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 첫 번째 원소 arr1[0] 출력 : 0 마지막 원소 arr1[-1] 출력 : 9 앞에서부터 원소 3개 slicing arr1[:3] 출력 : array([0, 1, 2]) 2차원 numpy array arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9,..
import pandas as pd # 다른 파일도 불러오자. data2 = pd.read_csv("../data/kaggle_survey_2020_responses.csv") data2 # 박사 학위 소지자들만 골라보자. data2.Q4.unique() # --masking 작업 data2["Q4"] == "Doctoral degree" data2[data2.Q4 == "Doctoral degree"] # masking을 전체 dataframe에 index로 걸어주면 해당 column이 true인 데이터만 뽑아낼 수 있다. phd = data2["Q4"] == "Doctoral degree" phd # (OPTIONAL) 박사 학위 소지자이면서, 대한민국 국적을 가진 사람들을 뽑아보자. # set(ph..

- Heatmap 정사각형 그림에 데이터에 대한 정도 차이를 색 차이로 보여주는 plot. --feature 간 수치의 차이가 있어야 한다. 말 그대로 heatmap이기 때문에, 열화상 카메라로 사물을 찍은 것처럼 정보의 차이를 보여준다. pairplot과 비슷하게 feature간 관계를 시각화할 때 많이 사용하며, pairplot과 함께 쓰는 경우가 많다. feature의 수가 많을 때 정보의 차이를 확연하게 확인할 수 있다. 상관계수로 계산한 행렬로 차이를 나타낸다. 상관계수 : -1과 1사이의 수로, 1에 가까울 수록 양의 상관관계, -1에 가까울 수록 음의 상관관계이다. 0이면 관계가 없는 서로 독립된 feature이다. heatmap을 찍기 전 각 feature간 상관관계를 파악하기 위해 Cor..