목록Records of/Learning (53)
SiLaure's Data
1. 관계형 데이터베이스 2차원 표, 목록(Excel, Google SpreadSheet) Key와 Value들의 간단한 관계를 테이블화 한 것 - 관계형 모델 : 집합론에 기반을 둔 데이터베이스 모델 하나 이상의 테이블 존재, 테이블에 정보 저장. 각각의 로우(행)을 식별하는 기본키가 잆음(Primary Key) 행 : 컬럼(Column), 필드(Field), 속성(Attribute) 열 : 로우(Row), 레코드(Record), 튜플(Tuple) 2. SQL 기초 지식 - SQL(Structured Qurery Language) : DBMS의 데이터를 관리하기 위해 설계된 프로그래밍 언어(관계형 DBMS) - 장점 일반 프로그래밍 언어에 비해 간결하다. 간단한 영어 문장 사용 기본 조작 명령어(Sel..
데이터 베이스 사용 이전 텍스트 파일 형태, 비효율적, 각자 관리한 후 공유하는 방식 데이터 베이스 한곳에서 여러 사용자가 관리, 대용량, 모든 유형의 파일 관리 가능 DBMS 데이터 베이스를 관리, DBMS - 특징 실시간 접근성(real time accessibility) : 성능과 연관 계속적인 변화(continous change) 동시 공유(concurrent sharing) : 여러 사용자 내용에 따른 참조(reference by content) : 물리적 위치가 아닌 내용에 따라 참조 - 기능 삽입, 삭제, 수정, 조회(갱신/조회) 동시성 제어 장애 대응(복원) 보안(서버 내에서만 관리하여 보안에 위배되지 않는 데이터 조회가 가능) DBMS 종류 저장 방식에 따라 계층형 : 계층 구조로 데이터..
- 다음 뉴스 댓글 개수 크롤링 In [42]: import requests import json HTTP 상태 코드 1xx (정보): 요청을 받았으며 프로세스를 계속한다 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다 출처: 위키피디아 In [9]: url = 'https://comment.daum.net/apis/v1/posts/133493400/comments?parentId=0&offset=0&limit=3&sort=POPULAR&isInitial=true&hasN..
beautifulsoup 모듈 사용하기 id, class 속성으로 tag 찾기 CSS를 이용하여 tag 찾기 속성 값으로 tag 찾기 정규표현식으로 tag 찾기 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기 In [1]: import requests from bs4 import BeautifulSoup - 다음 뉴스 데이터 추출 뉴스기사에서 제목, 작성자, 작성일 , 댓글 개수 추출 뉴스링크 tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용 id의 경우 원칙적으로 한 html 문서 내에서 유일 - id, class 속성으로 tag 찾기 타이틀 작성자, 작성일 In [2]: url = 'https://news.v.daum.net/v/20190728165812603' resp ..
1. Titanic data load 및 환경 세팅 1) 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('ggplot') # ggplot style을 사용합니다. 2) 타이타닉 데이터 불러오기 train = pd.read_csv("../../../../../Kaggle/data/titanic/train.csv") test = pd.read_csv("../../../../../Kaggle/data/titanic/test.csv") 3) titanic 생존 여부 분석에 필요하지 않은 column들 없애기 Ⅰ.결측치 확인 및 처리 -- Imputa..
Parsing? html문서 내에서 원하는 값만 추출하는 것 - HTML 문자열 파싱 문자열로 정의된 html 데이터 파싱하기 (예제) html = ''' Contents Title Test contents Test Test Test 1 Test Test Test 2 Test Test Test 3 ''' - find() 함수 : 특정 html tag를 검색하거나 검색 조건을 명시하여 찾고자 하는 tag를 검색할 수 있다. soup = BeautifulSoup(html) tag 명으로 찾을 수 있다. soup.find('h3') 출력 : Contents Title 여러 개일 경우 첫 번째의 태그를 찾아준다. soup.find('p') 출력 : Test contents 속성을 이용해서 같은 이름을 가진 다른..
- 공공데이터 Open API 사용하기 1. 공공데이터 포털 회원가입/로그인 (https://www.data.go.kr/) 2. API 사용 요청, 키 발급 3. API 문서(specification) 확인 4. API 테스트 및 개발 - Key 값 확인하기 서비스 호출을 트래킹 할 목적이나 악의적인 사용을 금지할 목적으로 주로 사용한다. 새로 발급받은 키는 30분 이후 사용이 가능하다. (1시간에서 변경됨.) 참고문서를 다운받아서 확인해보면 API 활용 메뉴얼을 볼 수 있다. - EndPoint 확인하기 : API가 서비스 되는 서버의 IP 또는 domain 주소 http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKe..
- request 모듈 1. http request/response를 위한 모듈 2. HTTP method를 메소드 명으로 사용하여 request 요청 e.g. get, post 1. get 요청하기 1) http get 요청하기 2) query parameter 이용하여 데이터 전달하기 url을 통해 요청하기 import requests url = 'https://news.v.daum.net/v/20190728165812603' resp = requests.get(url) resp 출력 : 200은 가장 일반적인 성공 메시지 resp.text 출력 : 페이지 소스 보기(view-source:https://news.v.daum.net/v/20190728165812603)와 같다 2. post 요청하기 1..