목록분류 전체보기 (75)
SiLaure's Data
이수안 선생님 감사합니다.. 강의 들으면서 따라치기 출처 : https://www.youtube.com/watch?v=qil0BtP8kLY Selenium 및 웹 드라이버 설치 In [4]: # jupyter notebook에서 !는 ! 이후 명령을 cmd에서 입력하는 것과 동일하게 처리해준다. !pip install Selenium !apt-get update !apt install chromium-chromedriver # chromedriver 현재 경로에 복사 !cp /usr/lib/chromium-brower/chromedriver /usr/bin import sys # sys.path에 경로 insert sys.path.insert(0, '/usr/lib/chromium-brower/chrom..
그래도 점점 나아지고 있으며 깨달음을 얻음 내가 알고있는 지식으로 되는 게 아니었구나!@^^ 참고한 사이트 : https://velog.io/@hyungjin1124/Selenium-%ED%99%9C%EC%9A%A92 흑흑 CGV의 영화리뷰는 # 뒤의 숫자를 변경해도 페이지가 변경되지 않기 때문에 클릭을 통해서 페이지 간의 이동이 가능하다. 따라서 Selenium을 사용하여 크롤링을 해야한다. In [6]: # 필요한 Selenium 설정 import sys sys.path.insert(0, '/Users/user/chormedriver') from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add..
아직까지는 배운 내용으로 어떻게든 해보고 있음. 저 \를 없애려고 노력했다... 참고한 사이트 : https://eunjin3786.tistory.com/149 In [1]: import requests import json import bs4 In [8]: page_num = 1 movie_num = 84775 url = f'http://www.cgv.co.kr/movies/detail-view/?midx={movie_num}#{page_num}' param = "{\"TotalCount\":14509,\"List\":[{\"CommentIdx\":31525436,\"CommentTypeCode\":524,\"Point\":0,\"CommentText\":\"너무너무\\n재밌어요 잘봤어요\",\"Use..

(1)에서 나온 결과를 해결해보려 했던 노력의 흔적 네이버링과 구글링을 하기 시작ㅎ 혼돈의 시작과 우주여행 출발... In [1]: import requests import json import bs4 In [60]: page_num = 1 movie_num = 84775 url = f'http://www.cgv.co.kr/movies/detail-view/?midx={movie_num}#{page_num}' param = "{\"TotalCount\":14509,\"List\":[{\"CommentIdx\":31525436,\"CommentTypeCode\":524,\"Point\":0,\"CommentText\":\"너무너무\\n재밌어요 잘봤어요\",\"UserID\":\"mth0105\",\"Reg..
방황의 시작.. 어떻게든 수업에서 배운 것을 써보려고 했음. 하지만 알았지 그건 틀렸다는 걸.... In [183]: import requests import json # 괜히 불러옴 import ssl # 괜히 불러옴 2 import bs4 In [152]: # 1. 페이지 주소 규칙화 # www.cgv.co.kr/movies/detail-view/%3Fmidx=84775#1 # url = f'www.cgv.co.kr/movies/detail-view' # payload = {'keword' : 'midx=84775#1'} # r = requests.get(url, params=payload) # print(r.status_codeatus_code) # print(r.text) In [158]: mov..

- 다음 뉴스 댓글 개수 크롤링 In [42]: import requests import json HTTP 상태 코드 1xx (정보): 요청을 받았으며 프로세스를 계속한다 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다 출처: 위키피디아 In [9]: url = 'https://comment.daum.net/apis/v1/posts/133493400/comments?parentId=0&offset=0&limit=3&sort=POPULAR&isInitial=true&hasN..
beautifulsoup 모듈 사용하기 id, class 속성으로 tag 찾기 CSS를 이용하여 tag 찾기 속성 값으로 tag 찾기 정규표현식으로 tag 찾기 개발자도구를 이용하여 동적으로 로딩되는 데이터 추출하기 In [1]: import requests from bs4 import BeautifulSoup - 다음 뉴스 데이터 추출 뉴스기사에서 제목, 작성자, 작성일 , 댓글 개수 추출 뉴스링크 tag를 추출할때는 가장 그 tag를 쉽게 특정할 수 있는 속성을 사용 id의 경우 원칙적으로 한 html 문서 내에서 유일 - id, class 속성으로 tag 찾기 타이틀 작성자, 작성일 In [2]: url = 'https://news.v.daum.net/v/20190728165812603' resp ..

1. Titanic data load 및 환경 세팅 1) 라이브러리 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('ggplot') # ggplot style을 사용합니다. 2) 타이타닉 데이터 불러오기 train = pd.read_csv("../../../../../Kaggle/data/titanic/train.csv") test = pd.read_csv("../../../../../Kaggle/data/titanic/test.csv") 3) titanic 생존 여부 분석에 필요하지 않은 column들 없애기 Ⅰ.결측치 확인 및 처리 -- Imputa..