목록Records of/Projects (7)
SiLaure's Data
나는 EDA라는 말을 처음 들었다. EDM이면 몰라도...(ㅎ) 아무튼 EDA는 Exploratory Data Analysis의 준말로 탐색적 자료 분석을 뜻한다. 존 튜키라는 미국의 통계학자가 창안한 자료분석 방법론이다. 주어진 자료만 가지고 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발했는데, boxplot가 대표적인 예이다.나는 EDA를 통계 정보를 가설이 아닌 객관적 자료 정보의 분석을 통해 자료를 이해하는 것이라고 해석했다.이번 미니 프로젝트에서 EDA를 수행할 대상으로 다음 5가지 주제가 있었다. 1. 신용카드 사용자 연체 예측 AI 경진대회 데이터셋 2. All Lending Club loan data (사용자 대출 여부 예측 대회 데이터셋) 3. Groceries D..
코드 필사 첫 번째 출처 : https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-instacart In [11]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns color = sns.color_palette() In [12]: %matplotlib inline pd.options.mode.chained_assignment = None ============================================================================ In [28]: # from subprocess i..
이수안 선생님 감사합니다.. 강의 들으면서 따라치기 출처 : https://www.youtube.com/watch?v=qil0BtP8kLY Selenium 및 웹 드라이버 설치 In [4]: # jupyter notebook에서 !는 ! 이후 명령을 cmd에서 입력하는 것과 동일하게 처리해준다. !pip install Selenium !apt-get update !apt install chromium-chromedriver # chromedriver 현재 경로에 복사 !cp /usr/lib/chromium-brower/chromedriver /usr/bin import sys # sys.path에 경로 insert sys.path.insert(0, '/usr/lib/chromium-brower/chrom..
그래도 점점 나아지고 있으며 깨달음을 얻음 내가 알고있는 지식으로 되는 게 아니었구나!@^^ 참고한 사이트 : https://velog.io/@hyungjin1124/Selenium-%ED%99%9C%EC%9A%A92 흑흑 CGV의 영화리뷰는 # 뒤의 숫자를 변경해도 페이지가 변경되지 않기 때문에 클릭을 통해서 페이지 간의 이동이 가능하다. 따라서 Selenium을 사용하여 크롤링을 해야한다. In [6]: # 필요한 Selenium 설정 import sys sys.path.insert(0, '/Users/user/chormedriver') from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add..
아직까지는 배운 내용으로 어떻게든 해보고 있음. 저 \를 없애려고 노력했다... 참고한 사이트 : https://eunjin3786.tistory.com/149 In [1]: import requests import json import bs4 In [8]: page_num = 1 movie_num = 84775 url = f'http://www.cgv.co.kr/movies/detail-view/?midx={movie_num}#{page_num}' param = "{\"TotalCount\":14509,\"List\":[{\"CommentIdx\":31525436,\"CommentTypeCode\":524,\"Point\":0,\"CommentText\":\"너무너무\\n재밌어요 잘봤어요\",\"Use..
(1)에서 나온 결과를 해결해보려 했던 노력의 흔적 네이버링과 구글링을 하기 시작ㅎ 혼돈의 시작과 우주여행 출발... In [1]: import requests import json import bs4 In [60]: page_num = 1 movie_num = 84775 url = f'http://www.cgv.co.kr/movies/detail-view/?midx={movie_num}#{page_num}' param = "{\"TotalCount\":14509,\"List\":[{\"CommentIdx\":31525436,\"CommentTypeCode\":524,\"Point\":0,\"CommentText\":\"너무너무\\n재밌어요 잘봤어요\",\"UserID\":\"mth0105\",\"Reg..
방황의 시작.. 어떻게든 수업에서 배운 것을 써보려고 했음. 하지만 알았지 그건 틀렸다는 걸.... In [183]: import requests import json # 괜히 불러옴 import ssl # 괜히 불러옴 2 import bs4 In [152]: # 1. 페이지 주소 규칙화 # www.cgv.co.kr/movies/detail-view/%3Fmidx=84775#1 # url = f'www.cgv.co.kr/movies/detail-view' # payload = {'keword' : 'midx=84775#1'} # r = requests.get(url, params=payload) # print(r.status_codeatus_code) # print(r.text) In [158]: mov..