목록전체 글 (75)
SiLaure's Data
어제는 너무 지옥같은 하루였다. 계절성 알러지 비염이 최고조에 달해서 눈을 수시로 비비고 콧물은 쉴 새 없이 흘렀다. 코와 눈을 문지르고 나면 재채기도 연달아 세 번은 했다. 정신을 차릴 수가 없었고 수업에 집중은 무슨 내가 어디 앉아있는지도 알아차리기 힘들었다. 눈에 보이는 모든걸 다 던져버리고 싶었다. 올해는 왜 이렇게 심한걸까? 문을 계속 열어놔서 일까? 알러지는 정말 고치지 못하는 증후군인가? 결국은 자습시간에 병원을 가려고 준비하는데 빨랫대가 거울에 쏟아져 거울 위에 있던 향수들이 침대로 우수수 쏟아졌다. 제일 아끼고 제일 많이 남아있던 향수병 하나가 깨졌다 침대는 온통 유리조각으로 뒤덮혔고 이불과 침대프레임, 가방, 방바닥에 알콜 냄새가 가시지 않은 향수가 쏟아졌다. 치울 엄두도 나지 않아..
진행중 독서 30분 통계학 - 30분 통계학이라는 제목과 다르게 너무 깊게 들어가서 중단함 핸즈온 머신러닝 1판 수학공부 수학 1 유튜브 데이터 기초 - 듣다 맒 타이타닉 - 듣다 맒 따릉이 EDA 인강 - 듣다 맒 해야함 EDA 뒷정리 - 참고한 것들 블로그에 정리하기 수2까지 끝내기 핸즈온 2판 구하기 머신러닝 진도 따라가기 회귀분석 회귀계수 단순/다중 선형회귀분석 다중공선성 회귀모델 성능지표 실습 변수선택법 교호작용 다중회귀보형 검증 실습 로지스틱 회귀분석 회귀계수 축소법, 종류, 차이점 차원축소 공분산 행렬 PCA 나이브베이즈
선형 회귀분석(Linear Regression) 독립변수와 종속변수가 선형적인 관계가 있다라는 가정 하에 분석 선형적인 관계 : 𝑋가 증가하면 𝑌도 증가하는 관계 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움 의사결정 나무(Decision Tree) 독립변수의 조건에 따라 종속변수를 분리(비가내린다 -> 축구를 한다/하지 않는다) 이해하기 쉬우나 overfitting이 잘 일어남 overfitting : 과적합. 학습데이터에 대해 지나치게 정확하게 맞춘 결과로 실제 데이터에는 맞지 않아 예측이 어려워 지는 것 KNN(K-Nearest Neighbor) 새로 들어온 데이터를 주변 k개의 class 중 하나로 분류하는 기법 k는 사용자가 지정한다.(Hyper Paramet..
지도학습(Supervised Learning) 컴퓨터에게 가르치는 것 𝒀 = 𝒇 (𝑿)에 대하여 입력변수 (𝑿)와 출력변수 (𝒀)의 관계에 대하여 모델링 하는 것 (𝒀에 대하여 예측 또는 분류하는 문제 회귀(regression) : 입력변수 𝑿에 대해서 연속형 출력변수 𝒀를 예측 키, 몸무게, BMI 지수 등 분류(classification) : 입력변수 𝑿에 대해서 이산형 출력변수 𝒀(class)를 예측 성별, 흡연 여부, 질병 여부, 비만 여부, 주가 등락 등 클래스를 가지는 것 비지도학습(Unsupervised Learning) 출력변수 (𝒀)가 존관하지 않고, 입력변수 (𝑿) 간의 관계에 대하여 모델링 하는 것 군집 분석 : 유사한 데이터끼리 그룹화 PCA : 독립 변수들의 차원을 축소화 강화학습..
무엇(𝑿)으로 무엇(𝒀)을 예측하고 싶다 Machine Learning의 개념 기계학습 또는 머신러닝(Machine Learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.(wikipedia) 주어진 데이터를 통해서 입력변수와 출력변수 간의 관계를 만드는 함수 f를 만드는 것 주어진 데이터 속에서 데이터의 특징을 찾아내는 함수 f를 만드는 것 Machine Learning으로 할 수 있는 것들 X Y Machine Learning 결과 고객들의 개인정보 및 금융 관련 정보 대출 연체 여부 대출 연체자 예측 탐지 모델, 대출 연체 관련 주요 feature 추출 게임 유저들의 게임 내 활동 정보 게임 이탈 여부/어뷰징 여부 이상 탐지 모델 숫자 손..
기초통계분석의 이해 출처 : https://rlacksdid93.wixsite.com/930724/post/data-statistical-analysis-gicotonggyeryangyi-ihae 통계(Statistics) 통계학(Status)의 어원은 라틴어 '국가'라는 단어에서 유래되었다. 예전부터 통계라는 것은 어느 한 국가나 집단의 지표로 활용되어 왔다. 농업생산량, 인구, 군사력, 세금 등 한 나라를 경영함에 있어서 필요한 자료들의 모임을 칭하는 말이었다. 최근의 '통계는 특정 집단이나 현상의 효율적인 자료를 얻어 합리적인 해석을 하는 것으로 정의된다. 어떤 개인(단일 Data)의 행동과 문제가 아닌 집단(Group)에서 비롯된 문제 또는 현상을 추정하는 것이다. 탐색적 분석에서의 통계 탐색적 ..
나는 EDA라는 말을 처음 들었다. EDM이면 몰라도...(ㅎ) 아무튼 EDA는 Exploratory Data Analysis의 준말로 탐색적 자료 분석을 뜻한다. 존 튜키라는 미국의 통계학자가 창안한 자료분석 방법론이다. 주어진 자료만 가지고 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발했는데, boxplot가 대표적인 예이다.나는 EDA를 통계 정보를 가설이 아닌 객관적 자료 정보의 분석을 통해 자료를 이해하는 것이라고 해석했다.이번 미니 프로젝트에서 EDA를 수행할 대상으로 다음 5가지 주제가 있었다. 1. 신용카드 사용자 연체 예측 AI 경진대회 데이터셋 2. All Lending Club loan data (사용자 대출 여부 예측 대회 데이터셋) 3. Groceries D..
코드 필사 첫 번째 출처 : https://www.kaggle.com/sudalairajkumar/simple-exploration-notebook-instacart In [11]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns color = sns.color_palette() In [12]: %matplotlib inline pd.options.mode.chained_assignment = None ============================================================================ In [28]: # from subprocess i..
패스트캠퍼스 검색광고 데이터 분석 데이터의 구성 : 분석목표 : 중점관리 키워드, 저효율 키워드 추출 중점관리 광고그룹, 저효율 광고그룹 추출 분석과정 : 데이터 전처리 데이터 탐색 시각화 데이터분석 1. 데이터 전처리 학습목표 : read_excel함수를 사용하여 파이썬에 데이터 불러오기 데이터프레임의 열 단위 수치연산 및 데이터 타입 다루기 In [1]: import pandas as pd from pandas import DataFrame from pandas import Series In [2]: import matplotlib.pyplot as plt In [3]: # matplotlib 한글 폰트 출력코드 # 출처 : 데이터공방( https://kiddwannabe.blog.me) import..
데이터 분석 과정과 시각화 머신러닝의 과정 데이터 수집 데이터 전처리 데이터 탐색 ★ 모델 선택 모델 평가 및 적용 시각화의 필요성 대량의 데이터 파악 가능 데이터의 패턴 파악 가능 In [16]: import matplotlib.pyplot as plt In [17]: import pandas as pd from pandas import DataFrame from pandas import Series In [18]: # matplotlib 한글 폰트 출력코드 # 출처 : 데이터공방( https://kiddwannabe.blog.me) import matplotlib from matplotlib import font_manager, rc import platform try : if platform.sys..