목록Records of/Learning (53)
SiLaure's Data
선형 회귀분석(Linear Regression) 독립변수와 종속변수가 선형적인 관계가 있다라는 가정 하에 분석 선형적인 관계 : 𝑋가 증가하면 𝑌도 증가하는 관계 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움 의사결정 나무(Decision Tree) 독립변수의 조건에 따라 종속변수를 분리(비가내린다 -> 축구를 한다/하지 않는다) 이해하기 쉬우나 overfitting이 잘 일어남 overfitting : 과적합. 학습데이터에 대해 지나치게 정확하게 맞춘 결과로 실제 데이터에는 맞지 않아 예측이 어려워 지는 것 KNN(K-Nearest Neighbor) 새로 들어온 데이터를 주변 k개의 class 중 하나로 분류하는 기법 k는 사용자가 지정한다.(Hyper Paramet..
지도학습(Supervised Learning) 컴퓨터에게 가르치는 것 𝒀 = 𝒇 (𝑿)에 대하여 입력변수 (𝑿)와 출력변수 (𝒀)의 관계에 대하여 모델링 하는 것 (𝒀에 대하여 예측 또는 분류하는 문제 회귀(regression) : 입력변수 𝑿에 대해서 연속형 출력변수 𝒀를 예측 키, 몸무게, BMI 지수 등 분류(classification) : 입력변수 𝑿에 대해서 이산형 출력변수 𝒀(class)를 예측 성별, 흡연 여부, 질병 여부, 비만 여부, 주가 등락 등 클래스를 가지는 것 비지도학습(Unsupervised Learning) 출력변수 (𝒀)가 존관하지 않고, 입력변수 (𝑿) 간의 관계에 대하여 모델링 하는 것 군집 분석 : 유사한 데이터끼리 그룹화 PCA : 독립 변수들의 차원을 축소화 강화학습..
무엇(𝑿)으로 무엇(𝒀)을 예측하고 싶다 Machine Learning의 개념 기계학습 또는 머신러닝(Machine Learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.(wikipedia) 주어진 데이터를 통해서 입력변수와 출력변수 간의 관계를 만드는 함수 f를 만드는 것 주어진 데이터 속에서 데이터의 특징을 찾아내는 함수 f를 만드는 것 Machine Learning으로 할 수 있는 것들 X Y Machine Learning 결과 고객들의 개인정보 및 금융 관련 정보 대출 연체 여부 대출 연체자 예측 탐지 모델, 대출 연체 관련 주요 feature 추출 게임 유저들의 게임 내 활동 정보 게임 이탈 여부/어뷰징 여부 이상 탐지 모델 숫자 손..
패스트캠퍼스 검색광고 데이터 분석 데이터의 구성 : 분석목표 : 중점관리 키워드, 저효율 키워드 추출 중점관리 광고그룹, 저효율 광고그룹 추출 분석과정 : 데이터 전처리 데이터 탐색 시각화 데이터분석 1. 데이터 전처리 학습목표 : read_excel함수를 사용하여 파이썬에 데이터 불러오기 데이터프레임의 열 단위 수치연산 및 데이터 타입 다루기 In [1]: import pandas as pd from pandas import DataFrame from pandas import Series In [2]: import matplotlib.pyplot as plt In [3]: # matplotlib 한글 폰트 출력코드 # 출처 : 데이터공방( https://kiddwannabe.blog.me) import..
데이터 분석 과정과 시각화 머신러닝의 과정 데이터 수집 데이터 전처리 데이터 탐색 ★ 모델 선택 모델 평가 및 적용 시각화의 필요성 대량의 데이터 파악 가능 데이터의 패턴 파악 가능 In [16]: import matplotlib.pyplot as plt In [17]: import pandas as pd from pandas import DataFrame from pandas import Series In [18]: # matplotlib 한글 폰트 출력코드 # 출처 : 데이터공방( https://kiddwannabe.blog.me) import matplotlib from matplotlib import font_manager, rc import platform try : if platform.sys..
1. 광고의 진행 과정 광고주 ---- 돈 ---> 매체(네이버 구글 등) --- 노출 --- 클릭 --- 구매 ---> 고객 1. 광고 성과 지표 CTR이 높을 수록, CPM이 낮을 수록, CPC가 낮을 수록, CPA가 낮을 수록 광고 성과가 좋다. In [4]: imp=10000 # IMPRESSION(노출) clk=100 # CLICK conv=10 #CONVERSION(구매) cost=100000 In [7]: # ctr ctr = clk/imp *100 In [8]: #ctr 출력 ctr Out[8]: 1.0 In [9]: # cpm cpm = cost/imp *1000 In [11]: #cpm 출력 cpm Out[11]: 10000.0 In [12]: # cpc cpc = cost/clk In..
About ... 데이터 처리 How-To 기술 통계량 추출 - 평균, 중앙값, 최빈값, 분산, 표준편차, 4 분위, 최솟값, 최댓값 기술 통계량을 사용한 분석 - Pandas, Matplotlib Python 기본기 갖추기 - 머신러닝과 딥러닝을 진행하기 위한 기본 조건 마테킹 현업에서 각광받고 있는 파이썬 1. 대량 데이터 분석 능력 요구 - 대량 데이터 처리에 한계가 있는 Excel - 실습 예제 1 : 1,381행, 7열 - 실습 예제 2 : 41,188행, 21열 2. 광고주가 요구하는 데이터 분석 수준 증대 - 과거 : 클릭 수, 노출 수의 단순 마케팅 데이터 분석 - 현재 : 직업, 성별, 관심사, 통화시간, 결혼여부, 결제 방법 등 다양한 데이터 분석 요구 3. 배우기 쉽고 데이터 분석에 ..
1. 아키텍처란(Architecture) 1. 시스템을 만들기 위한 물리 레벨의 조합 (서버의 기능, 저장소와 네트워크 기기의 결합 등) 2. 데이터베이스 설계에서 시스템의 구성 3. 아키텍처를 통해 시스템의 용도나 목적을 추측 가능 - IT 아키텍처 : 일정 기준과 절차에 따라 조직 전체와 정보화 구성요소를 통합 분석 후, 그 관계를 구조적으로 정리한 체제, 이를 바탕으로 정보 시스템을 효율적으로 구성하기 위한 방법 아키텍처의 구성을 시스템의 목적에 맞게 결정하는 과정 서버, OS, 미들웨어, 저장소 등 폭넓은 지식 필요 적정 비용으로 필요시스템을 구축하기 위해서도 매우 중요 2. 아키텍처 역사와 개요 Stand-Alone 1980년대까지 널리 이용 데이터베이스만으로 시스템 운용 Client/Serve..