SiLaure's Data

[EDA] Kaggle - Instacart Market Basket Analysis 본문

Records of/Projects

[EDA] Kaggle - Instacart Market Basket Analysis

data_soin 2021. 8. 18. 17:41

나는 EDA라는 말을 처음 들었다. EDM이면 몰라도...(ㅎ)

아무튼 EDA는 Exploratory Data Analysis의 준말로 탐색적 자료 분석을 뜻한다.

존 튜키라는 미국의 통계학자가 창안한 자료분석 방법론이다.

주어진 자료만 가지고 충분한 정보를 찾을 수 있도록 여러가지 탐색적 자료 분석 방법을 개발했는데, 

boxplot가 대표적인 예이다.나는 EDA를 통계 정보를 가설이 아닌 객관적 자료 정보의 분석을 통해 자료를 이해하는 것이라고 해석했다.이번 미니 프로젝트에서 EDA를 수행할 대상으로 다음 5가지 주제가 있었다.

1. 신용카드 사용자 연체 예측 AI 경진대회 데이터셋

2. All Lending Club loan data (사용자 대출 여부 예측 대회 데이터셋)

3. Groceries Dataset

4. Instacart Market Basket Analysis (고객의 물품 재구매 예측 여부 대회 데이터셋)

5. Prudential Life Insurance Assessment (보험 고객의 리스크 예측 대회 데이터셋)

나는 주제를 선정하기 전날 마켓컬리에서 4만원을 주문한 전적이 있으므로,,내가 가장 재미를 느낄 것 같은 4번을 선택했다.잘 모르는 걸 하면 어려움+흥미없음 으로 드랍하게 될까봐...나의 EDA를 수행하기 전 코드 필사 3~4개 정도를 하라고 하셔서, 3개정도 했다.아직 블로그에는 1개밖에 포스팅 하지 않았지만..이제 앞으로 어떻게 EDA를 수행했는지 가보자고~~~~!


https://www.kaggle.com/c/instacart-market-basket-analysis

  • orders_df는 주문에 대한 모든 정보를 가지고 있다.
  • order_products_train과 order_products_prior에 있는 열이 동일하다.
  • 고객의 모든 이전 주문 정보는 order_products_prior 파일에 있다. 

Comments