SiLaure's Data

1일차. 빅데이터 이해하기 본문

Records of

1일차. 빅데이터 이해하기

data_soin 2021. 7. 19. 17:50

 

<김용담 강사>

- BIG DATA의 특징 4V 

 : Volume, Variety, Velocity, Veracity

 

· peta 단위의 데이터가 있어야 빅데이터라고 한다.

· 데이터의 속도. streaming data. e.g) YouTube 등

 

- 데이터는 정형데이터, 비정형 데이터로 나뉜다.

 

Q1. 대용량 고객거래 데이터를 파악하면 어떤 것들을 알 수 있을까?

Q2. 고객거래 데이터가 엄청나게(peta-scale)로 많아지면 어떤 문제가 생길까?

Q3. 대용량 SNS 데이터를 파악하면 어떤 것들을 알 수 있을까?

Q4. SNS 데이터는 실시간으로 엄청나게 많이 생성되는데, 이런 데이터를 관리하려면 어떻게 해야할까?

 

- 빅데이터의 정의

1. 기존의 데이터베이스 시스템으로는 저장, 관리 분석하기 어렵다, 비싸다.

2. 기존의 데이터베이스 시스템으로는 비정형 데이터(텍스트, 사진, 비디오)들을 저장하기 좋지 않다.

3. 따라서 새로운 툴로 Apache Hadoop(Hadoop EcoSystem), NoSQL 데이터베이스 시스템을 사용한다.

 

- 빅데이터와 가장 중요한 키워드 "CLOUD COMPUTING"

e.g) AZURE, google AI CLOUD, icloud, NAVER MY BOX, MicroSoft OneDrive

내 컴퓨터가 아닌 인터넷이 연결된 환경에서의 다른 컴퓨터의 용량과 서비스를 빌려서 사용한다.

 

- Google Colab

 

- 스카디아? -> Stadia

 

- 데이터 분석이 HOT 하다?

 => 데이터 분석을 하면 돈을 많이 벌 수 있다. -회사가- => 이윤창출多

 

- 데이터 분석이 HOT한 것과 우리가 데이터를 다루는 사람이 되는 것은 별개다.

 => 시장이 커지는 것과 직무, 기술을 다루는 것의 차이점

 

- 데이터 분석은 설득의 주요 수단이다.

· 비슷한 고객들의 의사결정에 영향을 준다.

· 의사결정권자들이 신뢰할 만한 근거를 제시할 수 있다. (객관성 부여)

 => 데이터 분석을 수행한 이유가 필요

 

- 데이터 분석 단계

1. 데이터 수집

· DATA WAREHOUSE에 필요한 형태로 데이터를 정제한 후 수집한다.

· WEB CRAWLING으로 웹에 있는 데이터를 가져온다.

 

2. 데이터 탐색(EDA - Exploratory Data Analysis)

· 통계량 분석 (평균, 중앙값, 표준편차 등)

· 시각화

 

3. 데이터 전처리(Feature Engineering)

 

4. 데이터 모델링(Target Prediction)

 

- DATA LITERACY

Data Literacy

- MS copilot

· coding 대신 해 주는 AI

 

*** 원하는 회사 및 직무 업무내용 및 지원자격, 필수사항&우대사항을 숙지하고 커리어 개발하기***

1. 머신러닝 엔지니어

2. 데이터 분석가

3. 기술 연구 전문가(Research Scientist)

4. AI SW 엔지니어

5. 데이터 사이언티스트

Comments