SiLaure's Data

데이터분석과 선형대수 본문

Records of/Another

데이터분석과 선형대수

data_soin 2021. 7. 23. 21:53

보험회사의 고객 데이터

비슷하다?
비슷하다는 기준이 무엇인지 알아야 한다.

 

Q. 벡터란 무엇인가?

 

 

 

Vector = List of Numbers

 

기저(basis) = 축(axis)
축?
: 공간 또는 위치를 나타낼 때의 절대적 개념의 기준
데이터의 column

 

차원(dimension) = 벡터의 원소 개수
숫자.
숫자가 3개면 3차원, 1000000개면 1000000차원

 

방향(direction) = 단위 벡터(unit vector)
벡터를 그 벡터의 크기로 나눈 것
어떤 벡터가 어느 방향을 가리키고 있는지 나타내는 것

 

categorical feature

- categorical feature

만약 어떤 설문조사에서 남 / 여 / 무응답 인 선택지가 있을 때
이를 수치화 한다면 0 / 1 / 2 로 해도 될까?
학력을 초졸 / 중졸 / 고졸 / 학사 / 석사 / 박사 / 교수 이상을 숫자로 표시한다면?
선호도를 매우싫음/싫음/보통/좋음/매우좋음 을 숫자로 표시한다면?
선호도처럼 feature를 수치화 했을 때 의미가 있으므로 ordinal variable이라고 한다.
반대로 feature를 수치화 했을 때 의미가 없는 것을 nominal variable라고 한다.
  • ordinal variable --> ordinal encoding
  • nominal variable --> one-hot encoding

 

0 x 0.1 + 1 x 9 + 3 x 1

내적값 = 각 좌표끼리 곱해서 더한 값

Q. 내적값이 0이되는 경우는?

A. 수직인 경우

   --> 서로 겹치지 않는다.

   --> 데이터의 정보를 섞이지 않게 하기 위해 완전히 다른 정보들을 선택

e.g. 
남 / 여 / 무응답
1 0 0
0 1 0
0 0 1

 

x = (0, 0, 0)
y = (1, 2, 3) 일 때,
맨하탄 거리를 구하면:?
sqrt( (1 - 0)^2 + (2-0)^2 + (3-0)^2 )
= sqrt ( 1^2 + 2^2 + 3^2)
원점으로부터 떨어진 거리 --벡터의 크기

 

 

전체 데이터 = Input Data
분석할 대상으로 추린 데이터 = Feature Data

 

 

 

Comments