목록Records of/Another (7)
SiLaure's Data
기초통계분석의 이해 출처 : https://rlacksdid93.wixsite.com/930724/post/data-statistical-analysis-gicotonggyeryangyi-ihae 통계(Statistics) 통계학(Status)의 어원은 라틴어 '국가'라는 단어에서 유래되었다. 예전부터 통계라는 것은 어느 한 국가나 집단의 지표로 활용되어 왔다. 농업생산량, 인구, 군사력, 세금 등 한 나라를 경영함에 있어서 필요한 자료들의 모임을 칭하는 말이었다. 최근의 '통계는 특정 집단이나 현상의 효율적인 자료를 얻어 합리적인 해석을 하는 것으로 정의된다. 어떤 개인(단일 Data)의 행동과 문제가 아닌 집단(Group)에서 비롯된 문제 또는 현상을 추정하는 것이다. 탐색적 분석에서의 통계 탐색적 ..
EDA를 수행할 때 포함되어야 하는 것들은 다음과 같다. 1. 평균, 분산과 같은 통계량들을 확인하였는가? 2. 시각화 기법들(barplot, histplot 등)을 사용하였는가? 3. pivot table을 이용하여 데이터를 다양한 시각으로 관찰하였는가? 4. pandas fancy indexing을 활용하여 원하는 데이터를 필터링하여 사용하였는가? 5. 분석한 코드에 설명(주석 or Markdown)을 기재하였는가? 일단 import와 data 읽어오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns sns.set_theme(style='whitegrid') plt.style.use(..
import pandas as pd # 다른 파일도 불러오자. data2 = pd.read_csv("../data/kaggle_survey_2020_responses.csv") data2 # 박사 학위 소지자들만 골라보자. data2.Q4.unique() # --masking 작업 data2["Q4"] == "Doctoral degree" data2[data2.Q4 == "Doctoral degree"] # masking을 전체 dataframe에 index로 걸어주면 해당 column이 true인 데이터만 뽑아낼 수 있다. phd = data2["Q4"] == "Doctoral degree" phd # (OPTIONAL) 박사 학위 소지자이면서, 대한민국 국적을 가진 사람들을 뽑아보자. # set(ph..
비슷하다? 비슷하다는 기준이 무엇인지 알아야 한다. Q. 벡터란 무엇인가? Vector = List of Numbers 기저(basis) = 축(axis) 축? : 공간 또는 위치를 나타낼 때의 절대적 개념의 기준 데이터의 column 차원(dimension) = 벡터의 원소 개수 숫자. 숫자가 3개면 3차원, 1000000개면 1000000차원 방향(direction) = 단위 벡터(unit vector) 벡터를 그 벡터의 크기로 나눈 것 어떤 벡터가 어느 방향을 가리키고 있는지 나타내는 것 - categorical feature 만약 어떤 설문조사에서 남 / 여 / 무응답 인 선택지가 있을 때 이를 수치화 한다면 0 / 1 / 2 로 해도 될까? 학력을 초졸 / 중졸 / 고졸 / 학사 / 석사 / 박..
- 원래의 글꼴 노트북 화면이 아닌 모니터 화면으로 보니 색 구분도 잘 안가고 글꼴이 너무 못생겼다. 강사님 화면과 다른게 너무 신경쓰이고 바꾸고 싶었음. 나중에 알고 보니 맑은 고딕이었음... 바꾸는 방법은 간단하다! 1. C: 에서 users>user에 .jupyter에 들어간다. 2. custom 이라는 폴더를 생성한다. 3. 메모장(notepad)를 켜서 custom 폴더에 저장하는데, custom.css로 하여 확장자가 css인 파일로 저장되게 한다. 4. 메모장을 닫았다면 오른쪽 마우스 버튼을 클릭하여 편집으로 들어간다. 5. 다음을 그대로 복사하여 붙여넣고 저장한다. div.CodeMirror, div.CodeMirror pre { /*코드 블록*/ font-family: D2Coding, ..
- 얘네들은 sequence type data(연속형 데이터 타입) - 순서 정보로 가져오는 방식이 indexing, 특정 조건에 맞는 정보를 뭉탱이로 가져오는 방식이 slicing 더보기 id(L[ : ]), id(L)의 값이 다르다......?! id(L[ : ]) => copy의 개념 -- rvalue를 다른 주소값에 복사
- 변수에 값을 할당할 때 assignment operator(이하 =) 기준 왼쪽을 lvalue, 오른쪽을 rvalue라고 한다. · lvalue : 실제 메모리 주소 · rvalue : 실제 데이터 또는 값 - rvalue를 보고 assign이 일어날 때 lvalue의 Data type이 결정된다. => dynamic type binding이라고 한다. - Python에서는 (이론 상)변수 할당에 제한이 없다. - Debugging 할 때 최고의 도구는 print() - print formatting · 사용되는 변수의 데이터의 형식을 알 수 있다. - f-string · code가 길어질 경우 변수명을 쓰는 것이 편리하다. · 사용되는 변수의 내용을 알 수 있다. · 출력될 값의 Data type을..