SiLaure's Data

Masking 연습 --박사학위 문제 본문

Records of/Another

Masking 연습 --박사학위 문제

data_soin 2021. 7. 27. 16:13
import pandas as pd 
# 다른 파일도 불러오자. 
data2 = pd.read_csv("../data/kaggle_survey_2020_responses.csv") 
data2



# 박사 학위 소지자들만 골라보자. 
data2.Q4.unique() 

# --masking 작업 
data2["Q4"] == "Doctoral degree" 
data2[data2.Q4 == "Doctoral degree"] 



 # masking을 전체 dataframe에 index로 걸어주면 해당 column이 true인 데이터만 뽑아낼 수 있다. 
phd = data2["Q4"] == "Doctoral degree" 
phd



# (OPTIONAL) 박사 학위 소지자이면서, 대한민국 국적을 가진 사람들을 뽑아보자. 
# set(phd["Q3"]) 
# data2.Q3.unique() 
data2.Q3.isin(["Republic of Korea", "South Korea"]) 
data2_korea = data2.Q3.isin(["Republic of Korea", "South Korea"]) 
data2[data2_korea & phd] 


# phd["Q3"] == "Republic of Korea" 
# phd["Q3"] == "South Korea" 
# phd_korean = phd[phd["Q3"] == "Republic of Korea"] 
# phd_korean
boolean array이기 때문에, False/True 정보들끼리 연산해야해서 

phd = [data2["Q4"] == "Doctoral degree" ]
는 안 된다.

data2_korea = data2[data2.Q3.isin(["Republic of Korea", "South Korea"]) ] 역시 결과값이 데이터 값이기 때문에
data2_korea = data2.Q3.isin(["Republic of Korea", "South Korea"])  로 boolean형으로 고쳐야 한다.

 

Comments