SiLaure's Data

[Seaborn] 04. boxplot & violinplot --분포정보 plotting 본문

Records of/Learning

[Seaborn] 04. boxplot & violinplot --분포정보 plotting

data_soin 2021. 7. 26. 20:19
분포 정보를 보여주는 plotting 기법

 

- Boxplot

: 데이터의 각 종류별로 사분위 수(quantile)를 표시하는 plot.

  • 특정 데이터의 전체적인 분포를 확인하기 좋은 시각화 기법.
    --중요 데이터가 어디에 얼마나 있나 확인하기 좋다.
  • outlier(◆)를 통해 주요 분포에서 벗어난 데이터가 있는지 확인할 수 있다.
  • box와 전체 range의 그림을 통해 outlier를 찾기 쉽다. (IQR : Inter-Quantile Range)

 

penguin 데이터에 boxplot을 출력
sns.boxplot(data=penguins, x='flipper_length_mm', y='species', hue='species')

출력 : 

boxplot 안의 선 : 평균
box의 크기 : 평균을 기준으로 전체의 50%(±25%) --4분위 수
◆ : outlier --전체 분포에서 크게 벗어난 수

 

 

 

 

- Violinplot

: 데이터에 대한 분포 자체를 보여주는 plot.

  • boxplot과 비슷하지만, 전체 분포에 대한 그림을 보여준다는 점에서 boxplot과 다르다.
  • 보통 boxplot과 함께 표시하면, 평균 근처에 데이터가 얼마나 있는지(boxplot)
    전체적으로 어떻게 퍼져있는지(violinplot) 모두 확인이 가능합니다.

 

penguin 데이터에 violinplot을 출력
sns.violinplot(data=penguins, x='flipper_length_mm', y='species', hue='species')

출력 : 

sns.violinplot(data=penguins, y='flipper_length_mm', x='species', hue='species')

sns.violinplot(data=penguins, y='flipper_length_mm', x='species', hue='sex')

출력 : 

Comments