본문 바로가기

Tableau

[Tableau 독학하기] 분포 파악을 위한 시각화 - 패스트캠퍼스 데이터시각화 강의

Intro

태블로를 독학하기 위해 국비지원교육인 패스트캠퍼스의 '태블로 데이터 시각화 첫걸음 시작하기' 강의를 수강하기로 했다.

홀로 대시보드를 기획하기 전, 데이터 분석 목적에 따른 시각 자료를 개별적으로 만들어 보고자 한다.

기초 실습은 총 6개 파트로 구성되며, 구체적인 내용은 아래와 같다.

1) 시간에 따른 시각화

2) 속성별 비교를 위한 시각화

3) 분포 파악을 위한 시각화

4) 구성 비율을 보기 위한 시각화

5) 순위 변화 파악을 위한 시각화

6) 맵 시각화

7) 대시보드 제작

 

이번 글에서는 분포 파악을 위한 시각화 자료를 다룰 것이며, '산점도, 상자그림, 히스토그램'을 직접 만들어 보는 연습을 한다.

데이터는 Tableau에서 제공하는 샘플데이터인 Superstore 자료(2013~2017년 기준)를 활용하도록 한다. 

 

Contents

1. 산점도(Scatter Plot)

산점도는 2개 변수 간 상관관계를 확인할 때 적합한 시각화 방식이다. 

평균 좌표를 기준으로 좌측 상단, 좌측 하단, 우측 상단, 우측 하단으로 이루어진 4사분면이 가진 의미가 다르므로 이를 유념해서 차트를 해석해야 한다.

아래 자료는 Superstore의 매출액과 이익률 간 상관관계를 나타낸 산점도이다. 

산점도(Scatter Plot)

위 자료를 만드는 과정에서 배운 내용은 다음과 같다.

태블로를 사용한 산점도 제작 과정

1) 산점도에서 x축이 될 변수는 열 선반에, y축이 될 변수는 행 선반에 올림

2) 산점도에서 점으로 찍힐 요소를 마크 카드에 '원'으로 설정해야 함

3) x축과 y축에 각각 평균 참조선을 추가하면 2개 변수 간 상관관계의 경향을 더욱 확연하게 볼 수 있음

 

2. 상자그림(Box & Whisker Plot)

상자그림은 데이터의 분포와 이상치를 한눈에 보여주고자 할 때 적합한 시각화 방식이다.

아래 자료는 Superstore의 매출액의 IQR(Interquatile Range)과 이상치를 나타낸 상자그림이다.

▷ IQR(Interquatile Range): Q1과 Q3의 차이를 나타낸 것으로, 중앙값(Median)을 기준으로 데이터들이 흩어진 정도를 알 수 있음 

▷ Q1(제1분위수): 전체 데이터의 25% / Q2(제2분위수, 중앙값): 전체 데이터의 50% / Q3(제3분위수): 전체 데이터의 75% / Q4(제4분위수): 전체 데이터의 100%

상자그림(Box & Whisker Plot)

 

위 자료를 만드는 과정에서 배운 내용은 아래와 같다.

태블로를 사용한 상자그림 제작 과정

1) 상자그림의 x축이 될 요소(데이터 분포를 확인할 그룹)는 열 선반에, y축이 될 요소(IQF을 계산할 기준)는 행 선반에 올림

2) y축을 기준으로 참조선을 추가한 후, 참조선 설정에서 'IQR의 1.5배 내 데이터'를 선택해야 함

▷ 상자그림의 수염 길이는 보통 IQR의 1.5배 값에 해당하며, 이 범위 밖에 있는 데이터를 이상치로 판단함

 

2. 히스토그램(Histogram)

히스토그램은 값의 범위별 빈도 분포를 확인할 때 적합한 시각화 방식이다.

아래 자료는 Superstore의 제품 판매수량 단위 중 가장 빈도가 높은 것(고객들이 선호하는 제품 구매 수량)을 보여주는 히스토그램이다.

히스토그램(Histogram)

 

위 자료를 만드는 과정에서 배운 내용은 다음과 같다.

태블로를 사용한 히스토그램 제작 과정

1) 태블로는 데이터 특성별로 추천되는 그래프를 '표현방식'에서 추천해줌

▷ 1개의 측정값을 선택하면 표현방식에서 히스토그램이 활성화됨

▷ 표현방식에서 히스토그램을 선택할 경우, 자동으로 열 선반에 선택한 측정값의 '구간차원'이 올라가고 행 선반에는 해당 측정값의 범위가 축으로 설정됨

2) 자동으로 생성된 구간차원은 테이블 내 차원으로 새롭게 추가되는데, 이를 클릭해 구간차원의 크기를 편집할 수 있음