Think graphs & maps 3편: 테이블에서 그래프로

** 테이블 다시 정리하기

2편에서는 총 수출금액과 수량을 3줄로 간단하게 정리하고 그래프를 그렸습니다. 정상적인 경우라면 전체시장규모만 가지고는 의사결정을 하지는 않을테니, 지난번에 다운로드 받은 3년치 수출결과를 가지고 다시 한번 밑그림을 그려보겠습니다.


그림1. 2012년 엑셀의 가장 하단, 주요수출국 표시

웹에서 다운로드 받은 2012년 중고차수출통계를 열어 가장 하단으로 내려가보겠습니다. '주요수출국가표시'라는 글씨가 보이네요. 이 엑셀파일 속의 통계에 따르면 우리나라는 183개의 국가에 중고자동차를 수출하고 있는데요, 협회에서 자료를 업로드할 때 주요수출국을 미리 파란색으로 표시해두었습니다. 위 그림처럼 '필리핀'행에 파란색이 색칠되어 있는 것을 볼 수 있습니다. 

그래서 파란색으로 표시된 주요수출국만을 골라내서 테이블을 아래와 같이 새로 정리했습니다. 제일 위에는 각 컬럼의 정의가 있습니다. 첫번째는 국가명, 2~4열(짙은회색)은 2010년부터 2012년까지 수출금액, 5~7열(푸른색)은 연도별 수출량입니다. 우리의 주목대상인 요르단은 노란색으로 강조를 했구요.

그림2. 주요수출국 테이블 정리


** 테이블 뜯어읽기

위의 테이블을 시간을 두고 찬찬히 읽어봅시다. 

주요수출국은 총 12개 나라입니다. 대충 눈으로만 훑어도 요르단으로 수출하는 규모가 굉장히 많은 것이 눈에 들어오네요. 조금 더 내려오면 옅은 회색으로 '주요국가합'이 보입니다. 12개 나라에 수출한 결과를 집계한 것입니다. 그리고 바로 아래에 '총합계'가 있습니다. '총합계'는 전세계 183개 국가에 수출한 전체규모를 말합니다.

아주 얇은 줄을 지나서 내려오면 '비율:주요국가'가 보입니다. 12개 국가를 상대로 교역하는 규모가 전체 중고차수출시장 내에서 얼마나 비중을 차지하는지 살펴본 것입니다. 2010년에는 82%였던 것이 2012년에는 거의 90%까지 올라왔네요. 주요수출국 12개 나라에 중고차수출의존도가 점점 더 높아지고 있다는 뜻입니다.

주요수출국 중에서 우리의 타겟인 요르단의 비율을 보겠습니다. 이 비율은 "(100 * 요르단)/(총합계)"로 계산한 것으로, 전체시장규모 대비 요르단의 비중을 나타낸 것입니다. 수출금액은 2010년에 26.2%를 차지하였고 2012년에는 22.3%를 차지하였습니다. 수량으로 보면 2010년에 31.1%, 2012년에 28.3%입니다. 2년간 요르단에 수출하는 중고차의 비중은 수출액과 수량에서 모두 줄어들고 있습니다.

그렇다면 요르단에 수출하는 금액이나 수량의 절대적인 규모가 줄고 있는걸까요? 확인하기 위해 다시 테이블 중간 즈음으로 올라가서 '요르단'행을 찾아보니 수출규모 자체가 줄고 있지는 않습니다. 매년 요르단으로 중고차를 수출하는 규모는 늘어나고 있지만, 전체 수출시장에서 차지하고 있는 비율은 줄어들고 있는 것이죠.



** 테이블 맵핑(table mapping)

아무튼 가장 간편한 방식으로 테이블 속의 수치를 비교해서 보려면 다음과 같은 방법을 사용할 수 있습니다. 

많은 분들이 이미 알고 있는 방식인데요, 리본탭의 [홈] - [조건부 서식]입니다. 그 중에 [데이터 막대]를사용했습니다. 드래그로 비교하고 싶은 영역을 선택하고 순서대로 클릭해서 기능을 적용하면, 선택된 셀 중의 최대값을 기준으로 수치를 비교해줍니다. 테이블 내에 조건부 서식을 적용하는 것을 '테이블 맵핑(table mapping)'이라고 부르기도 합니다.

그림3. 조건부서식 - 데이터 막대

[데이터 막대] 중 [단색 채우기]에서 원하는 색상으로 클릭하면 다음과 같이 테이블을 만들 수 있습니다.

그림4. 조건부서식 적용 결과

테이블에서 3년간의 수출금액과 수출수량에 각각 조건부 서식을 따로 적용했습니다. 테이블만 볼때는 요르단에 집중하느라 다른 나라의 상황을 전혀 몰랐는데, 막상 2012년에 중고차수출액이 가장 많았던 국가는 요르단이 아니라 러시아연방이었던 것을 알 수 있습니다. '금액(천불)_2012'열과 '러시아연방'이 교차하는 지점에서 녹색막대가 셀을 가득 채우고 있습니다. 거의 6억불에 가까운 수출을 달성했네요. 

반면에 수량을 기준으로 하면 여전히 요르단이 최대수출국인 것을 알 수 있습니다. 마찬가지로 '수량(대수)_2012'열과 '요르단'이 교차하는 셀 전체가 파란색 막대로 채워져 있습니다. 10만대가 넘는 중고차가 요르단으로 건너갔고요, 조금 위로 올라가서 살펴보면 리비아에 2번째로 많은 양의 중고자동차가 수출된 것을 알 수 있습니다. 테이블 맵핑을 하고보니 요르단, 러시아연방, 리비아 세 개의 국가가 중요한 중고차 시장인 것을 알 수 있게 되었네요. 맵핑 전에는 요르단에만 노란색을 칠해놓고 검토했는데, 그래프를 그릴 때에는 세 국가를 중심에 두고 비교하는 것이 좋겠다는 소결을 내릴 수 있습니다.


** 라인 그래프로 비교하기

또다른 방법으로는 아래처럼 라인그래프를 그려서 비교해 볼 수도 있겠습니다.

그림5. 라인 그래프로 나타내기

12개의 주요수출국 중 요르단, 러시아, 리비아를 두껍게 강조하고 점선으로 표현했습니다라인그래프를 그리면 국가별로 수출량이 어떻게 증가하고 감소하고 있는지 변동사항을 쉽게 알 수 있는 장점이 있습니다. 테이블 맵핑을 했을 때와 마찬가지로 요르단, 러시아연방, 리비아 세 개의 국가의 선들은 눈에 띄지만, 나머지 국가를 나타내는 선들은 저 아래편에 깔려있는 것을 확인할 수 있습니다. 특히 리비아의 경우 2010년에 비해 2011년에는 수출이 줄었다가, 2012년에 아주 큰 폭으로 증가한 것이 눈에 들어옵니다. 러시아연방은 수출 금액이 아주 가파르게 증가하고 있네요.

또한 금액은 러시아연방이 가장 많은 반면, 수량을 가리키는 선은 요르단이 가장 높은 곳에 있고 러시아연방은 꽤 낮은 곳에 위치하는 것을 확인할 수 있습니다. 이 두 사실을 엮어보면 요르단에는 싼 가격에 많은 중고차가 수출되고 있고, 러시아연방에는 중고차들이 비싼 가격에 수출되고 있다는 결론이 나옵니다. 러시아에 수출되는 중고자동차가 가격대가 높은 중고차인지, 아니면 같은 중고차이지만 가격대가 다르게 형성되는 것인지는 알 수 없지만요.


지금까지 테이블 맵핑과 라인 그래프로 데이터를 검토해봤습니다. 테이블 맵핑으로는 막대의 '길이'를 기준으로 비교할 수 있었고, 라인 그래프를 그린 결과 여러 수치들을 '높이'로 비교할 수 있었습니다. 국가별-연도별 수출결과를 표현할 다른 방법은 없을까요? 하나 더 추가하자면, 다음과 같이 '면적'으로 비교하는 것도 한 방법입니다.


** 면적으로 비교하기: 버블 그래프

그림6. 버블 그래프로 나타내기

수출금액과 수출수량을 각각 원의 면적으로 나타냈습니다. 엑셀의 거품형차트(bubble chart) 기능을 이용한 결과입니다. 라인 그래프를 그리는 것과 달리 약간의 시간과 노력이 필요합니다. 

버블 그래프의 기본개념은, 데이터 하나하나의 속성을 (x, y, value) 3차원의 좌표값으로 읽어오는 것입니다. 예를 들어, 첫번째 그래프의 요르단의 2010년 수출액의 속성은 (x=요르단, y=2010년, value=3.26억)이고, 러시아의 2012년 수출액은 (x=러시아연방, y=2012년, value=6.0억)이 되는 것입니다.

버블 그래프는 지금처럼 데이터포인트가 많은 경우 전체적인 데이터의 패턴을 한 눈에 살피기에 매우 효과적인 방법입니다. 라인 그래프에서는 수치가 작은 국가들의 데이터를 나타내는 선들이 모두 겹쳐서 분간하기가 쉽지 않았는데, 버블 그래프를 그리고 나니 모든 국가의 연도별 결과들을 개별적으로 검토할 수 있습니다. 

반면 버블 그래프는 자주 접하는 방식이 아닌만큼 결과물이 신선할 수는 있지만, 라인 그래프나 바 그래프처럼 값을 정확하게 비교하기에는 적합한 그래프가 아닐 수 있습니다.


그림7. 버블 그래프 다시 보기

버블 그래프 중 일부를 떼어왔습니다. 파란색의 6억은 바로 옆의 붉은 3.53억에 비해 170% 가량 큰 수치입니다. 하지만 시각적으로 파란색 원이 붉은색 원보다 1.7배 크다고 느껴지시나요? 또 멀리 떨어진 주황색 원과 파란색 원의 크기 차이가 한눈에 들어오나요?  만약 원 안에 수치가 적혀있지 않았다면 이 차이들이 와닿기가 쉽지는 않아 보입니다.

이런 이유로 심층적인 분석을 주로 다루는 연구자분들은 버블 그래프를 매우 신중하게 사용한다고 합니다. 물론 원으로 나타내는 그래프가 필요한 경우도 분명히 있습니다. 다음에 기회가 되면 살펴보기로 하고요.


** 마무리

테이블맵핑, 라인그래프, 버블 그래프를 서로 비교하면 어느 것이 눈에 더 잘 들어오나요? 어느 하나가 가장 좋다고 말할 수는 없을 테고 각각의 장점이 있는 것 같습니다. 빠르고 간편하게 수치를 짚어보고 비교하기에는 테이블 맵핑이, 시간의 흐름에 따른 추이를 살피기에는 라인그래프가, 각 나라의 시점별 수출량을 큰 그림으로 보여주고 직관적으로 이해하기에는 버블 그래프가 효과적이라는 생각이 듭니다. 

또한 표현되는 방법과 시간과 노력을 생각한다면 각각의 그래프를 사용하는 용도도 다를 것 같습니다. 개인업무를 하는 와중에 데이터 값만 간편하게 확인하려 한다면 테이블 맵핑만 해도 충분할 것 같구요, 프로젝트에 참여한 다른 팀원들에게 이 내용들을 공유해야할 필요가 있다면 그래프로 알려주는 것이 좀 더 나은 방법으로 보입니다.


다시 글의 처음으로 돌아가서 테이블을 읽어봅시다. 테이블을 하나하나 뜯어 읽기도하고 그래프도 여러번 그려봤으니 테이블을 한눈에 빠르게 파악할 수 있을 것 같지만, 생각만큼 쉽지가 않습니다. 중요한 지점들이 어디인지는 빠르게 찾아갈 수는 있지만 수치들의 크기와 차이가 와닿지는 않습니다.

데이터시각화가 중요한 것은 이러한 이유 때문입니다. 숫자로 구성된 데이터를 빠르게 읽고 요점을 쉽게 파악하기 위해 시각화하는 과정을 거치는 것이죠. 언어를 습득하고 사용하는 것에 비유해보면 어떨까요. 외국에서 출판된 원서를 읽는 것은 어렵고 더디지만 우리에게 익숙한 한글로 번역된 소설책은 빠르고 쉽게 읽을 수 있습니다. 데이터 역시 테이블에 기록된 숫자를 직접 읽기는 까다롭고 번거로운 반면, 정리된 그래프는 조금만 들여다보면 누구나 어렵지 않게 읽어낼 수 있습니다. 이런 의미에서 데이터시각화란 '수치를 이미지로 번역하는 과정'이라고도 말할 수 있겠습니다.


다음 편(3-1편)에서는 라인 그래프를 그린 뒤 정리하는 방법과 버블 그래프를 작성하는 방법을 설명하도록 하겠습니다. 그리고 오늘 보여드린 결과물을 다듬고 완성하는 과정도 일부 추가로 넣구요. 특히 버블 그래프의 기본개념은 (x, y, value)라는 힌트를 드렸으니 엑셀을 켜놓고 직접 한번 작성해보시는 것을 추천합니다.


드롭박스를 통해 엑셀자료를 내려받으실 수 있습니다.

링크: https://www.dropbox.com/sh/0h6z4n23nl1tcjb/6jNCoagygw


신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. BlogIcon 쮸나 2015.02.04 06:47 신고

    거품그래프 일정하게 잘그리셨는데 어찌그리셨눈지 좀 알려주시어요...ㅜㅜ

    • Favicon of http://mapmatters.net BlogIcon mapmatters 2015.04.11 11:49 신고

      X축 숫자의 간격이 같아서 그렇습니다ㅎㅎ 글에 있는 드롭박스 링크를 클릭하셔서 엑셀시트를 한번 살펴보세요^^

+ Recent posts