Think graphs & maps

Think graphs & maps 3편: 테이블에서 그래프로

** 테이블 다시 정리하기

2편에서는 총 수출금액과 수량을 3줄로 간단하게 정리하고 그래프를 그렸습니다. 정상적인 경우라면 전체시장규모만 가지고는 의사결정을 하지는 않을테니, 지난번에 다운로드 받은 3년치 수출결과를 가지고 다시 한번 밑그림을 그려보겠습니다.


그림1. 2012년 엑셀의 가장 하단, 주요수출국 표시

웹에서 다운로드 받은 2012년 중고차수출통계를 열어 가장 하단으로 내려가보겠습니다. '주요수출국가표시'라는 글씨가 보이네요. 이 엑셀파일 속의 통계에 따르면 우리나라는 183개의 국가에 중고자동차를 수출하고 있는데요, 협회에서 자료를 업로드할 때 주요수출국을 미리 파란색으로 표시해두었습니다. 위 그림처럼 '필리핀'행에 파란색이 색칠되어 있는 것을 볼 수 있습니다. 

그래서 파란색으로 표시된 주요수출국만을 골라내서 테이블을 아래와 같이 새로 정리했습니다. 제일 위에는 각 컬럼의 정의가 있습니다. 첫번째는 국가명, 2~4열(짙은회색)은 2010년부터 2012년까지 수출금액, 5~7열(푸른색)은 연도별 수출량입니다. 우리의 주목대상인 요르단은 노란색으로 강조를 했구요.

그림2. 주요수출국 테이블 정리


** 테이블 뜯어읽기

위의 테이블을 시간을 두고 찬찬히 읽어봅시다. 

주요수출국은 총 12개 나라입니다. 대충 눈으로만 훑어도 요르단으로 수출하는 규모가 굉장히 많은 것이 눈에 들어오네요. 조금 더 내려오면 옅은 회색으로 '주요국가합'이 보입니다. 12개 나라에 수출한 결과를 집계한 것입니다. 그리고 바로 아래에 '총합계'가 있습니다. '총합계'는 전세계 183개 국가에 수출한 전체규모를 말합니다.

아주 얇은 줄을 지나서 내려오면 '비율:주요국가'가 보입니다. 12개 국가를 상대로 교역하는 규모가 전체 중고차수출시장 내에서 얼마나 비중을 차지하는지 살펴본 것입니다. 2010년에는 82%였던 것이 2012년에는 거의 90%까지 올라왔네요. 주요수출국 12개 나라에 중고차수출의존도가 점점 더 높아지고 있다는 뜻입니다.

주요수출국 중에서 우리의 타겟인 요르단의 비율을 보겠습니다. 이 비율은 "(100 * 요르단)/(총합계)"로 계산한 것으로, 전체시장규모 대비 요르단의 비중을 나타낸 것입니다. 수출금액은 2010년에 26.2%를 차지하였고 2012년에는 22.3%를 차지하였습니다. 수량으로 보면 2010년에 31.1%, 2012년에 28.3%입니다. 2년간 요르단에 수출하는 중고차의 비중은 수출액과 수량에서 모두 줄어들고 있습니다.

그렇다면 요르단에 수출하는 금액이나 수량의 절대적인 규모가 줄고 있는걸까요? 확인하기 위해 다시 테이블 중간 즈음으로 올라가서 '요르단'행을 찾아보니 수출규모 자체가 줄고 있지는 않습니다. 매년 요르단으로 중고차를 수출하는 규모는 늘어나고 있지만, 전체 수출시장에서 차지하고 있는 비율은 줄어들고 있는 것이죠.



** 테이블 맵핑(table mapping)

아무튼 가장 간편한 방식으로 테이블 속의 수치를 비교해서 보려면 다음과 같은 방법을 사용할 수 있습니다. 

많은 분들이 이미 알고 있는 방식인데요, 리본탭의 [홈] - [조건부 서식]입니다. 그 중에 [데이터 막대]를사용했습니다. 드래그로 비교하고 싶은 영역을 선택하고 순서대로 클릭해서 기능을 적용하면, 선택된 셀 중의 최대값을 기준으로 수치를 비교해줍니다. 테이블 내에 조건부 서식을 적용하는 것을 '테이블 맵핑(table mapping)'이라고 부르기도 합니다.

그림3. 조건부서식 - 데이터 막대

[데이터 막대] 중 [단색 채우기]에서 원하는 색상으로 클릭하면 다음과 같이 테이블을 만들 수 있습니다.

그림4. 조건부서식 적용 결과

테이블에서 3년간의 수출금액과 수출수량에 각각 조건부 서식을 따로 적용했습니다. 테이블만 볼때는 요르단에 집중하느라 다른 나라의 상황을 전혀 몰랐는데, 막상 2012년에 중고차수출액이 가장 많았던 국가는 요르단이 아니라 러시아연방이었던 것을 알 수 있습니다. '금액(천불)_2012'열과 '러시아연방'이 교차하는 지점에서 녹색막대가 셀을 가득 채우고 있습니다. 거의 6억불에 가까운 수출을 달성했네요. 

반면에 수량을 기준으로 하면 여전히 요르단이 최대수출국인 것을 알 수 있습니다. 마찬가지로 '수량(대수)_2012'열과 '요르단'이 교차하는 셀 전체가 파란색 막대로 채워져 있습니다. 10만대가 넘는 중고차가 요르단으로 건너갔고요, 조금 위로 올라가서 살펴보면 리비아에 2번째로 많은 양의 중고자동차가 수출된 것을 알 수 있습니다. 테이블 맵핑을 하고보니 요르단, 러시아연방, 리비아 세 개의 국가가 중요한 중고차 시장인 것을 알 수 있게 되었네요. 맵핑 전에는 요르단에만 노란색을 칠해놓고 검토했는데, 그래프를 그릴 때에는 세 국가를 중심에 두고 비교하는 것이 좋겠다는 소결을 내릴 수 있습니다.


** 라인 그래프로 비교하기

또다른 방법으로는 아래처럼 라인그래프를 그려서 비교해 볼 수도 있겠습니다.

그림5. 라인 그래프로 나타내기

12개의 주요수출국 중 요르단, 러시아, 리비아를 두껍게 강조하고 점선으로 표현했습니다라인그래프를 그리면 국가별로 수출량이 어떻게 증가하고 감소하고 있는지 변동사항을 쉽게 알 수 있는 장점이 있습니다. 테이블 맵핑을 했을 때와 마찬가지로 요르단, 러시아연방, 리비아 세 개의 국가의 선들은 눈에 띄지만, 나머지 국가를 나타내는 선들은 저 아래편에 깔려있는 것을 확인할 수 있습니다. 특히 리비아의 경우 2010년에 비해 2011년에는 수출이 줄었다가, 2012년에 아주 큰 폭으로 증가한 것이 눈에 들어옵니다. 러시아연방은 수출 금액이 아주 가파르게 증가하고 있네요.

또한 금액은 러시아연방이 가장 많은 반면, 수량을 가리키는 선은 요르단이 가장 높은 곳에 있고 러시아연방은 꽤 낮은 곳에 위치하는 것을 확인할 수 있습니다. 이 두 사실을 엮어보면 요르단에는 싼 가격에 많은 중고차가 수출되고 있고, 러시아연방에는 중고차들이 비싼 가격에 수출되고 있다는 결론이 나옵니다. 러시아에 수출되는 중고자동차가 가격대가 높은 중고차인지, 아니면 같은 중고차이지만 가격대가 다르게 형성되는 것인지는 알 수 없지만요.


지금까지 테이블 맵핑과 라인 그래프로 데이터를 검토해봤습니다. 테이블 맵핑으로는 막대의 '길이'를 기준으로 비교할 수 있었고, 라인 그래프를 그린 결과 여러 수치들을 '높이'로 비교할 수 있었습니다. 국가별-연도별 수출결과를 표현할 다른 방법은 없을까요? 하나 더 추가하자면, 다음과 같이 '면적'으로 비교하는 것도 한 방법입니다.


** 면적으로 비교하기: 버블 그래프

그림6. 버블 그래프로 나타내기

수출금액과 수출수량을 각각 원의 면적으로 나타냈습니다. 엑셀의 거품형차트(bubble chart) 기능을 이용한 결과입니다. 라인 그래프를 그리는 것과 달리 약간의 시간과 노력이 필요합니다. 

버블 그래프의 기본개념은, 데이터 하나하나의 속성을 (x, y, value) 3차원의 좌표값으로 읽어오는 것입니다. 예를 들어, 첫번째 그래프의 요르단의 2010년 수출액의 속성은 (x=요르단, y=2010년, value=3.26억)이고, 러시아의 2012년 수출액은 (x=러시아연방, y=2012년, value=6.0억)이 되는 것입니다.

버블 그래프는 지금처럼 데이터포인트가 많은 경우 전체적인 데이터의 패턴을 한 눈에 살피기에 매우 효과적인 방법입니다. 라인 그래프에서는 수치가 작은 국가들의 데이터를 나타내는 선들이 모두 겹쳐서 분간하기가 쉽지 않았는데, 버블 그래프를 그리고 나니 모든 국가의 연도별 결과들을 개별적으로 검토할 수 있습니다. 

반면 버블 그래프는 자주 접하는 방식이 아닌만큼 결과물이 신선할 수는 있지만, 라인 그래프나 바 그래프처럼 값을 정확하게 비교하기에는 적합한 그래프가 아닐 수 있습니다.


그림7. 버블 그래프 다시 보기

버블 그래프 중 일부를 떼어왔습니다. 파란색의 6억은 바로 옆의 붉은 3.53억에 비해 170% 가량 큰 수치입니다. 하지만 시각적으로 파란색 원이 붉은색 원보다 1.7배 크다고 느껴지시나요? 또 멀리 떨어진 주황색 원과 파란색 원의 크기 차이가 한눈에 들어오나요?  만약 원 안에 수치가 적혀있지 않았다면 이 차이들이 와닿기가 쉽지는 않아 보입니다.

이런 이유로 심층적인 분석을 주로 다루는 연구자분들은 버블 그래프를 매우 신중하게 사용한다고 합니다. 물론 원으로 나타내는 그래프가 필요한 경우도 분명히 있습니다. 다음에 기회가 되면 살펴보기로 하고요.


** 마무리

테이블맵핑, 라인그래프, 버블 그래프를 서로 비교하면 어느 것이 눈에 더 잘 들어오나요? 어느 하나가 가장 좋다고 말할 수는 없을 테고 각각의 장점이 있는 것 같습니다. 빠르고 간편하게 수치를 짚어보고 비교하기에는 테이블 맵핑이, 시간의 흐름에 따른 추이를 살피기에는 라인그래프가, 각 나라의 시점별 수출량을 큰 그림으로 보여주고 직관적으로 이해하기에는 버블 그래프가 효과적이라는 생각이 듭니다. 

또한 표현되는 방법과 시간과 노력을 생각한다면 각각의 그래프를 사용하는 용도도 다를 것 같습니다. 개인업무를 하는 와중에 데이터 값만 간편하게 확인하려 한다면 테이블 맵핑만 해도 충분할 것 같구요, 프로젝트에 참여한 다른 팀원들에게 이 내용들을 공유해야할 필요가 있다면 그래프로 알려주는 것이 좀 더 나은 방법으로 보입니다.


다시 글의 처음으로 돌아가서 테이블을 읽어봅시다. 테이블을 하나하나 뜯어 읽기도하고 그래프도 여러번 그려봤으니 테이블을 한눈에 빠르게 파악할 수 있을 것 같지만, 생각만큼 쉽지가 않습니다. 중요한 지점들이 어디인지는 빠르게 찾아갈 수는 있지만 수치들의 크기와 차이가 와닿지는 않습니다.

데이터시각화가 중요한 것은 이러한 이유 때문입니다. 숫자로 구성된 데이터를 빠르게 읽고 요점을 쉽게 파악하기 위해 시각화하는 과정을 거치는 것이죠. 언어를 습득하고 사용하는 것에 비유해보면 어떨까요. 외국에서 출판된 원서를 읽는 것은 어렵고 더디지만 우리에게 익숙한 한글로 번역된 소설책은 빠르고 쉽게 읽을 수 있습니다. 데이터 역시 테이블에 기록된 숫자를 직접 읽기는 까다롭고 번거로운 반면, 정리된 그래프는 조금만 들여다보면 누구나 어렵지 않게 읽어낼 수 있습니다. 이런 의미에서 데이터시각화란 '수치를 이미지로 번역하는 과정'이라고도 말할 수 있겠습니다.


다음 편(3-1편)에서는 라인 그래프를 그린 뒤 정리하는 방법과 버블 그래프를 작성하는 방법을 설명하도록 하겠습니다. 그리고 오늘 보여드린 결과물을 다듬고 완성하는 과정도 일부 추가로 넣구요. 특히 버블 그래프의 기본개념은 (x, y, value)라는 힌트를 드렸으니 엑셀을 켜놓고 직접 한번 작성해보시는 것을 추천합니다.


드롭박스를 통해 엑셀자료를 내려받으실 수 있습니다.

링크: https://www.dropbox.com/sh/0h6z4n23nl1tcjb/6jNCoagygw


신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. BlogIcon 쮸나 2015.02.04 06:47 신고

    거품그래프 일정하게 잘그리셨는데 어찌그리셨눈지 좀 알려주시어요...ㅜㅜ

    • Favicon of http://mapmatters.net BlogIcon mapmatters 2015.04.11 11:49 신고

      X축 숫자의 간격이 같아서 그렇습니다ㅎㅎ 글에 있는 드롭박스 링크를 클릭하셔서 엑셀시트를 한번 살펴보세요^^

Think graphs & maps 2편: 장그래의 첫번째 슬라이드

** 신입사원 장그래

저는 윤태호 작가님의 '미생'을 즐겨보는 많은 팬들 중 한명입니다. 저도 사회경험이 길지 않다보니 공감이 가는 부분도 있고, 반면 저는 조직생활을 하지 않고 있어서 전혀 다른세계 같기도 하고 그렇습니다.

샤프하고 꼼꼼한 오과장과 김대리 밑에서 장그래는 무척이나 일을 잘해나갑니다. 제 입장에서는 자료를 어떻게 정리해서 보여줬을까하는 호기심이 생겼습니다. 우리가 이번에 만들어보고자 하는 슬라이드의 수준은 현업 10년차 이상의 베테랑들만이 작성할 수 있는 탄탄하고 감동적인 것이 아닙니다. 정말로 장그래 입장에서, 현업에 익숙치 않거나 아예 아무것도 모르는 취준생과 신입사원의 입장에서, 오과장과 같은 상사의 업무지시 이후에 어떤 것들을 스스로 고민해볼 수 있을까 생각해보기로 했습니다. 

미생 75화에는 장그래가 속한 영업3팀이 본격적으로 중고자동차 수출시장을 검토하는 부분이 나옵니다. 스토리를 조금 설명하고 가는 것이 좋을 것 같습니다. 요르단을 타겟으로 진행하던 중고자동차수출 프로젝트가 이러쿵저러쿵해서 엎어질뻔 하다가, 신입사원 장그래의 패기있는 제안으로 팀원 모두가 다시 탁자에 올려놓고 고민하게 된 상황입니다. 

<사업을 검토하는 영업3팀, 출처: 미생 75수 中>


** 데이터 찾아보기

미생 75수에는 아주 간략하게 해외 중고자동차수출시장에 대한 언급이 나옵니다. 

<중고자동차 수출시장 개요, 출처: 미생 75수 中>

2011년 기준으로 국내에서 약 29만 대의 중고차를 수출했고 그 중에 30% 이상이 요르단으로 수출되었다고 합니다. 뒷 내용을 조금만 더 언급하자면, 요르단에 도착한 중고차는 인근 국가로 다시 수출된다고 하네요. 중요한 시장인 것은 분명해 보입니다. 이제 정말로 중고차와 관련한 데이터를 찾아보기로 하겠습니다. 생각나는대로 한번 해보죠. 구글 검색창에 '중고차 통계'를 입력해 봤습니다.

검색창을 캡쳐한 그림 제일 아래에 '한국중고자동차수출조합'이라는 링크가 보이시나요? 생각보다 데이터를 쉽게 찾아낸 것 같습니다. 웹페이지를 한번 들어가 보니 이곳은 '사단법인 한국중고자동차수출조합'인 것을 알수 있구요, 그리고 이것저것 메뉴가 많네요. 어쨌거나 우리가 알고 싶은 것은 중고차수출시장에 관한 모든 정보입니다. 뭘 알아야 사업을 진행할 수 있을지 그것조차 모르는 단계이니까요. 그래도 이것저것 클릭하다 '자료실' 탭에서 'KUCEA 자료' 안에 들어가보니, 사업검토를 위한 기본적인 정보를 찾을 수 있었습니다.

KUCEA 자료실에는 월별로 중고자동차 수출통계가 꼼꼼하게 업데이트되고 있습니다. 미생 75수는 작년 10월에 연재되었습니다. 아마 윤태호 작가님께서는 연도별 통계 중 최신자료였던 2011년 자료를 사용하신 것 같습니다. 지금은 벌써 2013년 1월까지 통계가 올라와있네요.

엑셀 테이블을 성급하게 다운받기 전에 잠깐만 생각을 해봅시다. 월별 통계가 우리에게 모두 필요한 정보일까요? 아니면 볼 필요가 없나요? 최신데이터인 2013년 1월 통계를 보면되나요? 최신이면 다 좋은가요? 그것도 아니면 연도별 통계를 받는게 좋을까요? 근데 연도별 통계는 왜 필요할까요?

쉽고 간단한 질문을 생각없이 그냥 한번 나열해봤습니다. 화면에 떠있는 그대로 보겠습니다. 데이터가 시간순서로 정리되어 있으면 당연히 시간의 흐름에 따라 데이터가 어떻게 변화하는지 보기 좋을 것 같습니다. 그러면 연도별 통계와 월별 통계는 어떻게 다를까요? 너무 뻔한 대답이지만 연도별 통계는 수출총량이 연도별로 어떻게 변화해가는지 보기 좋을 것이고, 월별 통계는 매월 추이가 어떻게 달라지는지 알기 좋겠죠. 특히 자동차가 아니라 패션산업이라면 계절이나 날씨에 영향을 많이 받으니 월별 매출의 편차가 크지 않을까요? 자동차는 어떨런지 모르겠습니다. 막상 엑셀테이블을 열어보면 계절별 여성패션만큼이나 심하게 출렁이고 있을수도 있구요.

다시 본론으로 돌아와서, 지금은 사업검토를 하는 초기단계이니 총량을 비교해보기로 하겠습니다. 

첫번째 질문은 아무래도 "한국에서 해외로 자동차 수출하는 총량이 얼마나 되지? 계속 증가하고 있는건 맞아?" 정도가 될 수 있겠네요. 2010년, 2011년, 2012년의 국가별수출통계를 다운받겠습니다. 참고로 방금 수집한 가공되지 않은 데이터를 "raw data"라고 보통 부릅니다.


** 3년치 정보 긁고 읽기

각각 연도별 엑셀파일에는 과년도 통계도 같이 포함되어 있기 때문에 2011년과 2012년 자료만 다운받아도 괜찮습니다. 아무튼 raw data에서 우선 필요한 정보만 모아옵니다. 각각의 엑셀 테이블 제일 아래의 총합계 수치만 따로 모아 테이블을 아래와 같이 만들었습니다. 

'D' 컬럼의 대당 가격은 제가 한번 넣어봤습니다. 수출하는 중고자동차 한 대당 가격이 올라가고 있는지 아닌지 궁금했는데 조금씩 증가하고 있긴하지만 별 차이가 없군요. (5.3 * 1000$ * 환율 1109원)을 계산하면 평균적으로 대당 600만원 선에서 거래되고 있는 것 같습니다. 금액이나 수량으로 보면 급격하게 수출량이 증가하고 있는 것을 알 수 있습니다. 그래프를 그려보기 전에 무엇을 말하면 좋을지 글로 우선 표현해보죠.

"지난 3년간 중고자동차수출 추이를 보니 매년 수출량이 큰 폭으로 증가하고 있습니다. 2010년에는 약 24만대 수출, 12억 5천만불이었던 것이 2012년 집계에서는 약 37만대, 20억불을 기록했습니다. 그리고 한대당 평균 600만원에서 거래되고 있습니다"

이걸 있는 그대로 읽으면 좀 재미도 없고 알아듣기도 어렵습니다. 엑셀에서 2010년과 2012년의 차이를 계산해보면 약 1.6배의 수출량 증가가 있었던 것을 알 수 있습니다. 160% 증가했다라고 말해도 좋구요. 다시 한번 정리해보면

"2012년 우리나라에서 해외로 수출한 중고자동차는 약 37만대이고 수출총액은 20억불입니다. 이것은 2년 전인 2010년에 비해 160% 가량 증가한 수치입니다."


** 이제 그래프를 그려보자

이제 엑셀에서 그래프를 그려보겠습니다. 연도별로 수출량이 증가하는 것을 금액으로 표현할 수도 있고 수량으로 표현할 수도 있는데요, 굳이 두가지를 모두 그릴 필요는 없을것 같습니다. 왜냐하면 자동차 한대 당 가격의 변동이 거의 없었기 때문에 금액으로 그리는 것과 수량으로 그리는 그래프에 차이가 없을 것이기 때문입니다. 그래도 둘 사이를 구분하자면 수치적으로 와닿는 것은 자동차 수량이고, 최종적으로 시장규모를 결정하는 것은 금액인 것 같습니다. 바로 좀 전에 적은 텍스트대로입니다. 2012년에 37만대의 자동차가 해외로 나갔는데, 그 규모가 20억불이더라- 하는 방식으로 진행하면 좋을듯 합니다.

앞으로 자주 사용할 기능은 메뉴탭 중 [삽입]에 있습니다. 두가지로 그려서 확인해 보겠습니다.우선 '기준년도'와 '금액(천불)' 컬럼의 내용을 마우스 드래그로 영역을 지정한 뒤,

한번은 [세로막대형] -> [2차원 세로막대형-묶은 세로막대형]을 선택했습니다. 또 한번은 바로 옆의 [꺾은선형]을 눌러 [표식이 보이는 꺾은선형]을 선택했습니다.


두 버튼을 각각 눌르면 다음과 같은 그래프가 생성됩니다.



그려본 그래프는 바(bar) 그래프와 라인그래프입니다. 두 그래프 모두 자동차수출금액이 증가하는 것을 또렷하게 보여주고 있습니다만, 하지만 제가 보기에는 bar chart가 더 나은 선택처럼 보입니다. 이유는 line chart를 쓰기에는 데이터포인트가 너무 적기 때문입니다. 데이터포인트가 연도별로 하나씩 총 3개 뿐인데, 적어도 5개 이상은 되어야 흐름을 보여주기에 좋을 것 같다는 생각이 드네요. 또 하나의 이유는 데이터의 성격 때문입니다. 연도별 데이터 자체가 월별 수출량이 집계된 결과입니다. 잘게 쪼개진 시간 단위의 데이터에는 line chart가, 누적된 결과를 표현하는 것은 bar graph가 비교적 더 잘 어울린다는 생각이 드네요. 

중고자동차 연도별 수출은 bar graph를 이용해보도록 하겠습니다. 기본으로 그려지는 그래프를 순서대로 편집해보겠습니다.


지저분한 것들을 우선 걷어냈습니다. 

1) 데이터포인트가 세개 뿐인데 Y축의 5만 단위의 구분을 모두 넣는 것은 불필요해 보입니다. 

2) 숫자를 걷어내고 나니 축선을 따라나온 가로눈금선들도 별 의미가 없습니다. 

3) 수량(대수)을 알려주는 것은 제목만으로 충분한 것 같습니다. 그래서 우측에 조그맣게 있는 범례도 지웠습니다. 

4) 그리고 X축의 기준년도 사이에 있는 세로 눈금선도 없앴습니다. 


그리고 다음으로 진행합니다.

1. 초기에 설정된 chart의 제목은 데이터의 컬럼명인 '수량(대수)'로 되어있습니다. 그래프를 정확히 설명하는 제목으로 바꿉니다. 단위를 함께 기입해주고 위치도 정리해줍니다. 정중앙에 제목이 있는 것보다는 한쪽으로 정렬해 주는 것이 깔끔해 보입니다. 폰트의 크기를 조절하는 것도 매우 중요합니다. 저는 제목은 12pt, 단위는 10pt로 맞췄습니다.

2. 그래프에 수치를 넣어줍니다. 그래프를 클릭한 뒤 리본탭에서 [레이아웃] -> [데이터레이블] -> [바깥쪽 끝에]를 클릭합니다.

다음으로 오른쪽 그래프를 같이 보겠습니다. 여기서는 최근년도 데이터에 집중할 수 있도록 bar의 색을 바꿔줍니다.

1. 2012년의 bar를 강조해서 볼 수 있도록 짙은 회색으로 바꾸고, 나머지는 옅은 회색으로 설정합니다. 

2. 그리고 2010년과 2011년의 데이터레이블은 8포인트로 두고, 2012년 수치만 12포인트에 bold로 바꿨습니다.


다음으로 아래의 과정을 거치면 그래프가 완성됩니다.

1. 2012년 자동차수출수량에 수출액을 같이 기입해줍니다. 3년치 모두를 넣어줄 필요가 있을까요? 잠깐 고민하다가 하나만 넣기로 합니다. 이미 그래프로 수출량이 증대되는 걸 확인했는데 금액까지 모두 넣을 필요는 없어보이네요.

2. 왼쪽 차트에서 내용구성은 완료되었습니다. 마지막으로 말하고픈 메세지를 집어 넣습니다. [레이아웃] -> [텍스트상자] -> [가로 텍스트 상자]를 눌러 차트 안에 적당한 위치에 글을 집어 넣습니다. 내용은 "2010년에 비해 수출액이 160% 가량 증가함"이라고 적습니다.

3. 마지막에 다루지만 가장 중요한 것이 데이터의 출처입니다. 마찬가지로 [레이아웃] -> [텍스트상자] -> [가로 텍스트 상자]를 눌러 차트 안에 적당한 위치에 글을 집어 넣습니다. 아래의 공간이 협소하니, 바(bar)그래프가 포함된 곳을 클릭한뒤, 영역이 잡히면 아래쪽을 끌어올려 공간을 만듭니다. "출처: 사단법인 한국중고자동차수출조합"을 적어넣고 구석에 위치시킵니다. 


** 결과물 비교하기

편집이 마무리된 차트입니다.


엑셀 안에서 편집으로 차트를 위처럼 바꿨습니다. 원래 전하고자 했던 메세지와 의미가 통하는지 살펴보겠습니다.

"2012년 우리나라에서 해외로 수출한 중고자동차는 약 37만대이고 수출총액은 20억불입니다. 이것은 2년 전인 2010년에 비해 160% 가량 증가한 수치입니다."

우리가 만든 차트와 시작 전에 적어보았던 텍스트가 서로 잘 통하나요? 완성도를 높이려면 이것저것 더 편집해보고 싶긴 하지만, 1편에서 이야기했듯 차트는 필요한만큼만 빨리 만들어내는 것이 중요한 것 같습니다. 반복되다보면 자기만의 패턴도 생기구요.

드롭박스에서 작업한 엑셀파일을 열어보실수 있습니다. 링크는 https://www.dropbox.com/sh/0h6z4n23nl1tcjb/6jNCoagygw 입니다. 

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

Think graphs & maps 1편: 바쁜 우리들을 위한 데이터시각화

** 데이터시각화.

'데이터시각화(data visualization)'라는 단어를 소재로 첫번째 글을 쓰게 되었습니다. 

처음 '직장 초년생을 위한 인포그래픽 혹은 데이터시각화'라는 가제로 아이디어를 내놓고 글을 써볼까 말까 고민을 많이 했었습니다. 이유는 저 역시 더듬더듬 배워가는 입장에서 감히 가르치듯 글을 쓸 수 있을까 덜컥 겁이 났기 때문입니다.

그럼에도 불구하고 글을 한번 써보기로 마음먹은 것은, 오히려 초심자가 글을 쓰면 사소한 시행착오도 같이 공유할 수 있지 않을까하는 기대 떄문입니다. 자전거를 갓 배운 어린이가 지금 막 자전거를 타려고 낑낑대는 친구에게는 더 와닿는 경험들을 나눌수도 있지 않을까 하는 것입니다.

마음을 낸 또 하나의 중요한 이유는, 북극성처럼 멀리 있는 고수들을 좇아서 배우는 것도 중요하지만 그들에게 닿을 수 있도록 하수입장에서 징검다리를 놓아주면 좋겠다...는 생각이 들었기 때문입니다. 개인적인 관심으로 구글검색창을 통해 수많은 해외의 고수들을 만나게 되는데요, 이를테면 Nathan Yau와 같은 분들은 정말 고수이지요. 그리고 세계최고의 그래픽팀이라 생각되는 'New York Times Interactive News'는 볼 때마다 감동입니다. Nathan Yau가 쓴 'Visualize This!'라는 책을 혹시 들어보셨는지 모르겠습니다. 데이터시각화를 제대로 해보고 싶은 분들에겐 입문서와 같은 책인데, 요즘 대세라고 불리우는 R을 기본으로 데이터시각화를 설명하고 있습니다. 하지만 R을 한번에 따라잡기에는 조금 막막한 부분이 있습니다. 앞으로 차근차근 배워볼 예정이긴 합니다만.

<미국대선 경우의 수, 출처: http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html>


** 이미 익숙한 툴

저는 여러가지 시각화 방법 중 하나인 '지도(map)'를 그리는 일을 하고 있습니다. 저야 데이터시각화를 업으로 한다지만 바쁜 대학생들과 직장인들에게 화려한 데이터시각화를 요구하는건 솔직히 어이없는 요구라는 생각이 듭니다. 직접 데이터시각화를 해보면 생각보다 많은 시간이 소요됩니다. 말이나 글로 표현하면 너무 길고 어려우니 그림으로 알려주고자 하는 것이고, 또 그림으로 설명하는 것은 익숙하지 않다보니 제대로 만들기가 어렵기 때문입니다. 하지만 동시에 업무에 방해되지 않는 선에서 중요하고 핵심이 되는 근거를 효과적으로 나타낼 수 있는 스킬을 갖추는 것은 절대 놓칠 수 없는 부분인것 같습니다.

그래서 우리가 데이터를 들여다보기 위해 가장 많이 사용하는 프로그램인 '엑셀'만 가지고도 효과적인 그래프를 만들어 낼 수는 없을까, 거기에 덧붙여서 그래픽 편집툴인 일러스트레이터나 QGIS(지도제작을 위한 오픈소스 프로그램) 사용법을 조금만 익혀서 각자의 업무에 효과적으로 쓰는 방법은 없을까하는 고민이 시작되었습니다. 사실 엑셀 하나만으로도, 그래프를 그리지 않고도 테이블 디자인만 조금 손봐도 파워포인트에 멋지게 넣을 수 있는 도표를 만들 수 있습니다. 그리고 이미 작업해왔던 그래프에 아주 조금만 손을 대도 전혀 다른 그래프로 만들어낼 수 있습니다.

** 이미 익숙한 형식과 지도(map)

그래프를 표현하는 방식도 최소화하려고 합니다. 위에 예시로 든 멋드러진 그래픽은 제쳐두고, 우리에게 앞으로도 영원히 익숙할 bar, pie, flow, plot graph를 잘 다루는 방법을 기본으로 하고, 덧붙여서 제가 집중해서 공부하고 있는 map 제작방법을 소개하려고 합니다. 앞의 여러 방식의 그래프는 익숙할지 모르겠지만 map은 생각만큼 쉽지만은 않습니다. 하지만 지도를 만드는 방법을 조금만 익힌다면 정말로 강력한 무기가 될 수 있습니다. 개인적인 바람은 이 글을 통해 배우신 많은 분들이 좋은 그래프를 빠르게 생산하고 버릴 수 있으면 좋겠습니다. 우리는 이 자리에서 예술을 하려는게 아니기 때문입니다.

<연재에서 다루게 될 bar, pie, flow, plot & map>


** 데이터와 식재료

요즘은 빅데이터라는 단어를 언론에서 많이 접할 수 있습니다. 하지만 마치 데이터만 풍부히 있으면 무언가 새로운 가치가 자연히 드러난다는 식의 보도에는 선뜻 동의하기가 어렵습니다. 방대한 엑셀 테이블을 두고두고 쳐다보면서 엉성한 지도를 그려내는 작업을 지금도 반복하고 있는 제 입장에서는 정말로 그렇습니다. 데이터를 고민해서 쳐다본 일이 없는 사람들에게는 사실 데이터란 쓰레기더미와 같은 것입니다. 그래서 친구들에게 쉽게 설명하고자 할때에는 데이터시각화를 '요리'에 비교하곤 합니다.

<식료품점에서 야채를 고르는 사람, 출처:월스트리트저널-동네 식료품점의 승승장구 비결>

데이터는 식료품점의 식자재와 같습니다. 첫째, 조리하지 않으면 아무 의미가 없다는 것, 둘째, 조리하고자 하는 방법에 따라 식자재의 선택도 매우 달라진다는 것, 셋째, 결정적으로 누가 조리하느냐에 따라 음식의 품위가 달라진다는 점에서 같습니다.

이제 막 요리계에 입문한 초보요리사와 7성급 호텔의 주방장이 세상의 모든 식자재가 있는 대형마트에 요리재료를 사러왔다고 가정해봅시다. 답은 간단합니다. 요리의 고수는 달걀 몇개와 몇가지 야채만으로도 감동적인 스크램블에그를 대접해줄 수 있습니다. 또한 맛에만 민감하지는 않을 것입니다. 그릇에 담아내는 모양은 당연히 예쁠것이고, 먹는 사람을 생각해서 영양도 충분히 고려할 것 같습니다.

데이터라는 것도 이것과 크게 다르지 않다고 생각합니다. 주어진 데이터를 어떻게 쓸 때 가치있는 것인지도 충분히 고민해야하고, 효과적으로 표현하는 방법도 시도해야하며, 무엇보다도 업무에 도움이 되는 방향으로 해석해서 의미를 담아내야 합니다. 세상에서 제일 쓸데없는 그래프가 바로 내용은 없고 예쁘기만 한 그래프입니다. 좀 바꿔서 적어보자면 "So what?"이라는 질문에 정확히 답할 수 있어야합니다. 제 개인적인 주장이 그렇다는 것이 아니라, 데이터를 제대로 활용한다는 것은 응당 그러한 의미인 것 같습니다.

**  앞으로의 계획

때문에 연재에서 데이터 시각화만 골라내어 다룰수는 없을 것 같습니다. 어떤 종류의 데이터를 어떻게 검색하고, 획득하고, 바라보고, 해석하고, 시각화하는 프로세스를 오갈 것입니다. 저도 하수인지라 우왕좌왕하겠지만 그 과정조차도 같이 공유할 수 있으면 좋겠습니다.

이제 방대한 종류의 데이터 앞에 놓인 우리의 상황을 한번 정리하면 좋겠습니다. 농수산물 직판장까진 아니더라도 조금은 다듬어진 식재료가 있는 대형마트 식료품 코너 앞에 섰다고 가정을 합시다. 게다가 우리는 한번도 요리를 제대로 해본적이 없거나 기껏 라면이나 좀 끓여본 수준이구요. 그리고 빅데이터에 욕심내지 맙시다. 거듭 돌려 말하지만, 유기농 채소 쓴다고 맛있는 요리가 되는 것이 절대 아닙니다. 양손에 쥘수 있는 스몰 데이터를 제대로 이해하고 표현하는 데에 초점을 맞추겠습니다.

어떻게든 연재를 시작하게 되었는데요, 저도 이 글들이 어디로 튈지 아직 잘 모르겠습니다. 숨어있는 고수분들께서 피드백을 주시면 좋겠습니다. 저도 이번 연재가 더 빡세게 공부할 수 있는 기회가 되었으면 합니다.

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

+ Recent posts