Data Visualization

[Excel] 서울시 연도별-연령별 데이터 시각화

작년말, (내가 너무나 좋아하는) 뉴욕타임즈 인터랙티브 뉴스를 보고 방법을 적용한 예시이다.

미국에서 소득구간별 세율이 어떻게 적용되어왔는지를 한눈에 보여준다

http://www.nytimes.com/interactive/2012/11/30/us/tax-burden.html?_r=0

위의 링크를 따라가면 관련 기사를 볼 수 있다.

큰 스케일에서는 막대그래프를, 각각의 막대에서는 라인그래프를 사용하였다. 두 개의 연속적인 축을 동시에 사용할 때에 활용할 수 있는 예시이다. 연속적인 축이라는 것은 '시간'과 같이 구간 사이에 연관성이 있는 것을 의미한다. 위의 그래프에서는 1980~2010년의 시간축과, 저소득부터 고소득까지의 소득구간축이 겹쳐있다. 만약 소득구간 대신 '지역'이라는 축을 시간과 같이 사용하려 했다면 적합하지 않을 수 있다. 뉴욕-시카고-텍사스는 x축 상에서 서로 앞서거니 뒷서거니 할 수 있는 연속적인 연관성을 갖지 못하기 때문이다.

위와 같은 방법을 서울시 인구추이를 표현하는 데에 적용해 보았다.

주민등록인구통계 웹페이지에서 데이터를 내려받아 간단하게 정리하였다.

위의 테이블을 한두차례 더 가공을 하여 그래프를 그려나가면 다음과 같은 결과물을 얻을 수 있다.

위의 그래프와 같이 표현하게 되면, 연도별-연령별 인구추이를 한눈에 쉽게 알아볼 수 있게 된다. 하지만 이것으로 데이터시각화가 끝난 것이라 볼 수는 없다. 먼저 확인했던 도표에 비하면 이 그래프는 데이터 속성을 훨씬 명료하게 알려주기는 하나, 우리에게 필요한 정보가 모두 전달되었다고 볼 수는 없다. '시각화된 데이터'도 결국 '데이터'일 뿐이다. 정보를 전달할 수 있도록 해석하는 단계가 필요하다. 해석이라는 건 진지하거나 복잡한 것일 수도 있지만, 그래프를 통해 내가 알게 된 것을 알려주는 간단하게 알려주는 것으로도 충분할 수 있다.

간단히 그래프를 읽어보면 다음과 같다.

가장 눈에 띄는 구간은 30대와 50대 인구의 변화이다. 40대를 기준으로 젊은연령은 줄고, 그 이상의 연령은 늘고 있다. 특히 50대의 증가세가 매우 가파르며, 30대는 줄고있기는 하나 여전히 가장 많은 인구규모를 유지하고 있다.

이 그래프를 만드는 데 가장 중요한 것은 테이블 구조를 다음과 같이 바꾸는 것이다. 연도별 사이에 있는 비어있는 행(row)은 연속적으로 이어지는 면적그래프 사이에 공백을 만들기 위해 삽입하는 것이다. 

변형한 테이블 내용 전체를 선택하여 [삽입] - [영역형] - [2차원영역형]의 첫번째 그래프를 클릭하여 차트를 그린다. 탭 위치는 아래 그림과 같다.

아래와 같은 기본적인 엑셀차트가 만들어지는 것을 확인할 수 있다.


X축, Y축, 제목, 범례 등 후순위에 편집할 내용들은 모두 삭제하고 시작하는 것이 좋다. 완성된 결과에는 모든 레이아웃 요소들이 적절히 디자인되어야 하겠지만, 우선순위를 정하자면 그래프의 핵심인 도형을 알맞게 편집하는 것이 중요하다. 레이아웃 요소들을 모두 제거하고 나면 아래와 같은 그래프를 얻을 수 있다.

차트를 그릴 때에 선택한 방식은 영역형 그래프이다. 면적으로 나타내는 그래프인데, 데이터가 기록된 테이블에서 공백 부분을 '0'으로 인식하게되어 초기 그래프에서는 기둥 사이사이마다 협곡이 만들어진다. 차트가 그려진 영역을 선택하고 상단의 리본탭 중 [디자인] - [데이터선택]을 클릭한다. 그러면 아래와 같은 그림이 편집 창이 뜨게 된다.

여기서 왼쪽 아래에 '숨겨진 셀/빈셀(H)'라는 항목을 클릭하면 아래와 같은 창이 하나 더 떠오른다.

빈 셀 표시 형식의 기본값은 '0으로 처리(Z)'이다. 이것을 '간격(G)'으로 선택하고 확인을 누른다. 설정이 끝나면 아래 그림과 같이 그래프가 변형되어 있는 것을 볼 수 있다.

결론적으로 얻은 그래프는 막대(bar)차트를 닮았지만 속성은 영역형(area)인 그래프다. 추가적인 디자인을 위해서는 막대 상단에 라인을 넣어주는 방법이 있다. 방법은 매우 간단한데, 차트를 만드는 과정에서 레이어를 겹치는 것이 가능하다는 점만 이해하면 된다. 엑셀화면에서 파란색 그래프를 누른 뒤 복사(Ctrl+C) 및 붙여넣기(Ctrl+V)를 누른다. 그러면 아래처럼 그래프의 색상이 바뀐다.

하지만 이것은 그래프의 색상을 바꾸는 작업이 아니다. 아까와 마찬가지로 상단의 리본탭에서 [디자인] - [데이터선택]을 누르면 다소 달라진 점을 확인할 수 있다.

왼쪽의 범례 항목(계열)에 '인구' 항목이 두 개인 것을 볼 수 있다. 이것은 우리 눈에 보이는 붉은색 차트 아래에 원래 그렸던 파란색 차트가 숨어있는 것을 뜻하는 것이다. 같은 공간에 같은 데이터내용으로 두 개의 그래프가 그려져있는 것이다. 각각의 그래프를 별도로 컨트롤 할 수 있는데, 아래 그림처럼 클릭하여 위에 얹어진 그래프를 '선'으로 바꿀 수 있다.

우선 붉은색 차트 영역을 클릭한 뒤, 리본탭의 [디자인] 탭을 눌러 차트종류 변경을 클릭한다.

기존에 '영역형'으로 선택되어 있던 것을 스크롤바를 올려 '표식이 있는 꺾은선형'으로 바꿔준다.


확인을 누르면 아래처럼 그래프의 모약이 변경된다. 밑에 깔려있던 파란색 영역 그래프가 드러나고, 각 막대의 위에는 라인그래프가 놓이게 된다.


이후 적절한 색상을 선택하고 필요한 정보를 표현할 레이아웃 요소를 넣어주면 하나의 차트를 완성할 수 있다.

그래프가 완성되어 가는 과정은 아래 슬라이드와 같다.


신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. BlogIcon 엑셀 차트 2014.04.14 16:08 신고

    엑셀 차트 제목

  2. BlogIcon 변남주 2014.09.01 07:35 신고

    연령대별 증감율을 어떻게 표현할 지 고민하던차에 이 블로그를 보고 매우 도움이 되었습니다. 연령병 범례와 가로선들은 엑셀에서 그림 삽입하신 건가요?

    • Favicon of http://mapmatters.net BlogIcon mapmatters 2014.09.04 10:33 신고

      네 범례(10대~100세이상)은 도형으로 넣은것이고, 가로선들은 데이터로 집어넣은 것입니다. 모든 연령대에 20만 단위로 데이터를 넣어서 라인으로 넣은 것입니다.

[워크샵 안내] 바쁜 우리들을 위한 데이터시각화: 서울, 인구와 커피

▶ 신청방법

 

디노마드 홈페이지 :http://www.dnomade.com/shop/m_mall_detail.php?ps_ctid=02000000&ps_goid=1145

문자신청 : 050-7449-3426 (이름/연락처/데이터시각화)

 

 [디노마드학교]워크샵: 데이터시각화  

   바쁜 우리들을 위한 데이터시각화_서울, 인구와 커피

 


▶ 강사 프로필

 

박용재

 

- 연세대학교 건축공학과 졸
- 현)GIS United 근무
- 주요 참여프로젝트
 

• 광주광역시 광산구청 행정지도제작 총괄
• 문화재청 문화재위험지도 시범제작
• 부천문화재단 공연예매고객분석
• 패션브랜드 입지전략 및 상권분석
• 청담동 부동산입지 상권분석
• 이화여대 희귀생물종 연구지원
• 서울특별시 동북4구발전위 연구참여
• 서울시 보육소외지역 분석 기사보도
• 삼각산재미난마을 공공건축기획
• GIS로 그리는 5•18 사망자지도 등
 

 

▶ 커리큘럼

빅데이터라는 단어를 언론에서 많이 접할 수 있습니다. 하지만 마치 데이터만 풍부히 있으면 무언가 새로운 가치가 자연히 드러난다는 식의 이야기에는 수긍하기가 어렵습니다. 그건 마치 마치 카트를 끌고 마트를 한바퀴 빙 돌고 나면 훌륭한 요리가 식탁 위에 놓일거라 기대하는 것과 같다고 할 수 있습니다.

이번 워크샵의 주제는 ‘서울, 인구와 커피’ 입니다. 그래프와 지도를 그려보면서, 우리가 자주 찾는 카페들은 어느 지역에 입지하고 있는지, 서울에 살고 있는 사람과 일하는 사람들은 누구인지, 그래서 카페를 어느 위치에 어떤 고객을 대상으로 내면 좋을지에 대해 이야기를 나눠보고자 합니다.

빅데이터가 아닌 공개적으로 구할 수 있는 데이터를 찾아 읽어보고, 우리에게 의미있는 방향으로 해석해보고, 효과적으로 시각화하는 과정을 경험 할 것입니다. 그리고 이 과정에서 연습하는 시각화 방법들을 팀장님께 올릴 보고서, 다음 주에 제출할 과제, 다음 학회에 발표할 논문에 적용할 수 있기를 기대합니다. 

 

1강
Introduction: 바쁜 우리들을 위한 데이터시각화, 문제해결을 위한 그래프와 지도
데이터시각화 개요: 그래프 구성과 디자인 가이드라인
Excel 데이터시각화: Bar – Line – Pie – Bubble – Table heatmap
 

2강
지도시각화의 이해: dot – bubble - choropleth – density map
QGIS 기초: 지도시각화에 필요한 기능 익히기
데이터로 서울읽기: 서울 인구, 커피브랜드 분포 시각화
 

3강
문제해결을 위한 데이터 찾기 &표현하기 과정 실습
카페 입지선정을 위한 데이터시각화 스토리텔링 & 토론
 


▶ 상세정보

 

기수:  3기   

    

일자 : 2013년 8월 24일-9월 7일
         매주 토요일 총3회 

시간: 10:00-13:00  

장소 : 종로 아이스토리 예정

               서울 종로구 효제동 301-5

               (종로 5가 3번출구 100m 김밥천국 옆 하이보스 미용실 4층)

수강료 : 90,000원

 

추천대상 :  데이터시각화에 관심 있는 분 누구나, 수업과제/논문/업무에 쓰이는 데이터를 활용하고 시각화하는 데 관심이 많은 분


 

▶ 신청방법

 

디노마드 홈페이지 :http://www.dnomade.com/shop/m_mall_detail.php?ps_ctid=02000000&ps_goid=1145

문자신청 : 050-7449-3426 (이름/연락처/데이터시각화)


신고
크리에이티브 커먼즈 라이선스
Creative Commons License

+ Recent posts