전체

FOSS4G Korea 2016 발표자료 - 서울시 구조출동 골든타임 시뮬레이션

작년 9월에 발표한 자료. 서울시 구조출동 골든타임 시뮬레이션.

위치데이터를 분석하는 것도 재밌었지만, 지도를 직접 제작하는 것도 재미있었다.

당장은 아니겠지만, 언젠가는 벡터타일맵을 제작할 수 있기를!



신고
크리에이티브 커먼즈 라이선스
Creative Commons License

Doer가 되자

링크드인을 들어가보니 어느새 이직하고 6개월이 되었나보다.

그간 새로운 분야와 방식, 조직을 익히느라 여길 들어와볼 일이 별로 없었다.


머릿속에 여러가지 말뿐인/생각뿐인 계획들이 떠돌고 있다. 너무 멀어서 막막한 일들이 많다.

돌이켜보면 5년 전에도 이랬었다. 얼마나 조급했었는지... 결국은 한땀한땀 실행하는 것만이 유일한 방법이다.


그래서 생각난 것이 스티브 잡스의 'doer' 동영상이다. 4월을 맞이하며 새로운 마음가짐으로~



신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

Doer가 되자  (0) 2017.04.02
측정되지 않는 것들  (0) 2016.05.04
도서관에서  (0) 2016.03.10
매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09

[2015 FOSS4G Seoul] GIS정책지도, 도봉구 어린이안전지도

작년 10월, FOSS4G서울에서 발표한 자료. 우리나라가 유치한 대회에서 영어로 발표를 해야했다.
경기도 프로젝트 와중에 밤새고 아침되서야 스크립트 쓰는둥마는둥 하는 바람에 어물어물 ㅎㅎ

발표한 프로젝트는 도봉구 어린이안전지도였다.
최종보고보다 FOSS4G 발표가 앞선 바람에 프로젝트 마감날짜보다 분석을 먼저 끝내고 발번역했다.
네덜란드에서 온 혈기넘치는 한분이 자기 동네에서 해보고싶다고 명함을 교환했었더랬다.

이 슬라이드 포함 작년 대회에서 발표된 다른 많은 오픈소스 관련 발표자료는 여기 참조.
https://www.meci.co.kr/societyevent/FOSS4G2015/program/program_3.asp?sMenu=pro3

Dobong-gu(Seoul) Safety-info Map

곧 다가오는 FOSS4G Korea 2016에서는 뭘 이야기할 수 있을까?


신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. 조성현 2017.03.27 18:15 신고

    안녕하세요! 데이터 시각화에 관심있는 학생인데... 지나가다 들렸습니다! 멋진일 하고 계시네요!
    여쭤보고 싶은점이.. 어디서 이런 공부를 배울수 있는지 궁금하네요 . 시중에 나와있는 R책은 대부분 데이터 전처리에 대한 기본적인내용 밖에 나와있지 않는데 어떻게 공부해야 하는지 여쭤보고 싶어서요!

    답글 달아주시면 감사하겠습니다:)

    • Favicon of http://mapmatters.net BlogIcon mapmatters 2017.03.28 07:16 신고

      네 안녕하세요, 데이터시각화에 관심이 많으시다니 반갑습니다~ 다른 공부도 그렇겠지만 특정 교육과정을 통해서 공부하는 것은 일부 도움이 되나 입문하는 정도에서 활용할 수 있을 것 같습니다. 마땅한 겨육과정이 드물기도 하고요. 저같은 경우는 책과 인터넷에서 소스를 보고 프로젝트에 적용해보거나 아니면 직접 고민해서 그려보는 시도를 많이 하는 편입니다. R을 활용하신다 하니 책 "visualize this"와 책의 저자(nathan yau)가 운영하는 웹페이지 flowingdata.com 구독을 추천드립니다. 웹페이지의 경우 매월 9달러 가량의 구독료를 내면 따라해볼 수 있는 tutorial 활용이 가능합니다. 그럼 즐거운 하루되세요~

오픈소스GIS 분석가과정 day2: 은행점포 폐점 패턴 분석

공간정보아카데미(LX한국국토정보공사) GIS분석가 과정 자료입니다. 

2014년 동아일보 은행폐점 패턴 분석기사에 활용하였던 자료를 토대로 구성했습니다.


신고
크리에이티브 커먼즈 라이선스
Creative Commons License
  1. Favicon of http://blog.naver.com/aa105965/220736072299?111243 BlogIcon 1466134664 2016.06.17 12:37 신고

    알찬 정보 좋네요~

측정되지 않는 것들

요즘은 젠트리피케이션과 관련한 분석을 진행하고 있다. 젠트리피케이션이란, 상대적으로 하위계급이 사는 동네가 '뜨는' 바람에 중산층-상위계급 진입이 시작되고, 하위계급이 지역을 떠나는 현상을 말한다. 국외에서는 '주거'에 초점이 맞춰져있지만, 국내에서는 '상업시설'이 문제가 되고 있다. 동네가 뜨는 바람에 임대료가 너무 올라서 기존의 자영업자가 장사를 접고 떠나야한다는 뜻이다.

데이터 구축 - 분석 - 표현까지, 이번 일은 특이하게도 반복작업이 유난히 많다. 데이터를 조금씩 덜어내고, 붙여보고, 시기를 잘라보고.. 하는 일이 많아서 그런듯하다. 아무튼 그 상태로 중간보고까지 마치게되었다.

보고회를 마치고나니 '측정'하는 것들에 대한 피로가 순간 몰려왔다.

아무래도 데이터분석을 직업으로 삼다보면, '측정'되는 것들에 대한 집착이 자연스레 생길 수 밖에 없다. 프로스포츠 선수들이 컨디션을 조절하기 위해 먹는 것에 매우 민감한 것과 비교가 될 수 있는 것인지는... 잘 모르겠다. 아무튼 새로운 데이터, 더 자세한 데이터, 모수에 가까운 데이터에 대해 민감해질 수 밖에 없다. 프로젝트와 관련이 없더 하더라도 말이다.

사실 우리가 사는 세상은 측정되는 것보다 측정되지 않은, 또는 측정할 수 없는 것들이 훨씬 많은 곳이다. 어마어마하게 많고 복잡한 현상, 상황, 과정, 결과 중 아주 미미한 흔적만이 측정되어 데이터로 남는다. 빅데이터 세상이라지만, 앞으로도 그럴 것이다. 조금 더 덧붙이면 빅데이터 분석은 '모수'를 다루는 영역이 아니다. 기존의 데이터 분석이 표본을 분석하는 수준이었다하면, 빅데이터 역시 표본을 분석하는 일이지만 그 수가 '기존의 표본'에 비해 훠~얼씬 큰 것이라고 이해하는 게 합리적이다.

아무 목적없이 글을 적다보니 이야기가 잘 샌다...어쨌든 그래서 교보문고에 가서 '측정'과 무관한 책들을 몇 권 샀다. 진화생물학자 최재천 교수의 신간, 그리고 '어떻게 살아야 하는가' 하는 질문의 강의록 같은 것이다. 이유는, 계속 측정-계산-분석 굴레를 맴돌다가는 마치 게임에 빠져서 못헤어나오는 중독자가 되는게 아닐까 하는 생각이 그냥 스쳤기 때문이다.

그렇다고.. 책을 샀다고 해서 맛나게 읽히는 건 아니다. 게임중독자가 어느 날 각성하고 들판으로 캠핑간다면 홀가분할까 싶다. 그래도 내일-모레 연휴이니 차분히 보내볼까 한다.


그리고.. 이제 이번 달은 제안서의 시즌이다. 작년 5월도 그랬지만... 그래서 5월은 참 잔인한 달이다.

매일같이 나들이가면 좋을 날씨에, 사무실에서 자리 뜨는 일 거의 없이 제안서쓰기란 참!

뜨듯한 겨울을 나려면 힘내야지.

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

Doer가 되자  (0) 2017.04.02
측정되지 않는 것들  (0) 2016.05.04
도서관에서  (0) 2016.03.10
매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09

도서관에서

오늘은 국립세종도서관에서 업무를 하고 있다.

작은 프로젝트가 하나 끝나면서, 우리 모두 다음 스텝으로 가기 위한 짧은 토론이 몇번 있었고, 개인적으로 시간이 필요하다고 생각했다. 나에겐 일이자 동시에 공부인 것을 하고 있다.

일하면서 가끔 도움을 얻고는 했지만 한번도 직접 참여해본적이 없었던 github에도 가입을 했다. 어쩌다 나도 기여할 것이 있어서 comment도 하나 했다. 이렇게 프로그래밍의 세계로 입문하는건가~ 싶기도 하다.

세종도서관은 정말로 좋다. 넓은 공간, 많은 책, 특히 잘 갖추어진 정책자료, 평일에 이용할 수 있다는 내 조건이 잘 맞아떨어지니 정말 좋다. 대전으로 터를 옮기기 전에는 세종시를 건설하는 것에 대해 크게 관심도 없었을 뿐더러, 잘 납득이 되지 않는 부분도 있었다. 지방분권이 필요한 것은 맞지만, KTX 등 교통인프라가 이미 잘 갖춰진 대전을 제대로 확장하면 될 것 아닌가? 하는 생각이었다.

하지만 세종도서관에 와보니 조금은 생각이 바뀌는 부분도 있다. 새로운 컨셉을 담으려면 새로운 판에 하는 것이 비용에서나 결과에서나 훨씬 유리하구나 하는 점들이 와닿는다. 대전은 이미 가득 차 있다.

대학생활을 마치고 아쉽게 느꼈던 것은 도서관을 많이 이용하지 못해서다. 독서실처럼 시험공부하러 이용은 많이 했지만, 방대한 장서의 매력에 푹 빠지지 못했다. 이유는 간단한데, 무슨 책을 보면 도움이 될지 방향이 뚜렷하지 않았기 때문이다. 깊이 파고들어가고픈 분야가 정해지지 않았기 때문이다.

사회에서 일을 시작하고 몇 년을 한 분야에서 일하면서, 하나의 단계를 거치고 나면 그 다음에 손에 잡힐듯 말듯한 딱 한 단계가 더 보일 때도 있다. 그럴 때 다양한 책과 자료와 노하우가 고프다. 그럴 땐 서점과 도서관이 샘물같은 공간이 아닐 수 없다.

주변에 이런 곳이 많으면 좋겠다. 무언가를 경험할 시점이 지났을 때, 되돌아보고 그것이 아쉽다고 느낄 때 되돌릴 수 있는 공간이라고 해야할까.. 말이 좀 꼬이지만, 그렇다 ㅎㅎ

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

Doer가 되자  (0) 2017.04.02
측정되지 않는 것들  (0) 2016.05.04
도서관에서  (0) 2016.03.10
매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09

매체와 편집에 대한 관심들

요즘 관심있는 주제들이다. 프로젝트 마감을 앞둔 연휴 직전에 머리를 식히러 블로그를 열었다. 


예전부터 다큐멘터리에 관심이 있었고(그다지 많은 작품을 본 것은 아니지만...), 최근데 SBS나 EBS에서 하는 몇몇 편을 보면서 다시 관심이 생겼다. 정확하게는 다큐멘터리라는 장르에 대한 관심이라기 보다는, '매체'로서의 다큐멘터리에 관심이 더 간다.

그러던 와중에 최근 우연히 구글 검색을 하면서, BBC 다큐멘터리 제작방법론에 관한 hwp 파일이 있어서 매우 재미있게, 또 의미있게 읽었다. 데이터분석을 어떻게 해야하고, 어떻게 접근해야하는지에 관한 많은 힌트가 들어있었다. 그걸 정리하는 것은 다음에 기회가 있다면 하기로 하고..

BBC 글을 열심히 읽고나서 집어든 책은 몇년 전에 사두고 아직 읽지 못한 김정운 교수가 쓴 '에디톨로지'이다. 다큐멘터리 제작과정을 간단하게 '기획' - '촬영' - '편집'으로 요약한다면, '편집'은 어떻게 해야 하는걸까? 하는 질문 때문이다.

올해로 데이터분석 일을 시작한지 만 4년을 넘기고 5년째를 보내고 있다. 물론 아직까지는 새파란 사회초년의 경력이지만, 같은 일만 쭉 해오다보니 짧게 느껴지지만은 않는 것이 사실이다.

그동안 데이터, 시각화, 분석 등 관심갖게 되는 키워드를 중심으로 찾아보기도 하고, 알게된건 어설프더라도 프로젝트에 적용해보고는 했는데, 매체나 편집과 같은 키워드를 잘 알게된다면, 올해 진행하는 프로젝트에서 시도해볼만한 키워드라고 생각한다.


지금까지 겪어온 모든 프로젝트의 과정과 결과를 요약하자면, 메시지를 어떻게 만들어내서 -> 수용자를 설득하고 -> 지금과 다른 변화를 이끌어낼것인가? 로 압축되는 것 같다. 

'분석'이라는 틀에 갖히기 보다는, 큰 그림을 더 잘 이해하려고 노력하는 와중에 있다고.. 스스로 생각해본다.


(앞으로 글을 좀 더 자주 쓰고 싶다. 블로그에 글을 쓰면 생각이 잘 정리되는 큰 장점이 있다.)


신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

측정되지 않는 것들  (0) 2016.05.04
도서관에서  (0) 2016.03.10
매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09
기획 프로젝트 + 데이터시각화  (0) 2015.03.29

꽤 괜찮은 데이터 지도(data map)를 그려주는 Natural Breaks란?

회사 블로그(gisutd.tistory.com)에 올렸던 글과 동일한 포스팅입니다.(2015.4월)



지난 4월 22~24일, LX대한지적공사 공간정보 아카데미에서 오픈소스GIS 분석가 과정 교육이 진행되었습니다.


2일차 교육을 저희가 맡아서 진행을 하였습니다. 치킨집을 차리기 위한 상권분석, 서울시 어린이집 부족지역을 찾는 과정을 진행하였고, 교재로 만든 내용들을 기초로 앞으로 기회가 될때마다 한 단락씩 포스팅하려고 합니다.


(이 글에 첨부된 지도나 그림은 모바일보다 데스크탑 화면을 통해서 읽으시는게 좀 더 낫습니다)


지도를 표현하는 방법 중 단계구분도(Choropleth map)은 익숙한 방법 중 하나입니다. 다음과 같은 지도를 '단계구분도'라고 부릅니다.



위의 지도는 단계구분도를 설명할 때 많이 인용하는 지도 중 하나입니다. 2011년 런던에서 폭동이 많이 발생하였던 시점에, 가디언지에서 구글맵을 기반으로 블록별 실업률과 폭동 발생위치를 함께 보여주는 지도를 제작하였습니다(제목: Mapping the riot with poverty).


지도에서 붉은색이 강할수록 실업률이 높은 지역이고, 반대로 푸른색이 짙을수록 실업률이 낮은 지역을 뜻합니다. 그리고 블록지도 위에 놓인 구글마커는 폭동이 발생한 위치를 보여주고 있습니다. 지도 위의 분포만을 확인하더라도 실업률이 낮은 지역에서 폭동이 발생했던 경우는 찾아보기 힘듭니다.


이번 포스팅에서 설명하고자 하는 부분은, 위의 지도처럼 속성값이 높은지역과 낮은지역을 시각적으로 명확하게 구분하여 전달할수 있는 방법에 관한 것입니다. 공간을 런던이 아닌 서울로 옮겨서, 통계청에서 발표한 2012년 말 기준 집계구별 사업체종사자(직장인구)를 기준으로 맵핑해보겠습니다.


<서울시 집계구 지도, 강남구를 확대한 집계구>


통계청집계구 데이터를 통해, 서울시에 종사하는 약 437만 명의 직장인을 총 16,230개의 세세한 블록(집계구)으로 나뉘어 수치화된 정보를 알 수 있습니다. 위의 왼쪽 지도는 서울시 전체 집계구 경계를 올려본 결과이고, 오른쪽 지도는 강남구에 줌인하여 살펴본 것입니다. 우리가 일반적으로 알고 있는 행정동 경계보다 훨씬 잘게 쪼개어져 있는것을 알 수 있습니다. 그러면 이제 집계구 안에 담긴 사업체종사자 수를 표현해보겠습니다.

<서울시 집계구별 사업체종사자 지도(Natural Breaks)>


서울시 집계구별 사업체종사자입니다. 우리가 익히 알고 있듯, 중구의 중심업무지구, 강남구의 테헤란로, 금천구의 가산디지털단지, 영등포구 여의도가 두드러집니다. 이외에는 강서구의 가장 서측 지역이 눈에 띄는데, 바로 김포공항이 위치한 곳입니다. 2012년 말 기준으로 25,457명이 근무하고 있는 것으로 나타납니다.


위의 지도를 그리는데 적용한 방법은 Natural Breaks(Jenks) 입니다. 지도표현에서 등급(class)을 구분하는 여러가지 방법 중 하나입니다. 비교할 수 있는 다른 대표적인 방법으로는 등간격(Equal Interval)과 등분위(Quantile)이 있습니다. 


등간격(Equal Interval)은 동일한 간격으로 등급을 구분하는 방법입니다. 성적평가로 예를 든다면, 90점 이상은 A학점, 80점 이상 B학점, 70점 이상은 C학점으로 구분하는 것입니다. ESRI Support의 GIS Dictionary에 따르면 다음과 같이 정의되어 있습니다.

equal-interval classification

  1. [cartography] A data classification method that divides a set of attribute values into groups that contain an equal range of values.

등분위(Quantile)는 동일한 비율로 등급을 구분하는 방법입니다. 마찬가지로 성적평가에 대입해본다면, 50명의 학생 중 10등(상위 20%)까지 A학점, 11~20등(상위 40%)까지 B학점, 21~30등(상위 60%)까지 C학점으로 평가하는 것입니다. 동일한 비율구간 단위로 묶는 방법이며, 동시에 동일한 갯수 단위로 묶는 방법이기도 합니다. GIS Dictionary에서는 다음과 같이 설명하고 있습니다. 

quantile classification

See Also: classification

  1. [data structures] A data classification method that distributes a set of values into groups that contain an equal number of values.

이 두가지 방법으로 서울시 집계구별 사업체 종사자를 맵핑하면 어떻게 될까요? 결과는 다음과 같습니다.

<서울시 집계구별 사업체종사자 지도(등간격)>


먼저 등간격으로 구분한 사업체종사자 지도 입니다. 중구의 일부지역, 영등포구 여의도, 금천구의 가산디지털단지 등 몇몇 지역을 제외하고는 아무도 일하지 않는 황무지처럼 표현됩니다. 조금 더 자세히 살펴보겠습니다.


<중구 명동을 중심으로 본 집계구별 사업체종사자, 서울시 내 종사자수 상위 집계구>


서울시에서 가장 종사자가 많은 집계구는 명동입니다. 지도에 표시된 을지로입구역부터 명동역 사이에 위치한 명동상권 안에는 총 82,606명이 종사하고 있습니다. 오른쪽의 테이블을 살펴보겠습니다. 회색 컬럼에 '269'라고 표시된 블록이 명동상권이고, 그 아래로는 종사자수 2위부터 13위까지 입니다. 서울시 전체 집계구가 1만6천개가 넘는데, 1위부터 13위 사이만 살펴봐도 네 배에 가까운 차이가 납니다.


등간격으로 등급을 구분하여 지도로 표현하게 되면 이와 같은 문제가 나타나기도 합니다. 비정상적으로 분포를 벗어난 아웃라이어(outlier)로 인해 전체적인 패턴을 이해하기 어려운 방식으로 지도가 그려지는 경우가 있습니다.


다음으로 등분위(Quantile) 방법으로 그려진 지도를 확인해보겠습니다.


<서울시 집계구별 사업체종사자 지도(등분위)>


등분위로 서울시 집계구별 사업체종사자를 맵핑한 결과입니다.푸른색으로 알록달록한 지도가 그려졌습니다. 지도에서 짙은 푸른색으로 칠해진 지역은 전체 1만6천 개 집계구 중 종사자 수가 상위20%에 해당하는 집계구입니다. 등간격으로 구분하여 그린 지도와는 반대로, 서울시 대부분 지역에서 많은 사람들이 북적이며 일하는 것으로 보여집니다.


내추럴브레이크 - 등간격 - 등분위 모두 5개 등급으로 구분하여 지도를 그렸는데요, 실제로 값을 어떻게 나누었는지 비교해보겠습니다.




사업체종사자수 1등급 구간을 살펴보면, 내추럴브레이크는 26,530명 이상, 등간격은 66,085명 이상, 등분위는 267명 이상인 것을 확인할 수 있습니다. 지금까지 살펴본 바로는, 집계구별 사업체종사자수를 표현하기에는 내추럴브레이크를 사용하는 것이 지도를 읽는 사람으로 하여금 시각적으로 이해할 수 있도록 돕는데 좋은 방법으로 판단됩니다. 하지만 내추럴브레이크를 이용한 등급구분은 등간격이나 등분위처럼 간단한 비유로 설명하기가 쉽지 않습니다. 그래서 구글 검색을 통해 몇가지 이해할 수 있는 정의들을 골라보았습니다.


아래 글상자에는 GIS위키(wiki.gis.com)에 소개된 Jenks Natural Breaks Classification 정의를 담았습니다. (참고로 '내추럴 브레이크'라는 용어는 ArcGIS 프로그램을 통해 만들어진 것이고, 방법론은 Jenks 교수에 의해 만들어진 것입니다. 그래서 Jenks Natural Breaks 또는 Jenks Optimal Algorithm 또는 줄여서 Jenks 라 부르기도 합니다. 실제로 많은 지도제작자들이 데이터를 7등간 이하로 구분할 때에 널리 사용하는 방법입니다.


The Jenks Natural Breaks Classification (or Optimization) system is a data classification method designed to optimize the arrangement of a set of values into "natural" classes. This is done by seeking to minimize the average deviation from the class mean, while maximizing the deviation from the means of the other groups. The method reduces the variance within classes and maximizes the variance between classes.[1][2]

[1] Jenks, George F. 1967. "The Data Model Concept in Statistical Mapping", International Yearbook of Cartography 7: 186-190.

[2] McMaster, Robert, "In Memoriam: George F. Jenks (1916-1996)". Cartography and Geographic Information Science. 24(1) p.56-59.


이 문장을 해석해보자면, Jenks Natural Breaks Classification은 데이터값의 배열을 자연스러운 등급(natural classes)으로 최적화(optimize)하여 데이터로 묶는(data classification) 방법입니다. 내추럴브레이크를 적용하면, 같은 등급 내 전체 값들의 평균을 기준으로 평균편차(average deviation)는 최소화되고, 각 등급간의 분산(variance)은 극대화하는 것입니다. 즉, 등급 내의 분산은 줄이고 등급 간의 분산은 최대화하는 방법입니다. 


문장 해석만으로는 쉽게 이해되지 않는 부분이 있어, 다음과 같이 가상의 예시를 만들어보았습니다. 임의로 축구팀 A부터 O까지 15개팀의 승리횟수를 적어보았습니다.


도표에 기록된 15개 축구팀을 5개 등급으로 묶어보겠습니다. 적용하는 방법은 등분위, 등간격, 내추럴브레이크 세가지 방법입니다. 



먼저 등분위로 등급을 나누어보았습니다. 위의 차트처럼 3개씩 묶이게 됩니다. 등분위로 등급을 구분하게 되면, 승리횟수를 기준으로 F, I, L 팀은 바로 단 1승 차이로 바로 상위권에 있는 G, J, M과 다른 등급에 묶입니다. 동일한 갯수로 구분되는 장점은 있으나, 보기와 같이 막대차트가 아닌 색상만으로 인지한다면 F, I, L 세 팀의 실제 승리횟수에 대해서는 올바르게 인식하기가 쉽지 않아보입니다.



등간격으로 등급을 나누어보았습니다. 가장 많은 승리를 거둔팀이 37승, 적은 팀이 1승으로 총 36승의 차이가 나고, 5등간으로 나누면 7.2가 동일한 간격이 됩니다. 등간격 방식으로는 1등급에 L, M, N, O 4개의 팀이 해당되고, 4등급에는 F팀 하나가 분배됩니다. 그리고 5등급에는 A~E 다섯개 팀이 해당되게 됩니다. 이 방식에서도 F팀과 G팀은 불과 1점 차이로 서로 다른 등급으로 구분이 됩니다.


마지막으로 내추럴 브레이크를 적용하였을 때 결과입니다. 이 결과는 프로그램을 통해서 등급을 구분한 것이며 직접 수식을 적용하지는 않았습니다. 실제로 이와 같이 등급을 나누는 방법은 조금 까다로운 편인데, 짧게 설명하자면 임의로 등급을 나눈 뒤 반복적으로 평균과 편차를 계산해가면서 최적화된 값을 만족할 때까지 객체의 등급을 하나씩 조정하는 연산을 반복수행하는 것입니다.


결과를 놓고 보았을 때에 상식적으로 등급이 묶인 것으로 이해할 수 있습니다. 등급구간별 객체 수는 4개, 3개, 3개, 2개, 3개로 균등하지는 않지만, 만약 우리에게 위의 막대차트를 색상없이 보여주면서 '축구팀 15개를 성적에 따라 상위권/중상위권/중위권/중하위권/하위권 5개로 구분하시오'라는 문제가 주어진다면 이와 같이 주관적으로 구분할 수 있을 것입니다. GIS위키에도 '최적화란 수치적인 연산을 통해 객관적으로 데이터를 등급화하는 것이지만, 내추럴브레이크는 주관적으로 데이터를 등급화한다(Unlike the optimal method which uses a numerical measurement to separate data classes objectively, the natural breaks method classifies data subjectively. (Slocum, Terry A., and Terry A. Slocum. Thematic Cartography and Geovisualization. Upper Saddle River, NJ: Pearson Prentice Hall, 2009. Print.))' 라고 소개하고 있습니다.


주관적인 방법임에도 불구하고 앞서 서울시 사업체종사자 지도에서 확인한 바와 같이, 실제적인 현상을 설명하기에 훌륭한 방법임에는 틀림없습니다. 기존 연구에서도 Jenks 최적화 알고리듬(Jenks optimal algorithm)은 정량화할 수 있는 동질성(quantifiable homogenetity)과 통계적 클러스터 개념(cluster concept in statistics)을 기초로 한 최적화된 등급화(classification) 방법이라고 증명된 바가 있습니다.


이번 포스팅 이후 다음 기회에는 내추럴 브레이크를 수행하는 실제 연산식과, 결과로 나온 등급을 검증하는 방법에 대해 소개하겠습니다. 




신고
크리에이티브 커먼즈 라이선스
Creative Commons License

연휴 첫날 끄적

1.

오늘 아침에 일어나보니 빅뱅의 신곡이 나왔다는 뉴스가 있었다. 오후에는 안산 거리극축제에 다녀왔고, 돌아오면서 코엑스에 정부3.0 전시관을 다녀왔다. 가는길 오는길 종일 빅뱅 노래를 듣고 있는데, 탁월한 것에는 항상 부럽고 설렘을 느끼는 것 같다.

이번에 듣고 있는 빅뱅 새앨범, 가끔 나오는 서태지 앨범(모든 앨범은 아니지만...), 라디오헤드 내한공연, 아이폰을 처음 사용했을때, 스타벅스 스토어디자인 가이드(글로만 읽기는 했지만...) 등등... 그런 것들을 굉장히 동경하고 살게 되었고, 동시에 한심함? 부끄러움? 도 느끼게 된다. 이런 기준을 나에게 엄격하게 들이대질 못하고 관대한게 문제다.

내 손이 닿는 일들이 탁월했으면 좋겠다. 지금도 다른 팀과 비교하면 어떤 부분에서는 좀 더 나을수도 있겠지만, 좀 더 나은것이 탁월한 것은 아니니까... 베껴지거나 흉내내어질 수 없는 압도적인 것을 만들 수 있으면 좋겠다.

2.

탁월하다고 인정되는 일들은 대게 엄청난 노동량을 필요로하는 것 같다. 물론 빅뱅이든 서태지든 라디오헤드든 물어볼 길이 없어서 확인할 방법은 없다. 지금까지 이야기한 탁월한 것의 범주를 '콘텐츠'라고 할 때 나는 '분석 콘텐츠'를 만드는 일을 하고 있다고도 볼 수 있는데, 이와 관련하여 가장 먼저 떠오른 사람은 네이트 실버이다. 그가 쓴 신호와 소음은 굉장한 분량이면서도 동시에 질적으로도 매우 수준높은 내용을 담고 있다. 이번 기회에 평소에 활동하는 양이 궁금하여 그가 운영하고 있는 538(five thirty eight)를 살펴보았다.

네이트 실버 혼자서도 보통 하루 또는 이틀 간격, 길 때는 5일 간격으로 끊임없이 기사를 올리고 있다. 단순 가십거리를 쓰는 것도 아니다. 원고 분량도 상당하고 모든 기사에는 한 두컷의 깔끔한 그래프가 첨부된다. 사실 538에 컨트리뷰터가 20명 이상으로 적지 않기 때문에 그가 쓰는 글은 보름에서 20일 주기일거라고 생각했었다.


난 이 시간들을 어떻게 보내고 있을까?

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

도서관에서  (0) 2016.03.10
매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09
기획 프로젝트 + 데이터시각화  (0) 2015.03.29
사회적 관계의 기본  (0) 2015.02.02

GU Map Insight Lab 블로그 개설

제가 근무하고 있는 GU(GIS United)의 티스토리 블로그가 개설되었습니다. 주소는 gisutd.tistory.com 입니다. 작년 말 Map Insight Lab이라는 기업부설연구소를 만들었고, 블로그도 같은 이름으로 새로 개설하게 되었습니다. 모두가 함께 포스팅하는 팀블로그입니다.

그동안 회사블로그는 워드프레스를 기반으로 운영했는데, 워드프레스를 이용하면 홈페이지는 깔끔하게 디자인할 수 있어 좋은점이 있지만 블로그를 운영하기에는 썩 좋지는 않았던 것 같습니다. 로그인부터 글쓰고 파일첨부까지 불편한 점이 많았습니다 ㅜㅜ

여기는 지금도 여전히 방치하고 있는 블로그이지만(한달에 한번꼴로 포스팅하는...) 여기에 올릴 글들도 상당수는 저 곳에 가서 올릴 예정입니다. 여기는 더 개인적인 관심사, 이것저것 아카이빙 하는 용도가 되지 않을까 싶습니다.

신고
크리에이티브 커먼즈 라이선스
Creative Commons License

'Memo' 카테고리의 다른 글

매체와 편집에 대한 관심들  (0) 2016.02.05
연휴 첫날 끄적  (0) 2015.05.02
GU Map Insight Lab 블로그 개설  (2) 2015.04.09
기획 프로젝트 + 데이터시각화  (0) 2015.03.29
사회적 관계의 기본  (0) 2015.02.02
[강의진행] D.CAMP - 지도(map)와 전략(strategy)  (0) 2014.11.21
  1. 송상영 2015.04.09 18:26 신고

    워드프레스가 티스토리보다 불편한가요? 재미있는 발견이네요~ 내일 만나서 이야기 들어봅시다!

    • Favicon of http://mapmatters.net BlogIcon mapmatters 2015.04.11 10:43 신고

      넵 플러그인도 많고 필진 등록이 잘 안되기도 하구요ㅎㅎ어제 ECC도 재밌었지만 경희대 코스도 재밌었습니다..ㅋㅋ 다음 소풍땐 교수님도 같이 갈 수 있으면 좋겠습니다~!

+ Recent posts