5주차 강의: 데이터 시각화

2021. 5. 13. 17:302021/JOB DA STUDY

  • 데이터 시각화의 목적과 데이터 사이언스 내의 역할에 대해 설명한다.
  • 탐색 및 설명 시각화의 차이점을 설명한다.
  • 여러 데이터 유형과 사용할 수 있는 시각화 유형을 비교한다.
  • 시각적으로 데이터를 인코딩하는 과정과 사용할 수 있는 다양한 인코딩을 설명한다.
  • 특정 데이터 인코딩의 효율성을 평가한다.
  • Python(Bokeh)을 사용해 시각화를 제작한다.
데이터 시각화의 정의

통계 그래프, 플롯(plot) 및 정보 그래픽을 사용해 명확하고 효율적으로 정보를 전달하는 것

By Tufte. 데이터가 보여주는 것을 취하는 방법, 최선의 방법으로 전달하는 도구

-> 즉 데이터의 주요 특징들을 매우 빠르게 파악할 수 있게 한다. 따라서 보는 사람들이 데이터를 통해 전달되는 흥미로운 통찰력을 찾도록한다.

 

데이터 시각화의 역할

시각적 소통 방식으로 말하고자 하는 바를 강조할 수 있으며, 이는 듣는 이로 하여금 설득력을 가지게 한다.

-> 정보의 양과 접근하는 정보의 유형이 증가하여 새로운 차트들이 개발된다. (대화형(동적) 그래픽 등)

 

시각화의 유형

- Exploratory(탐색적 시각화)

모든것에 대한 데이터 제공하고 사용자에게 가장 적절한 방식으로 스스로 데이터를 탐색하게 한다.

어떤 측면으로 데이터를 볼지 선택하고, 데이터의 전반적 흐름이 무엇인지 알 수 있다.

 

- Explanatory(설명적 시각화)

보는 이가 데이터를 탐색하고 자신의 스토리를 찾는 대신 이미 발견한 스토리를 전달하는 것

즉, 분석 작업을 하여 연구 결과를 얻고 그 결과가 무엇인지 청중에게 말하고자 하는 것

관심을 가지는 한가지에만 집중을 하고 그외 나머지는 메시지를 혼란스럽게 하며 전달하려는 내용을 약하게 만들기 때문에 제거하려는 경향이 있음

 

데이터 유형의 이해와 데이터에 따른 적절한 시각화 방법

1) 이산 데이터

2) 연속 데이터 : 정밀도를 높일 수 있는 데이터 (근사치 일 뿐, 정확한 값은 없음)

3) 명목 데이터 : 두 가지 범주로 배치 가능 -> 명확하게 정의되는 범주를 기반으로 데이터 분리

 

데이터 인코딩

이산데이터인지, 연속데이터인지, 명목데이터 인지에 따라 데이터를 시각적 객체로 인코딩하는 가장 좋은 방법을 결정해야한다.

-> 인코딩이란 특정 데이터 조각 을 페이지의 시각적 객체 에 매핑하는 것을 의미한다.

데이터 포인트 = 특정 사람 키의 값(EX - 차트에 해당하는 포인트로서, 시각적으로 인코딩된 하나의 특이사항)

 

레티날 변수

보통은 2차원 그래프로 나타내지만, 더 많은 정보를 추가하려면 차원을 추가하여 3차원으로 나타낸다.

하지만 4차원 그래프로 가면 산포도로 표현하기가 힘들어지는데, 이때부터는 사람들이 느끼기 쉽고 어떤 차이를 감지할 수 있는 레티날 변수와 같은 변수를 사용한다.

 

데이터를 어떤 순서로 표현할 때 유용하다. (수치를 갖는 데이터인 이산 데이터, 연속 데이터에 특히 유용)

Size : 변수의 값에 따라 차트에 크기를 다르게 나타낼 수 있다. (재산에 따른 원의 크기를 구분)

Color : 범주가 있는 명목데이터에서 차이를 둔다. (남자와 여자의 구분)

 

시각적 인코딩 순위

보고있는 것에 대해 차이점을 느끼고, 이해할 수 있는 인간의 능력에 근거한다.

  1. Position along a common scale: 공통 척도에 따른 데이터 인코딩_특정 축을 따라 그래프를 그림 (막대 차트 등)
  2. Position on identical but nonaligned scales
  3. Length
  4. Angle, Slope
  5. Area: 면적을 사용한 값의 표현(원의 크기)
  6. Volume, Density, Colour saturation
  7. Colour hue: 같은 색상에 명도만 다른 경우 차이가 있음과 수치가 가장 높은 곳은 알기 쉽지만 두 지점의 실제 차이값을 파악하기는 상당히 어려움 (열 화상 지도 등)
Chart Junk: 차트 정크

차트정크란, 차트의 의미 또는 차트에 영향을 미치지 않으면서, 차트 내에서 제거할 수 있는 모든것을 말하는 것으로 사람들이 쉽게 인식하고 이해할 수 있게 하기 위해, 차트를 보다 효과적으로 만들기 위해 차트 정크 사용한다.

EX) 제목과 의미를 중복하는 범례, 빼도 의미를 이해하는데 큰 상관이 없는 격자선을 제거한 차트 = 정크차트

 

Tufte: 차트에서 제거할 것은 제거하고, 메시지 전달을 위해 가능한 픽셀이나 잉크를 적게 사용할 것을 강조

 

* 뷰티 패러독스 현상 발생:

청중으로부터 차트에 관심을 가지게 하기 위해 또한 사람들이 더 잘 기억할 수 있게 하기위해 차트에 예술적 요소를 더한다. (무엇에 대한 내용을 나타내는지 디자인)

 

* 청중에 따라 다르게 전달:

주제의 전문가에게 전달되는 경우에는 최대한 심플한것이 좋다. 하지만 다양한 부류의 사람들에게 중요한 내용을 전달하려는 경우 신문이나 기타 여러 종류의 대중적인 보급 방법으로 제시하며 내용을 좀 더 관심을 끌수 있게 할 필요가 있다.

 

스토리에 대한 집중의 필요성과 데이터가 시각적으로 보여주는 것의 균형을 이루어 전달력을 향상시킨다.

 

Designing Graphics for the Mind

게슈탈트 이론(Gestalt Theory) : 뇌가 어떻게 사물을 패턴으로 그룹화 하는가?

Proximity: 가까운 그룹들끼리 자연적 그룹으로 인지된다.

각각의 세로 막대가 자연 그룹의 일부인 다른 것들(근접해 있는 다른 막대들)과 그룹화 되어있다

-> 특정 해의 1, 2, 3, 4 분기에 대한 데이터 각 분기의 다른 사항을 검토하고 있는 것 처럼 보인다.

Similarity: 그룹을 따라 동일하거나 비슷한 객체들을 가지고 있다.

-> 각 분기에 대한 다른 사항들을 나타내는데, 각 그룹의 첫번째가 빨간색으로 되어있음

빨간색 막대 그래프 = 중요한 변수가 되고, 각 분기에 대해 우리가 가장 관심을 갖는 것이 된다 (EX - 각 분기의 수익)

 

Connectedness: 선이나 그와 유사한 것을 사용해 연결

연결성의 원리로 사물들이 서로 연결되어 있는 것을 보고 어떤 종류의 연결이나, 그룹화가 있다고 가정할 수 있다. 

-> 연결되어 있는 4개의 원은 중요한 그룹임을 알 수 있으며, 나머지 두개의 원은 덜 중요하거나 중요한 것들의 주요 클러스터와는 관련이 없는 이상치일 수 있다.

Continuity: 곡선의 contor들 보다는 뾰족한 angle들이 보기 더 쉬움

사물들이 어떻게 연결되어 있는지 보여주는 방식

-> Smouth Contour: 훨씬 이해하기 쉬움

-> Sharp Angle: 정확한 내용을 인식하기 매우 어려움 -> 교차점을 우리가 알아내기란 쉽지 않다. (Person1 <-> Person3)

 

Closure: 경계선을 가진 두개의 박스가 그룹핑

Storytelling

전하고 싶은 정보를 시각적인 것을 통해 전달하는 방법중 하나이다.

효과적인 스토리텔링을 위해서는 3가지를 고려해야한다.

  1. 청중이 누구인가?_그들이 주제에 대한 사전 지식을 가지고 있는가?, 그들에게 시간이 얼마나 있는가?
  2. 데이터가 보여주는 것이 무엇인가?_전달하고자 하는 주요 사항이 강조되어 있는가?
  3. 사람들이 나중에 하기를 원하는 것이 무엇인가?_사람들이 무엇을 하기를 바라는지에 따라 다른 방식으로 정보를 제공해야할 수 있다. -
추가) 3번
- 이야기를 전적으로 저자에 의해 진행하기를 바라는가? 
직선적(선형): 차트_이야기를 구성하는 다양한 내용을 한단계씩 설명

- 독자가 이야기나 시각화를 통해 스스로 진행하기를 원하는가?
자유롭게 시각자료와 상호작용하면서 자신과 어떤 관련이 있는지 확인하는 탐색적 유형의 시각화와 관련

→  StoryTelling의 '접근법'

1. 배경정보나 맥락을 제공하기 위해서 저자 중심의 이야기: 선형 방식으로 표현하는 정보가 존재 (대화형 그래픽에 적합)

2. 일반적인 저자 중심의 순서 + 독자 중심의 경험: 독자가 원할 때마다 서사를 방해 ( 즉 저자 중심의 프로세스를 독자가 멈춰서 특정 내용을 더 구체적으로 탐색하고 싶은 경우 약간의 제어권을 가지게 된다. )

3. 독자 중심의 경험으로 시작 + 독자가 접근할 수 있는 다양한 요소를 가진 단일 그래픽을 수행하면 수행한 특정 데이터에 대한 특정 이야기를 얻을 수 있다.

 

→ 데이터가 나타내는 중요한 내용에 초점 맞추기

- Tufte: 모든 종류의 차트정크를 제거하고, 페이지의 자료와 잉크 비율을 높이는 것

- 유머를 사용해 시각적으로 매력적이게 만들기

- 핵심 데이터 포인트 자체에 중점두기

- 게슈탈트 이론: 가장 적합한 방식으로 정보를 구조화하여 독자들이 데이터를 보는 동안 이해도를 향상시키기

 

' 우리가 보여주는 내용에 대해 얼마나 객관적인가?'
Tufte의 거짓인자
= 특정 그래픽이 얼마나 오해를 일으키는지 측정하기 위한 공식
= 그래픽에 나타나는 효과의 크기 / 데이터의 효과 크기

신뢰할 수 있는 그래픽을 위해 0.95와 1.05 사이의 값을 찾아야하는데,
이는 그래픽에 나타나는 효과의 정도가 1:1 비율임을 보여준다.

Lie Factor(1)
그래프 상으로는 후보자 A가 후보자 B보다 3배의 많은 득표율을 얻었다. (61%의 차이를 보인다.)
하지만 Y축의 값을 보면 후보자 A의 득표수는 약 11,750이며, 후보자 B의 득표수는 약 10,800으로 차이가 거의 나지 않는다.

Tufte의 거짓인자 = 4.64 (제시된 1.05의 한계를 훨씬 넘어버리는 값 - 두 유권자의 차이를 과장하는 결과를 초래)

Lie Factor(2)
Y축의 값의 차이를 훨씬 많이 준 다음의 그래프를 보면 값처럼 A와 B의 득표율에 큰차이가 안보임을 나타낸다. (13.2%의 차이를 보인다.)