스터디

[아티클 스터디] 빅데이터 시대, 진짜 데이터 활용 능력이란? (데이터 문해력)

DorYi 2024. 7. 23. 01:19

오늘의 아티클 스터디의 주제는 도서 <데이터문해력> 이다.

'문해력'이란 '글을 읽고 이해하는 능력'을 의미하는데

데이터도 글과 마찬가지로 읽고 이해해야 활용할 수 있다.

이 책은 데이터 문해력이 왜 필요한지와 더불어 분석 사례들이 많기 때문에

어떻게 해야 올바르게 데이터를 이해하고 사용할 수 있을지에 대해 알기 좋다.

 

데이터 분석가를 희망하거나 어떠한 데이터를 다뤄야 하는

입문자에게 추천하고 싶은 책!

 

 

데이터를 활용해 문제를 해결하거나 상대에게 설득력 있는 제안과 프레젠테이션을 하고 싶다.
그래서 뭔가를 해보지만, 결국 데이터를 가공한 표나 그래프를 쳐다보며
대체 여기서 어떤 것을 말할 수 있을지? 무슨 말을 하면 좋을지?
의문만 생길 뿐이다.

데이터 문해력 6p

 

 

 

나 또한 과거 google ads를 통해 동영상 광고를 집행한 적이 있었는데

광고가 끝난 후 지표에 대한 보고서를 만들어 오란 말에 당황했던 기억이 있다.

구글에서 자체적으로 보여주는 통계를 보며 '대체 뭘 어떻게 보고하라는 거지'란 의문을 가졌었다.

그 당시 나는 엑셀로 통계를 예쁘게 정리해 나만의 결론을 낸 적이 있었는데

정말 엉망진창이었고 결국 의미없는 보고서가 되어버렸다.

 

그때 생각했다. '대체 뭘 어떻게 해야 저 통계로 인사이트가 있는 보고서를 만들 수 있는 거지?'

 


내용을 요약해 보면

 

앞으로 필요한 건 데이터 문해력 : 분석보다 활용

 

기술의 비약적인 발전이 진행됨에 따라 우리 삶은 사람 대신 기계로 대체되는 일이 많아졌다.

기계가 사람의 자리를 차지하는 건 시간 문제일 뿐, 앞으로 더 다양한 분야에서 기계를 만날 수 있을 것이다.

특히 챗gpt와 같은 ai가 발전함에 따라 ai는 대화는 물론이고

어떠한 묘사에 기반한 영상이나 그림과 같은 창작물을 만들어내기 시작했다.

 

데이터 분석 또한 기계, ai가 어느 정도 대체될 수 있는 영역이다.

특히나 인간보다 압도적으로 빠른 연산, 통계 능력은 이미 컴퓨터의 영역이 되었다.

(시간과 인력은 비용으로 계산되기 때문에 컴퓨터를 쓰는 건 당연하다.)

 

그렇다면 인간이 할 수 있는 데이터 분석이란 무엇인가에 집중해야 한다.

인간이 할 수 있는 건 컴퓨터에겐 없는 창의력과 사고력을 사용해 데이터를 활용하는 것이다.

 

컴퓨터의 할 일 : 빠르고 정확하게 처리하는 일 '작업한다'
인간의 할 일 : 작업된 것을 활용해 인사이트를 도출하는 일 '생각한다'

 

데이터 활용을 못 하는 사람들의 공통적인 문제점

데이터 분석 작업을 시작할 때 첫 번째로 데이터를 본다는 것이다.

(데이터를 무작위로 모으고 데이터 안에서 해답을 찾으려 한다.)

데이터는 분석을 위한 지표인 것이지 데이터 분석의 목표가 아니다.

데이터 분석을 시작할 때 선행되어야 하는 것은

 

1. 무엇을 알고 싶은지

2. 무엇을 하고 싶은지

3. 어떤 데이터(지표)가 필요한지

 

이 세 가지이다.

 

데이터 활용 프로세스

  1. 겉으로 드러난 현상
목적/ 문제 정의 2. 목적 및 문제를 정의
3. 지표를 결정
현상 파악/ 평가 4. 현재 상태를 파악
5. 평가
요인 6. 요인 분석
방법 6. 해결방안 모색

 

데이터 분석이란,

결론적으로 '자신이 알고 싶은 것(목적)에 따라 데이터를 수집하고 분석해서 그 결과를 검증하고 결론으로 연결하는 것' 이다.

 

 

올바른 데이터로 올바른 문제를 풀고 있는가?

 

 데이터 활용에 실패하는 이유로는 1. 풀고자하는 문제가 명확하지 않다 2. 정의한 문제와 사용하는 데이터가 일치하지 않는다. 이 두 가지가 주요 원인이다. 이 실패 원인을 해결하기 위해선 1. 데이터에서 무엇을 알 수 있을지 생각한다 2. 데이터를 가공한다 의 순으로 데이터 활용에 접근해야 한다. '어떻게 할까?'가 아니라 '무엇을 할까?'부터 생각을 시작해야 한다는 말이다.

 

1. 목표 및 문제 정의

 무엇이 알고싶은지 정했다면 문제를 명확히 해야 한다. 그래야 데이터 활용 프로세스를 시작할 수 있다. 또한 이때 사용된 언어는 구체적이고 명확해야 하며 문제, 원인, 해결방안을 잘 구분해야 한다.

 

2. 지표 결정

 목적과 문제를 명확히 했다면 다음으로는 그것에 맞는 데이터를 준비해야 한다. 이때 데이터 중심으로 준비하게 된다면 '데이터를 통해 무엇을 말할 수 있는가'를 열거하게 될 뿐이며 데이터에 끼워 맞춰 결론을 유추할 수 밖에 없다. 그렇기 때문에 데이터 중심이 아닌 목적 중심의 데이터를 준비해야 한다.

 지표를 결정할 때는 단어 정의가 포괄적이거나 불분명해선 안 된다. 추측으로 단어의 의미가 짐작 되어선 안되며 단어는 늘 명확하고 구체적으로 명시해야 한다. 또한 결론과 활용된 데이터가 일치하는지 아닌지 확인해야 한다. 적합한 지표를 결정하기 위해선 고민하고 검토할 수록 적합한 지표를 발견할 수 있게 된다.

 

*결론을 도출하는 프로세스

1. 평가 지표 및 기준을 결정 (어떤 요소와 지표가 목적에 부합하는가?)

2. 적합한 데이터 및 그래프 선택(어떤 데이터 형태와 그래프가 효과적인가?)

3. 결론(무슨 말을 할 수 있는가?)

 


읽은 후 나의 생각은

 데이터 시대에서 인간이 기계에게 밀리지 않기 위해선 인간만이 할 수 있는 데이터 활용 능력이 얼마나 필요하고 중요한지 알 수 있었다. 데이터 분석가가 어떤 방향으로 가야하는지 알려주는 나침반 같기도 하다. 기계가 할 수 없는 일을 할 수 있는 데이터 분석가로의 성장하고 싶다.

 '시작이 반이다'는 말처럼, 목표 및 문제 정의가 얼마나 어렵고 중요한 부분인지에 대해 많이 깨닫는 시간이었다. 자칫하면 시작에서 산으로 갈 수 있기 때문에 다양한 사례들을 통해 올바른 문제 정의 과정을 읽어봐야겠다는 생각이 든다. 사례를 읽으면 읽을 수록 어떻게 해야할지 갈피가 잡히는 것 같다.