본문 바로가기

빅데이터

모든 것을 측정하는 방법 - Bigdata시대에 부족한 data로 예측하기

이 포스트는 모든 것을 측정하는 방법을 읽고 정리한 글입니다.

해당 서적 : How to Maesure Anything(amazon.com)



근사값 밖에 구할 수 없는 상황에서는 완벽한 정확성을 추구하는 것보다 가능한 수준의 정밀도로 만족하는 것이 지식인에게 필요한 태도이다. - 아리스토텔레스(BC. 384 - BC. 322)


왜 측정이 필요한가?

모든 것은 측정 가능하다. 대체로 측정 불가능하다고 여겨지는 많은 문제들이 간단한 측정 방법을 통해 해결될 수 있다. 특히 사업 경영에서 흔히 접하는 '보이지 않는' 것들에 대해 측정이 가능하다. 다음과 같은 것들이 일반적으로 생각되는 보이지 않는 것들의 예이다.


# IT 프로젝트가 실패할 위험

# 수집한 정보의 가치

# 품질

# 대중적 이미지


위의 예들은 사업의 의사결정에 많은 영향을 미친다. 회사나 정부에서 많은 비용을 투자하는 새로운 계획에 가장 중요한 요소 중 하나일 수 있다. 하지만 많은 곳에서 이런 '보이지 않는' 항목을 측정할 수 없다고 믿고 이에 대한 중요 정보 없이 의사결정이 이루어지고 있다. 끔찍한 상황이 아닐 수 없다.


'보이지 않는' 것들을 측정의 문제를 정의하고 해결하기 위해 아래 세가지 사실을 가정한다.


1. 측정은 불확실성을 포함한 의사 결정에 영향을 미치기 때문에 중요하다.

2. 어떤 의사 결정이든 불확실성에 관한 많은 측정 대상과 이를 위한 다양한 측정방법을 갖고 있지만, 이를 완벽하게 제거하기는  현실적으로 불가능하다.

3. 따라서 의사결정에 있어서 불확실성은 없애기보다는 줄일 방법이 필요하다.


즉, 측정은 불확실성을 줄이기 위한 최적화 문제로 생각해야 한다. 만약 결정해야하는 문제가 매우 불확실하고, 잘못된 의사 결정이 매우 중대한 결과를 가져올 수 있는 상황이라면, 그 문제에 대한 불확실성을 줄일 수 있는 측정 방법은 매우 큰 가치를 지니게 된다.


측정이란 무엇인가?

무언가를 측정 불가능하다고 믿는 사람에게 측정의 개념은 다소 다르다. 만약 '측정'이 현실에서 거의 도달할 수 없는 확실함을 요구하는 것이라고 정의한다면, 세상에는 측정 가능한 것이 거의 없을 것이다.


여기서 '측정'이란 하나 이상의 관찰을 통해 정량적으로 표현된 불확실성의 감소로 정의한다. 실제로 과학자들은 측정을 불확실성을 정량적으로 줄여줄 수 있는 관찰의 결과로 생각한다. 일부 오류는 피할 수 없겟지만, 그 오류가 기존 지식에 대한 개선의 여지가 된다는 점이 실험, 조사, 기타 과학적인 측정을 수행하는 방법의 핵심이다. 이러한 측정의 정의는 탄탄한 수학적 기반을 바탕으로 하고 있다. 이 분야는 1940년대 클로드 셰논(Claude Shannon, wiki바로가기)에 의해 시작되었고 이를 정보이론이라고 불린다.

측정 예시

측정의 한가지 방법으로 확률 보정이 있다. 현재 얼마나 알고 있나 라는 질문에서 시작한다. 먼저, 불확실한 숫자를 표현하는 한 방법으로 가능한 값의 범위로 생각하는 것이다. 통계에서는 이렇게 미리 정해진 확률로 정답을 포함하는 범위를 '신뢰구간(Confidence interval)'이라고 부른다. 90% 신뢰구간은 90%의 확률로 정답을 포함할 범위를 말한다. 예를 들어 지금 거래를 시작할 것 같은 잠재 고객 가운데 다음 분기에 얼마나 많은 고객이 거래를 시작할지 정확하게 알지 못할때, 적어도 3명이 거래를 할 것 같고, 아무래도 7명 보다는 많은 사람이 거래를 하지 않을 것이라고 하자. 이 경우, 실제 거래를 시작하는 고객의 수가 이 구간 사이에 있을 것이라고 90% 확신하다면, 다음 분기 고객수에 대한 90%의 신뢰구간이 3과 7 사이가 되는 것이다.


확률 보정 Example - 747 비행기의 날개는 몇 피트 인가요?

B(실험자) : 100에서 120피트 사이일 것 같아요

A(전문가) : 정말 값이 100에서 120일거라고 90% 확신하시나요?

B : 모르겠어요 그냥 찍은 거에요.

A : 하지만 100에서 120사이라는 범위를 저에게 말했을때 적어도 그 값에 대한 신뢰할만한 아이디어가 있지 않았나요?

B : 하지만 확신이 없어요.

A : 그럼 진짜 90$ 신뢰구간은 넓어야 되겠네요. 날개길이가 20피트는 될 수 있을까요?

B : 아니요 그건 불가능해요.

A : 그럼 50피트보단 짧을 순 있을까요?

B : 그건 아닐거같은데.. 그값을 최소라고 보죠.

A : 점점 좋아지고 있네요 그럼 날개길이가 500피트보다 길 수 있나요?

B : ... 아니요. 그렇게 긴 날개는 없어요.

A : 좋습니다. 그럼 축구 경기장 보다 클 수 있을까요? 300피트?

B : 그럼 제 생각에 날개 길이 최대값은 250피트라고 말할 수 있어요.

A : 그럼 747 비행기의 날기 길이가 50피트 보다 길고 250피트보다 작다고 90% 확신 하시나요?

B(실험자) : 네

A(전문가) : 그럼 90% 신뢰구간은 100에서 120피트가 아니라 50에서 250피트네요.


위 실험에서 처럼 알고있는 정보가 정확하지 않다면, 확률이나 범위를 통해 그것을 표현할 수 있다. 만약 좁은 범위의 예측값이 맞을지 '모르겠다'고 한다면, 여러분이 알고 있는 무언가가 반영될 때 까지 범위를 넓히면 된다.


정교하게 틀리는 것보다 대략 맞는게 낫다. - 워렌 버핏


또 한가지 방법으로 '중간값(median)'이 있다. 직장에서 재택근무를 확대하는 방안으로 출퇴근 시간을 조사한다고 하자. 모든 직원들을 대상으로 설문조사를 진행하여 답을 얻을 수도 있겟지만 시간과 비용을 필요로하고, 그를 통해 얻게될 값은 필요이상으로 정확한 값이될 것이다. 이런 방식 대신 임의로 다섯명의 직원을 선정한다고 생각해보자. 각각의 다섯 직원은 30분, 60분, 45분, 80분, 60분 이라고 대답했다. 샘플에서 가장 큰 값과 가장 작은 값은 30과 80이다. 그렇다면 전체 직원들에 대해 조사했을 때 그 중간값(median)이 이들 30분과 80분 사이에 있을 확률은 93.75%이다. 이를 다섯의 법칙(Rule of five, R을 사용하여 증명한 포스팅)이라고 부른다.


# 다섯의 법칙 : 전체 집단(median)이 그 집단에서 임의로 추출한 다섯 개의 표본의 최소값과 최대값 사이에 존재할 확률은 93.75% 이다.


맺음말

본 책에서는 사업과 정책에 있어 의사결정을 할 때를 대비하여 측정이 필요하다고 말하지만, 사실 우리내 삶의 매 순간이 의사 결정이 필요한 상황이라고도 볼 수 있다. 이러한 관점에서 본다면 측정을 하는 것은 중요하다고 볼 수 있다. 불확실한 미래에서 내가 고민하고 측정을 해야하는 것들은 아래와 같은 것들이 있을 것같다.


# 출퇴근시간을 줄임으로서 얻을 수 있는 체력적 효과

# 포스팅을 하고 블로그를 운영함으로서 얻을 수 있는 미래가치

# 내 github 계정의 가치


측정 방법이 쉽진 않겠지만 측정함으로서 불확실한 미래의 가치에 더 도움이 되는 방향으로 갈 수 있지 않을까 생각된다.