차이를 해석하는 과정
- 리뷰/글
- 2020. 7. 10.
오차 분석 입문 - 자연과학적 측정에서 불확실성의 탐구
존 테일러 지음 / 김재관 옮김
차이를 해석하는 과정
오차에 대한 두려움
학부 때 건축학을 전공하면서 차이는 학생들에게 언제나 중요한 문제였다. 도면을 그리는 과정에서 발생할 수 있는 오차 - 예를 들어 2,400mm의 복도 폭을 그리는 과정에서 모종의 이유로 3mm가 더해져 2,403mm로 그려진다든지 - 는 밤을 새게 만드는 큰 요인 중 하나였다. 가로선과 세로선이 만나고, 내부와 외부 공간이 형성되면서 애매한 수치로 그려지는 경우가 반드시 발생한다. 사람이 그리는 일이니 실수도 하게 되고. 그렇게 되면 도면의 숫자들도 지저분해질 뿐더러, 실제로 시공으로 이어질 경우 예기치 못한 문제로 이어질 수 있기에 항상 민감한 문제일 수밖에 없었다. 특히 디테일의 세계로 넘어가면 그 차이는 사람의 행동을 바꿀 정도로 중요해진다. 책상 높이가 10mm만 낮아져도 무릎이 살짝 닿으면서 묘하게 불편하지 않은가? 그래서 정확한 숫자에 대한 강박이 생겨날 수밖에 없다.
도시에 대한 공부로 배움의 영역을 확장하면서 그렇게 작은 숫자들에 대한 씨름으로부터는 해방되었지만, 도시의 문제를 느끼고 다양한 사회 현상에 대해 학습하면서, 숫자의 차이에 대해 건축과는 다른 새로운 고민을 하게 되었다. 도시/사회 문제는 필연적으로 통계 자료를 수집하고 해석하게 된다. 물론 질적 연구의 자료들도 있지만, 보다 직관적이고 빠른 해석은 아무래도 양적 자료로 판단하는 것이 용이한 경우가 많다. 즉, 사회과학의 영역으로 한걸음 발을 들이게 되면서 통계적 사고가 필요하게 된 것이다.
이 과정에서 오차에 대한 이해는 필수적임을 알게 되었다. 어떤 분석과 해석을 시도해도 오차에 대해 정확히 제시하지 못하면 그 결과는 설득력을 갖지 못했다. 누군가 '통계의 꽃은 회귀분석' 이라는 말을 하기도 했는데, 그 내면의 뜻은 오차를 어떻게 해석하여 설득력있는 결과값을 예측하는가에 대한 과정이라고 생각한다. 어찌되었든 간에, 데이터를 다루는 과정은 결국 오차와의 싸움이 될 수밖에 없다.
통계에 대한 공부를 진행하면서 오차에 대한 막연한 두려움이 생기곤 했다. 내가 제대로 해석한 것일까? 결과로 나타난 오차값은 나의 가설을 지지할까? 그 뜻은 무엇일까? 흥미로우면서도 아리송하고, 무섭기도 한 영역이었다. 오차에 대해 보다 깊게 이해하고 싶어 존 테일러가 쓴 이 책을 펴게 되었는데 번역을 담당한 김재관 교수의 번역이 무척 매끄러울 뿐더러 무엇보다 저자의 심도 있는 설명 덕분에 단순히 통계적인 기법을 학습하는 것 외에도 오차에 대한 근본적인 생각을 하는데 큰 도움이 되었다.
세상을 관측하는 기술과 방법은 오차를 줄여가는 과정의 연속이라고 해도 과언이 아니다. 이는 보다 본질에 다가가기 위한 것이기도 하고. 그럼에도 불구하고, 오차는 발생할 수밖에 없다. 그래서 역으로, 오차에 대한 이해는 측정의 대상에 대한 본질을 이해하는데 더 다가갈 수 있는 수단이 될 수 있다. 책은 많은 수식과 배움을 점검하는 문제들이 수록되어 있어 딱딱하게 느껴질 수 있지만, 기본적인 설명만 곱씹으며 읽어도 분명 오차에 대한 이해도를 높일 수 있으리라 생각한다.
세상의 모든 불확실성
저자는 ‘불확실성’이라는 단어에서부터 설명을 출발한다. 오차와 불확실성은 일견 비슷하면서도 느껴지는 뉘앙스는 다르다. 오차는 일종의 A와 B의 차이로 느껴지는 반면, 불확실하다는 것은 그 차이가 명확하지 않다라는 것으로 통상적으로 이해된다고 생각한다. 저자는 오차와 불확실성은 분명 차이가 있지만, 과학의 세계에서는 이를 명확하게 구분하지 않는다는 것을 이야기한다. 즉, 무엇인가를 측정하는 이유는 그 참값을 알 수 없는 경우가 대부분이기 때문에, 참값을 모른다는 것은 오차도 모른다는 것과 동일할 수 있다는 것이다. 이런 측면에서 불확실성을 이해한다는 것은 참값으로 다가가는 과정인 오차의 크기를 파악하는 시도로 볼 수 있다. 쉽게 ‘오차의 범위’로 이해해도 좋다.
오차를 불확실성으로 보는 저자의 관점은 고맙게도 오차에 대한 나의 두려움을 가볍게 해 주었다. 오차 자체에 대해서만 고민하다 보니 머리가 지끈거릴 때가 있었는데, 오히려 세상의 모든 것은 불확실성에 놓여 있다고 생각하니 한결 사고의 폭이 넓어졌다고 해야 할까. “거의 OOO 정도 될 거에요.”라고 말할 때의 ‘거의’ 라는 단어를 쓰는 것에 부끄럽지 않게 된 것이다.
불확실성의 몇 가지 원천은 측정 과정에 내재한 본질적인 것이어서 결코 완전하게는 제거되지 않는다. 예를 들어 그 목수의 줄자의 눈금이 0.5cm까지 매겨져 있다고 하자. 문의 위쪽은 0.5cm 눈금 표지에 딱 맞지 않다면, 목수는 두 눈금 표지 사이 어디에 놓이는지 추정해야 한다…궁극적으로 문의 상단이 줄자 눈금 표지에 비교해서 어디에 놓이는지 추정해야 하고 이 추정 과정은 측정 값에 얼마간의 불확실성을 가져온다. (p.5-6)
그렇지만 저자는 한걸음 더 나아가서 불확실성을 제대로 추정하고 보는 방법을 함께 알려 준다. 예를 들어 눈금자의 사이값에 측정 대상이 놓여 있을 때, 가까운 표시로 반올림해서 읽거나 “58mm와 59mm 사이에 걸쳐 있긴 한데, 거의 58mm인 것 같아!” 와 같이 사이의 값으로 추정할 수 밖에 없다. 즉 <, >로 표시하거나 +,- 와 같이 일정한 범위를 지정하게 되는 것이다. 이러한 관점 아래에서 저자는 범위의 수를 서로 비교하거나 비율에 대한 불확실성을 표현하는 것의 필요성 등 친절하게 설명을 이어간다. 특히 합, 차 뿐 아니라 곱 또는 나누기를 했을 때, 변화하는 불확실성에 대해서도 수식을 통해 설명하고 있어 애매할 수 있는 순간, 순간에 실수를 막을 수 있어 큰 도움이 되었다.
데이터의 기각에 놓인 문제
저자는 글의 중반부에서, 굉장히 곤란한 주제 중 하나인 데이터의 기각에 대한 논의를 진행한다. 이는 아마 모든 통계 자료가 안고 있는 근본적이면서도 첨예한 문제일 것이다. 통상 극단값이라고 하여 비정상적으로 벗어난 수치는 제거하여 통계 분석을 진행하고는 한다. 하지만, 중심에서 멀리 벗어났다고 하여 그 값을 항상 버릴 수 있는 걸까? 이를 판단할 수 있는 명확한 기준이 없을 때 그 고민은 더욱 커진다. 누군가 당신의 데이터는 당신의 가설에 맞게 의도적으로 조작한 것이 아니냐고 비판한다면, 정당하게 반박하기 어려운 상황에 놓일 수 있는 것이다.
안타깝게도 이례적인 결과에 대한 어떤 외적 원인을 입증하는 것은 일반적으로 가능하지 않다. 그렇다면 우리는 단지 결과 그 자체에 대한 조사에 의해서 이례적인 것을 기각할지 안 할지 반드시 결정해야 하는데, 바로 여기서 가우스 분포에 대한 우리의 지식이 유용하다는 것이 증명된다. 데이터의 기각은 많은 학자가 동의하지 않는 논란의 여지가 있는 논제이다…더욱이 데이터를 기각하기로 결정하는 것은 궁극적으로 주관적인 사항이기 때문에 이러한 판단을 내리는 과학자는 다른 과학자들로부터 데이터를 “조작하였다”고 어쩌면 합당하게 비난받을 수 있다. (p.258)
저자 또한 데이터 기각 이면에 놓인 갈등과 비난에 대해 인정한다. 그럼에도 이례적인 측정값은 ‘명백하게’ 기각되어야 한다고 이야기하며 이를 위한 몇 가지 판정기준 중 하나를 제시한다. 가령 <쇼브네트 판정기준>은 기각해야 할 측정값의 기대값이 일정 수준보다 낮으면 합리적으로 기각할 수 있다는 판정법이다. 평소 나와 같이 일부 데이터의 기각 조건에 대해 고민해 온 사람이라면 꼭 참고해 볼 만한 부분이라고 생각된다.
한편, 책에서는 강조되지는 않았지만, 데이터 기각에 부분과 함께 데이터의 표현에 관한 부분도 함께 설명해 주었으면 하는 조금은 아쉬움이 있다. 일부 언론이나 자료들에서 동일한 결과를 다른 방식으로 표현해 해석을 왜곡하는 경우도 발생하고 연구의 영역에서도 오차와 관련하여 적확한 표현을 하는 방법도 항상 고민이 되었던 만큼, 관련 사례나 도식이 있었으면 하는 바람이 남는다.
미래를 예측한다는 것
이러한 내용을 기초로 삼아 책은 다양한 확률 분포와 검정의 세계로 나아간다. 상당 부분은 통계에 대한 기초지식이 있을 때 훨씬 큰 도움이 될 수 있는 부분들로 구성되어 있으니, 나처럼 통계의 세계에 발을 내딛었지만 아직 걷는 게 익숙하지 않는 사람들이라면 꼭 한번 읽어 보길 추천한다. 특히 회귀분석으로 나아가기 위해서 필수적인 과정들인 만큼, 꼼꼼히 읽어도 아깝지 않는 내용들이다. 물론 이 책에서는 단순/다중회귀분석에 관해서 직접적인 설명이 다뤄지지는 않는다.
군사 훈련에서 사격을 할 때, 과녁의 중앙을 맞추는 것보다 더 중요한 것이 탄착군의 형성이다. 어디에 쏘는가(계통오차)보다 얼마나 조밀한가(랜덤오차)가 더 의미가 있다. 총에 달린 크리크 수정으로 충분히 쏘는 위치는 변경할 수 있기 때문이다. 그래서 탄착군이 형성되지 않는 병사들은 총을 더 쏴보지 못하고 바둑돌을 총에 올려놓고 호흡하는, PRI라는 괴로운 훈련으로 다시 돌아간다. 교관들은 과녁의 오차를 통해 병사의 실력을 ‘미리’ 예측할 수 있기에 훈련을 재지시하는 것이다. 오차를 이해한다는 것은 이와 비슷한 경험 아닐까. 무언가의 본질과 특징, 그리고 미래를 어느 정도 예상 하는데 도움을 받을 수 있다는 것. 책을 통해 (어느 정도의) 통계적 확실성에 기반한 사고를 하는데도 도움이 되니, 논리적으로 미래를 예측 해 보고 싶은 자들도 꼭 보길 바란다.
http://www.yes24.com/Product/Goods/20530913?scode=032&OzSrank=1
'리뷰 > 글' 카테고리의 다른 글
생각의 토양에 뿌려야 하는 것들 (0) | 2020.08.04 |
---|---|
인간의 조건에 대한 가능성 (0) | 2020.07.12 |
21세기의 북한을 이해하다 (0) | 2020.07.07 |
삶의 가치는 어떻게 획득되는가 (0) | 2020.07.06 |
노숙으로 가는 과정들 (0) | 2020.06.30 |