통계적으로 생각하기 (Thinking Statistically)

통계적으로 생각하기


세상을 살아가며 각종 통계 자료를 접할 일이 많은데, 이 책은 자료를 바르게 이해하도록 조언해준다.
그뿐만 아니라, 어떤 데이터를 통계로 가공할 때 놓치기 쉬운 부분들을 짚어준다.

• 선택 편향을 조심하자.
• 만약 P(E|H대안가설들) = 0 라면 P(E|가설)가 매우 낮더라도 H1이 옳다.
• 기저율(base rate)이 올바르게 되었는지 확인한다.
• 필요한 모든 정보를 얻고, 빠진 정보가 없도록 한다.
• 필요한 모든 변수를 포함하는지 확인한다.
• 그 모형의 오차항이 완전히 무작위적이고 다른 변수들 또는 빠진 변수들과 숨겨진 상관관계를 가지고 있지 않은지 확인한다.
• 새로운 정보에 기초해 확률적 평가를 업데이트하지만, 다른 대안 가설들의 기존 확률들을 잊지 않는다.


통계적으로 생각하기 - 책갈피


우리는 종종 관련 모집단의 크기를 정확히 모르는 상태에서 특정 질문에 대한 답을 할 때가 있습니다. 그래서 우리가 얻고 있는 데이터가 존재하는 모든 데이터를 대표한다고 생각하기 쉽지요. 두 번째로 무응답이 존재하는 것을 알더라도 쉽사리 그 무응답자들이 무작위적일 것이고 차이를 만들어내지 않을 것이라 가정하곤 합니다. 아마도 이러한 종류의 실수를 방지하기 위한 가장 좋은 방법은 선택 편향에 존재하는 이론적인 문제점들을 이해하는 것일 수 있겠죠.

미국 연방 정부는 인구조사의 숫자에 기초해 주 정부를 포함한 지방 정부의 사회복지 지원금을 결정합니다. 만약 도시의 저소득층 거주 지역의 주민들이 인구조사에서 빠진다면, 그 지역은 받아야 할 지원금보다 적은 금액을 받게 되는 것이죠.

상사들이 어리석은 결정을 하는 것은 대부분 악의적이거나 지능이 떨어져서가 아니라 데이터의 흐름이 지연되어 정말로 현실을 모르기 때문이라고 말입니다.(또한 그 결과로 발생하는 표본의 선택 편향 역시 원인이 되지요).

만약 당신이 관리자의 위치에 있다면, 좋고 나쁜 피드백이 모두 당신에게 전해지는 시스템을 활용해 다른 경쟁자들을 제치고 앞서갈 수 있습니다.

개인적 삶 가운데 선택 편향이 일어나는 경우가 많은데, 그 이유는 우리가 오직 ‘1인칭’ 시점으로 우리에게 일어나는 일들만 경험할 수 있고 다른 사람의 ‘1인칭’ 경험에 대해서는 정보를 가지고 있지 않기 때문입니다.

내생성((endogeneity)’: 해당 시스템 내에서 결정되거나 생성되는 것을 내생성적이라 한다.

외생성적 : 그 시스템 밖의 요소로 결정되거나 생성되는 것

P(X|Y) : Y가 일어났다는 제약하에서 X가 일어날 조건부 확률 (수직바 (|)는 뒤의 사건이 일어났다는 제약을 뜻한다)

베이지안 분석(Bayesian analysis) -베이즈(Thomas Bayes) 정리

조건부 확률 P(가설|증거)가 네가지 다른 것들에 의존한다.

첫 번째, P(가설|증거)는 P(증거|가설)의 확률에 의존합니다. 만약 가설이 사실일 때 주어진 증거가 일어날 확률이 매우 높다면, 증거가 발생했다는 사실이 가설이 맞을 확률을 증가시킵니다.

두 번째, P(가설|증거)는 새로운 증거를 보기 전에 가설이 맞았을 확률에 의존합니다. 통계학자들은 이러한 확률을 '사전 확률(prior probability)'이라 부릅니다. 새로운 증거를 사용해 우리가 이전에 가지고 있던 가설을 '업데이트’할 수 있습니다. 즉 새로운 증거로 인해 기존의 가설이 맞을 확률이 증가하거나 감소할 수 있는 것이죠. 하지만 이 사전 확률을 절대로 잊어서는 안되죠.

세 번째, 대안 가설의 제약하에서 새로운 증거가 일어날 확률.

네 번째, 이 대안 가설들의 사전 확률

P(가설| 증거) = P(증거|가설)P(가설)/P(증거)

P(X) = X가 일어날 확률

P(X|Y) = Y가 일어났다는 제약하에서 X가 일어날 확률

H : 가설, E : 증거

우리의 가설하에서 새로운 증거 사건이 일어날 확률이 더 높을수록 새로운 증거 사건의 발생이 우리의 가설이 맞을 확률을 증가시킵니다. 만약 사전 확률 P(H1)이 증가한다면 사후 확률 P(H1|E)또한 증가하게 됩니다. 가설의 사전 확률이 높을수록 새로운 증거 사건이 발생한 후 사후 확률이 높아지게 되겠죠. 반대로 P(E|H대안가설들)이 증가한다면 사후 확률 P(H1|E)가 감소하게 됩니다. 대안 가설하에서 새로운 증거 사건이 일어날 확률이 증가한다면, 새로운 증거의 존재는 우리의 H1이 맞을 확률을 감소시킵니다. 마지막으로 사전 확률 P(H대안가설들)이 증가한다면 사후 확률 P(H1|E)가 감소하게 됩니다. 대안 가설들의 사전 확률이 높을수록 새로운 증거 사건이 발생한 후 사후 확률 또한 높아지게 되고, 새로운 증거 사건이 기존 가설을 뒷받침하는 것이 아니라 오히려 대안 가설들이 옳았다는 증거가 될 수 있습니다.

이러한 작용들은 여러 가지 유용한 결과들로 이어지게 됩니다. 그중 하나는 어떠한 증거 사건이 주어졌을 때 우리의 가설이 맞을 확률이 매우 낮더라도, 다른 가설들이 맞을 확률이 더욱 낮다면 우리의 가설은 상대적으로 일어날 확률이 더 높아지게 된다는 점입니다. 셜록 홈즈(Sherlock Holmes)는 "불가능을 제거하고 나면, 남은 것이 아무리 일어날 것 같지 않은 것이라도 그것이 진실이다"라는 말을 합니다.

그가 정말 하고자 했던 말은 "만약 P(E|H대안가설들) = 0 라면 P(E|H1)이 매우 낮더라도 H1이 옳다"라는 것이겠죠.

새로운 증거에 기초해 우리의 가설을 업데이트하는 방법은 항상 중요하지만, 이런한 과정은 당신이 수정 가능한 어떤 '사전 가설’을 가지고 있다는 가정하에서 이루어집니다. 만약 사전 확률을 잘못 알고 있다면 올바른 수정 과정을 시행하더라도 틀린 결론을 얻게 되겠죠. 이 사전 확률의 다른 이름이 바로 기저율(base rate)입니다.

• 항상 당신이 필요한 모든 정보를 얻었는지 확인하고, 그 정보가 누락되지 않았는지 확인하세요.

• 당신의 머릿속 모형이 필요한 모든 변수들을 포함하는지 확인하세요. 그 모형의 오차항이 완전히 무작위적이고 다른 변수들 또는 누락된 변수들과 숨겨진 상관관계를 가지고 있지 않은지 확인하세요.

• 새로운 정보에 기초해 확률적 평가를 업데이트하지만, 다른 대안 가설들의 기존 확률들을 잊으면 안 됩니다.



by


Tags : , , , , , ,

  • 재미있게 읽으셨나요?
    광고를 클릭해주시면,
    블로그 운영에 큰 도움이 됩니다!