블로그 이미지
有意事必成 where there,s a will there,s a way 뜻을 품고 있으면 이룰수있다 010-7641-1981 평강이와유자

카테고리

분류 전체보기 (4475)
Buddhism 佛敎 (146)
꿈 소망 사랑 희망 놀이터 (0)
문화공동체 유자의세움 (0)
-------------------- (0)
평강이 (169)
좋은 글귀 (588)
고사성어 이야기 (165)
시행관련 (198)
사업계획서 (34)
컴 배우기 (180)
참고사항 (191)
맛집알고 여행하기 (164)
문서 서식 (74)
임시보관함 (103)
기본카테고리 (176)
가요방 (146)
팝송방 (261)
옛 노래 (153)
뮤직비디오 (190)
보민앨범 (0)
아하 그렇구나 (334)
건축관련 (101)
토목관련 (70)
새로운 카테고리 (122)
물리와화학 (55)
자갈치알리미 (76)
인생이란 (82)
장기표의 시사논평 (371)
한번 배워볼까요 (110)
스크랩 (215)
Total
Today
Yesterday

달력

« » 2025.2
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28

공지사항

태그목록

최근에 올라온 글

신뢰도와 정확도


일반인들이 흔히 접하는 통계 중 학교에서 배우는 통계와 가장 접근한 것이 여론조사의 신뢰구간 추정일 것입니다. 그러나 일반인은 물론 당연하지만 통계학을 전공하는 사람조차 신뢰도와 정확도가 의미하는 뜻을 잘 모르는 것 같습니다. 여기서 우리가 일상적으로 쓰는 말을 통해 신뢰도와 정확도의 뜻을 알아 보겠습니다.광고문구를 쓰는 사람들을 카피라이터(copywriter)라 하지요. 카피라이터가 광고문구를 생각할 때도 문구의 다양한 특징(attributes, characteristic)들을 생각합니다. [“문구가 간결한가?], [사람들의 의표를 찌르는가], [강력한 인상을 주는가?] 등등.. 이런 식으로 우리가 쓰는 말에도 다양한 특징들이 있습니다.

통계학에서 보고자 하는 것은 말의 특징은 [신뢰도]와 [정확도]입니다.
A를 우리가 주장하고자 하는 명제라 합시다. 그러면 그 명제의 신뢰도와 정확도는 다음과 같이 정의됩니다.

신뢰도: 주장 A가 맞을 확률
정확도: 주장 A의 구체성
아직도 무슨 말이지 잘 이해가 되지 않는다고요? 그러면 다음의 예를 봅시다.

보기1)

100m 떨어진 곳에 어떤 물체가 보입니다. 이때 아래의 주장들을 비교해 봅시다
S1: 저건 사람이다.
S2: 저 사람은 여자이다
S3: 저 사람은 할머니이다.

이 상황에서 3개의 주장(명제)중 맞을 확률이 높은 명제는 무엇일까요? 당연히 S1이지요.
반면에 물체에 대한 S1의 묘사는 가장 불투명하고 S3가 가장 구체적입니다.
그래서 신뢰도는 S1이 가장 높고 정확도는 S3가 가장 높습니다. 즉

신뢰도: S1 > S2 > S3
정확도: S1 < S2 < S3
입니다.


보기 2)

또 다른 예를 들어 볼까요. 어떤 사람의 키에 대해서 우리가 이야기 한다고 생각해 봅시다.
S1: 저 사람 키는 150 cm 이상이다.
S2: 저 사람 키는 170 cm 이상이다.
S3: 저 사람 키는 190 cm 이상이다.

여기서 어떤 주장이 신뢰도가 가장 높을까요? 당연히 S1입니다.
반면에 정확도는 S3가 가장 높고 S1이 가장 낮습니다.

보기1)과 보기2)에서 보듯이 이 [신뢰도]와 [정확도]는 상충관계(trade-off)입니다.
즉 신뢰도를 높이려면 정확도는 어느정도 희생하는 수 밖에 없습니다.
정확도를 높이려면 신뢰도를 희생할 수 밖에 없고요.

그러면 정확도와 신뢰도를 동시에 높이는 방법이 없을까요?
통계학에서는 표본 크기를 크게 하면 됩니다. 그러나 이 경우 시간과 돈이 문제가 되겠지요.

그러면 신뢰구간 추정에서 이야기는 주장,명제는 어떤 것일까요?
통계학에서 이야기하는 주장은 모수 θ에 관한 것입니다.

여론조사의 경우 [모집단의 지지도 p]에 관한 주장(명제)입니다.
그러면 신문에서 흔히 보는 신뢰도 95%하에서 지지도 0.23 그리고
표본오차 0.025라 가정합시다.

정확하게는 이야기 하면 표본오차가 아니고 [1.96*표준오차]입니다. 신문 방송에서 가끔 표본오차라는 말을 사용하는데 표준 편차라는 말은 있어도,이런 용어는 통계학에 없습니다. 또 최대 허용 오차라는 말도 사용하는데 좀 더 정확하게 표현하면 1.96*최대 허용 오차가 더 적합한 표현입니다. 이후부터 나오는 표준 오차 값은 정확한 값이 아닙니다.

사실 정확한 표준오차 값은 구하기 힘듭니다. 관심 있는 분은 동시추론(simultaneous inference) 이론에 관해서 찾아보기 바랍니다.

신문에 나오는 이 표현은 도대체 무얼까요?
여기서 지지도 0.3은 표본의 지지도를 이야기합니다. 즉 r=0.3이라는 이야기이죠. 그래서

Pr(0.3-0.025< 모집단의 지지도 p < 0.3+0.025 이다)=0.95 가 됩니다.

만약에 95% 신뢰도를 99%까지 올려서 이야기 하고 싶다면 어떻게 될까요?
당연히 정확도가 떨어져 모집단의 지지도 p에 관한 진술을 좀 더 넉넉하게 잡고 이야기 해야 합니다.
그래서 1.99
예를 둘어 [0.3-0.035< 모집단의 지지도 p < 0.3+0.035 이다] 이런 식으로. 그래서

Pr(0.3-0.035< 모집단의 지지도 p < 0.3+0.035 이다)=0.99
가 되는 것이죠. 신뢰도를 자꾸 높일수록 정확도가 떨어져서 사실 쓸모가 없어져 버립니다.
예를 들어 [모집단의 지지도 p가 0부터 1 사이다] 이 말은 신뢰도가 100%입니다.
그러나 이런 주장은 아무런 도움이 되지 않겠지요. 여론 조사한 돈만 아깝지요.

그러면 위에서 이야기 한 것처럼 신뢰도와 정확도를 동시에 높이려면 표본 크기를
올릴 수 밖에 없는데 시간과 비용의 문제가 생깁니다.

현재 대통령 선거 같은 중요한 여론조사는 표본 수를 1500정도가 보통입니다.
그리고 표본 수 하나 올리는데 2만원 정도의 추가 예산을 생각하면 될 것입니다.

Posted by 평강이와유자
, |

최근에 달린 댓글

글 보관함