2017년 4월 16일 일요일

더 플랜에 대해, 조금 더 친절한 이야기

불친절했다는 지적이 많아서 다시 정리해드립니다.

0. 이른바 K값 이전까지의 이야기

앞부분의 약 8분까지는 개표부정의 역사와 대한민국의 선거 개표 시스템을 이야기합니다. 그런데 그 다음에 총수가 묻는 부분에선 필진들 모두 터졌습니다. 총수는 The Plan에서 타임라인상 선관위가 중앙선관위에 보고한 다음에 언론을 탄다고 주장하더군요. 근데 필진들은 방송국과 신문사 기자들로부터 진다는 것을 이야기 듣고 다들 술 마시러 갔었거든요. 일단 2012년 대선 당시 선거기간동안 진행된 여론조사에서 문후보는 한 번도 이긴 적이 없었습니다. 언론 종사자들은 다 알고 있었단 말이죠. 혹시라도 추세가 바뀌어 이길 수 있지 않을까라고 했는데... 그런 일은 일어나지 않았던 거거든요.

모두가 모두에게 경쟁해야 하는 헬조선의 기자들은 개표현장 나가서 다들 남들보다 빨리 송고하기 위해 경쟁합니다. 그렇게 속보경쟁하다보니 방송사 방송이 항상 선관위 발표보다 빠릅니다. 물론 빨리 하다보니 틀리는 경우도 종종 있습니다. 그건 나중에 선관위 발표를 갖고 '보정'합니다.

역누적 이야기는... 우리 모두 2012년에 투표 독려들을 했죠? 퇴근하자마자 투표마감 시간 전까지 투표장으로 달려간 직장인들 많잖아요? 그거 누구 표겠어요? 늦게까지 투표를 했으니 늦게 도착하는 겁니다. 그런데 문재인에게 유리한 투표함이 나중에 열렸다니;;; 제 기억으론 그때 총수는 투표독려하는 나꼼수 진행하고 하고 있었는데요? 투표 독려하면 당연히 나오는 결과 아닌가요? 역누적은 문재인을 많이 찍은 도시 선거구들이 늦게 개표완료 되었기 때문에 그렇게 보이는 겁니다.

1. 미분류표란




분류기는 3번은 제대로 읽는데 4번 혹은 5번과 같이 찍힌 것은 누구에게 간 것인지 그 판정을 사람에게 넘깁니다. 미분류란 대부분 저런 겁니다. 여기에 기계적 오류가 일부 있을 수 있습니다. 멀쩡한 표인데 미분류로 처리하는 기계적 오류까지 더해지면 미분류표로 처리된 3.6%는 충분히 나올 수 있는 숫자입니다.

실제로 개표참관인 해보시면 미분류처리되는 것이 상당히 나온다는 것을 확인하실 수 있습니다. 선에 조금만 닿아도 미분류 처리하거든요. 그리고 위의 3번처럼 찍지 않고 4번 혹은 5번과 같이 찍어서 기계가 분류하지 못하고 육안분류를 해야 하는 미분류표는 어르신들이 많이 만듭니다. 어떻게 아느냐... 투개표 참관인 좀 해보세요.

이게 어떻게 3.6%씩이나 나오느냐, 뭔가 잘못 되어 있는거 아니냐고 깜짝 놀라는 외국분의 인터뷰가 나오니까 '일단 3.6%라는 숫자는 비정상'이라고 이해하시고 넘어가게 됩니다. 근데요, 의왕구치소 503번을 끝까지 지지하셨던 4%라는 숫자를 두고 '호텔에서 전기포트에 오줌을 끓여본 적이 있다'는 일본 통계 이야기가 유머로 돈 적이 있지요. 네, 이상하게 행동하는 분들은 한 자리 퍼센트는  됩니다. 반복하지만 투개표참관을 같이 해보시면 이상하게 투표하시는 분들 저 숫자 만큼은 보실 수 있습니다.

그럼 다른 나라들은 어떻게 하기에 저 숫자가 낮은 걸까요? 칸이 크고 많이 후보들 간격이 우리처럼 표 안에 들어가 있는게 아니라 후보별로 떨어져서 인쇄되어 있습니다. 그래서 영상에서 나오는 것처럼 긴 투표용지가 나오는거죠. 칸이 크면 기표할때 다른 곳에 찍을 가능성이 아무래도 줄지요.


2. K는 1이어야 한다?

문제의 영상에서 현화신 퀸즈대학 통계학과 겸임교수님은 박근혜를 찍었는데 미분류된 것과 문재인을 찍었는데 미분류된 수치는 박근혜를 찍은 사람들과 문재인을 찍은 사람들의 비율이 같아야 한다고 말씀하십니다. 그 K라는 숫자가 1이어야 한다고 이야기하는 것은 미분류표를 만들어내는 사람들의 숫자가 어느 후보를 찍는 것과 상관없이 '일정해야 한다'고 말씀하시는 거죠.

저 K값이라는 건 박에게 간 미분류표를 문에게 간 미분류표로 나누고 박이 득표한 것을 문이 득표한 값을 나눈 것을 다시 나눈 겁니다.


이 공식으로 놓고보면 잘못 찍는 비율이 투표를 하는 사람들과 연동해야 K값이 1이 됩니다. 즉, 현화신 교수님의 주장은 선거에서 편향이 없거나 그 편향이 흡수될 수 있는 상황을 전제로 합니다.

근데요... 대한민국에서 2012년 선거는 유일하게 두 가지 편향(Bias)이 작동했습니다. 그 전까지 작동했던 것은 지역전쟁이었죠. 하지만 유일하게 2012년의 선거는 지역전쟁이자 세대전쟁이었습니다. 그러니 젊은 층보다 기표 삑사리를 낼 수 있는 분들이 어떻게 투표권을 행사하느냐에 따라 K값에는 편향이 생기게 됩니다. 기표 실수를 할 수 있는 분들이 집중적으로 한 후보를 찍는다면, 1보다 큰 숫자가 나올 수 있습니다.

K값이 1.5라고 총수가 말하니 받아들이시는 분들은 두 종류로 나뉘더군요. 하나는 1.5가 일관되게 발생했다고 믿는 분, 또 하나는 너무 이쁜 포와송 그래프가 만들어졌다는 분들. 같은 영상물을 보셨는데 왜 다른 이야길 하시는지 잘 모르겠습니다. 일단 1.5라는 숫자는 평균값입니다. 실제는 0.97에서 2.27 정도까지 퍼져 있습니다. 평균치에서 극단은 딱 떨어지는 형태는 아니에요. 한 쪽이 약간 치우쳐져 있습니다.

반복하지만 전국적으로 일관된 K값이 나온 것이 아니라 평균값이 1.5였다는 겁니다. 그런데 뭔가 대단한 숫자인 것처럼 생각들 하시는데, K값이 1이 아니라 1.5라는 이야기는 이야기는 기계가 못 읽겠다고 사람더러 판단하라고 던져준 3.6%의 표 중에서 박근혜의 표가 문재인의 표보다 평균 33% 정도 더 나왔다는 이야기입니다. 3.6%에서 저 차이면 전체 투표에선 최대 1% 정도 되는 숫자죠.

저 공식을 놓고 따져보면 박근혜 지지지역에선 박근혜의 득표도 많지만 투표를 하시는 어르신들도 늘어나게 되지요. 그러면 기표 삑사리 비율이 더 높아지게 됩니다. 반면 문재인에게 투표하려고 했으나 미분류로 처리된 표의 숫자는 상대적으로 훨씬 적겠죠. 지역에서 문재인을 지지한 젊은 이들이 삑사리를 낼 가능성은 적으니까. 그러니 분모가 커지는 것보다 분자가 많이 커지게 됩니다. 즉, 꽤 큰 숫자가 나오게 됩니다. 

전라도 지역에선 박으로 가는 미분류가 적은 대신 문의 득표율이 높지요. 반면 문으로 가는 미분류가 높고 박의 지지율이 낮구요. 이러면 분자가 경향적으로 작아집니다. 즉, 상대적으로 전라도 지역에선 K값이 낮게 나올 겁니다.

어르신들의 기표실수가 많아서 K값이 커졌다는 것을 가설로 놓고 정리하면 이런 추정을 할 수 있습니다.

전라도 지역은 문을 압도적으로 지지했기 때문에 K값이 상대적으로 낮게 나오는 반면, 경상도, 강원도, 충청도와 같이 박의 지지율이 높았던 상태에서 기표를 정확하게 하지 않는 어르신들이 만들어내는 미분류표 비율이 높았을 지역의 K값은 전라도보다 높을 것이다. 

그럼 The Plan에서 K값 계산했다는 것을 한번 보죠.




전라도 쪽이 평균값인 1.5보다 대체로 낮고 경상도는 대체로 1.5 이상이 나옵니다. 

한국의 통계학과 교수들이라고 한다면 이 두 가지 편향이 어떤 K값을 만들어내게 될 것인지 빤히 압니다. K값의 평균이 1.5가 나오니까 Planned되었다고 놀라신 교수님은 2012년 한국 대선에서 두 가지 Bias가 작동했다는 것을 모르시니까 그런 겁니다.

그럼 왜 지금까지는 K값이 1이었냐. 지역투표를 하게 되면 표를 정확하게 칸에 찍지 않는 어르신들의 표 역시 지역투표에 흡수됩니다. 분모와 분자가 같이 커지게 되니까요.  

그러니까 The Plan이라는 영상물의 제목인 Planned 된 값이라는 K=1.5는 두 가지 편향이 동시에 작동되면 나올 수 밖에 없는, 지난 대선의 특징을 다시 짚어주는 지표일 뿐입니다. 이거, 선거라는 실제의 현장에서 벌어지는 일들을 알고 있는 사람들이라고 하면 다 알고 있는 내용입니다. 무엇보다 이거 수학이나 통계학도 아니에요. 그냥 산수입니다. 반복합니다. 퀸즈대학 통계학과 교수님이 놀라신 것은 2012년 대선에선 두 가지 Bias가 작동했다는 것을 모르시는 분이기 때문에 그런 겁니다.

3. 분류기 해킹

컴터랑 연결되어 있는 기계, 당연히 해킹할 수 있죠. 근데 영상물에선 선관위 디도스 사건을 이야기하면서 선관위 중앙서버의 보안성과 신뢰성에 의문이 있다고 이야기하면서 투표용지 분류기를 '해킹된 선관위 중앙서버가 조작한다'는 것처럼 보이게 해놨습니다. 근데요... K값이 0.97에서 2.27 사이인 값을 전라도는 적게, 경상도 충청도 강원도는 높게 나오는 값을 뿌려주면서 표를 '이동시킨 것'처럼 이야기하는데요...

더 플랜의 주장처럼 해킹되었다고 쳐도 움직일 수 있는 표는 전체 투표자 3천59만4천621명 중에서 최대 1%인 30만표 정도 밖엔 안됩니다. 우린 2012년 선거에서 100만표 넘게 졌습니다.

무엇보다 개표는 하나의 흐름으로 진행됩니다. 그런데 중앙에서 해킹공격을 하려고 하는데 접속할 수 있는 순간이 시작하기 전과 끝난 뒤라고 한다면 이 '흐름'을 바꿀 수 있을까요? 무엇보다 기계만 갖고 개표하는게 아니라 수많은 눈들이 뒤에 또 있단 말입니다.

4.  처리하는 순서만 바꾸면 된다고 하는데? 

분류기라는 넘을 쓰는 이유는 개표 종사원으로 참여하게 되는 은행 직원, 학교 선생님 등이 일을 빨리 마치고 다음날 업무를 제대로 보실 수 있도록 하기 위해서 그런 겁니다. 우리 노동법 지켜야 하잖아요? 야근 수당 붙고 철야수당 붙으면 개표 종사원에 대한 인건비 상승폭이 일단 상당합니다. 그 분들이 지금보다 더 오래 일해야 하기 때문이죠.

기본적으로 수개표를 주장하시는 분들은 투개표 현장에 가 보신 적이 없는 분들입니다. 그리고 시스템의 어떤 결함을 열심히 찾아보시려고 하지요. 그렇다고 들었으니까. 그런데 말이죠... 우리 이 투개표 시스템이라는 것은 1987년에 만들어진 겁니다. 군대에서 찍는 표는 여당 표였던 시절에 이지문 중위가 양심선언을 해서 군 부재자 투표는 영외투표로 바뀌는 등의 진통은 있었지만 어찌되었건 간에 박한용 선생님과 송영길 의원, 한홍구 선생님이 말씀하셨던 시절의 개표 문제들을 계속 해결해온 과정이었습니다.

그리고 선거는 돈 많이 써야 하는 판입니다. 후보자 개인이든 소속 정당이든 돈 많이 썼는데 본인들이 납득할 수 없는 결과가 나오면 바로 소송들어가서 모조리 수검표 하는 일을 해왔습니다. 그렇게 했음에도 결과가 아주 많이 바뀐 적은 없습니다.

5. 그러면 뭐냐?

The Plan은 잘 모르는 사람들 겁주기 좋게 만들어진, 총수가 자주 하는 '아님 말고'식으로 던져놓은 음모론에 불과합니다. 문제는 이것이 어떤 여파를 줄 수 있느냐는 겁니다. 더 민주의 국회의원들은 총수가 진행하는 프로그램에 출연하길 좋아하죠. 뭐 좋아하는거, 사실 이해됩니다. 저도 순위 좀 나오는 팟케스트에 종종 출연하는데, 팟케스트 상위 순위에 올라가는 프로그램들은 300만 이상이 듣습니다. 언론 노출을 사랑하는 분들이 많이 노출되는 기회를 버리실리가 없죠.

문제는... 이게 너무 빤한 음모론이기 때문에 공격받기가 쉽다는 겁니다. 선거 투개표에 참여해본 적이 있고 산수 쫌 할 줄 아는 사람이라고 하면 'K값이 1.5로 수렴된다'는 이야기를 보고 '응? 그거 지난 대선의 특징이었는데?' 이상의 이야기를 안하거든요.

아니, 여러분. 여론조사 결과가 납득이 안된다고 통계학과 교수님들이 삿대질하는 판국에 대한민국 통계학과 교수님들이 이 Bias를 모를 것 같으신가요...?

대권 재수중이신 분, 제 아내는 자신의 나라인 네팔을 두 번이나 다녀온 분이라고 해서 아주 좋아합니다. 저 분이 대통령이 되시면 좋겠다고 이야기하기도 하지요. 그런데 그 분에게 홍준표 후보와 유승민 후보, 아니 무엇보다 변 모가 목청 높여 "문재인의 뒤에는 김어준이라는 음모론자가 있다"고 날뛸 것 같아 보이지 않습니까?

딴지필진들은 항상 한 덩어리로 취급받죠. 한쪽에선 마초적이라고 욕 먹고, 한쪽에선 메갈을 빤다고 욕 먹습니다. 근데 딴지의 필진이라고 하면 다들 자기가 하는 다른 일이 있는 사람들이고 비정기적으로 기사를 쓰는 사람들이기 때문에 강한 연대감 같은 것은 없습니다. 한국에서 정치적 입장이 아주 많이 달라도 같이 모여서 술 마실 수 있는 몇 안되는 그룹일 뿐입니다. 그런 양반들이 하나씩 "아니잖아?"라고 하는게 뭐 잘나서 그런거겠어요? 우리 집앞에 떨어진 똥은 우리가 치운다는 것 때문이지.

2017년 4월 15일 토요일

더 플랜에 대해.

이 글, 기본적으로 기분 무진장 나쁜 상태에서 썼고, 그걸 굳이 가릴 생각을 하지 않았기 때문에 맘 상하실 분 많을 겁니다. 더 플랜의 그 공식 자체가 잘못된 전제를 갖고 작업을 수행한 것이기 때문이죠. 기호논리학, 혹은 집합론에서 배우는 것들 중에 하나는 이겁니다. "전제가 똥이면 결론과는 상관없이 그 명제는 똥이다."

1. 35분까지 나오는 각국의 사례들과 시간을 앞선 보도에 대해

과학적 근거를 가지고 어떤 주장을 하려면 비교 대상군이 동일해야 합니다. 총수 주장은 종이에 기표한 다음에 스케너로 분류한 다음 그걸 세는데, 스케너는 해킹할 수 있는 장치라는 거죠. 외국의 다른 사례들을 들면서 말입니다. 그런데 중요한 것 하나를 빼놓습니다. 대한민국에선 기표한 선거용지, 즉 종이가 남습니다. 선거 결과에 대해 소송들어가게 되면 그 종이를 다시 계수하지요. 찾아다니면서 이야기하는 나라들과 우리의 선거 시스템은 다릅니다. 다른데 그게 뭔 의미가 있을까요?

스케너 장난 정도로 개표 부정을 저질렀다고 한다면 개표 현장에 있었던 수많은 사람들은 다 장님들이거나 공모자여야 합니다. 기계는 해킹 가능합니다. 당연한 이야기죠. 하지만 그걸 계수하는 분들은 보통 학교 선생님들이고 이 분들 중 상당수는 전교조 선생님들입니다. 만약에 고의적으로 계수 잘못을 하는 일이 벌어졌다고 한다면 수만명이 작당해야 합니다. 최순실이 결국 꼬리가 밟혔던 것은 너무 많은 사람들이 개입될 수 밖에 없는 일을 벌였기 때문이죠. 그거랑 뭐 다를 것 같으신가요?

그리고 어떻게 시간을 앞서서 보도하느냐는 이야기는 현장에 있는 기자들을 어미가 물어다주는 먹이만 먹는 뻐꾸기 새끼 정도로 취급하는거죠. 자기네들이 나가 있는 선거구에서 누가 얼마를 득표했는지 다른 방송사보다 빠르게 전달하기 때문에 현장에 나가 있는 기자들이 직접 카운트 합니다. 선관위 결과보다 항상 언론보도가 빠를 수 있는 이유가 뭐겠어요? 선관위에서 개표발표를 한 다음에 방송 내보내는 방송사 본 적 없습니다.

2. 이른바 K값에 대해

'감 맛이 나서 감을 넣었다고 말씀드렸는데 어떻게 감이 들었냐고 하옵시면...' 뭐 대장금의 이 대사 밖엔 기억이 안나더군요. 그 교수님이 말씀하신 상관관계는 18대 대선에서 그렇게 나올 수 밖에 없었던 겁니다.

2.1. 분류기는 무엇을 미분류로 처리하는가?

분류하기 애매한 애들을 미분류로 처리합니다. 기표를 살짝해서 잘 안보이는 경우, 한 후보에게 여러번 기표하다가 칸을 살짝 넘은 경우 같은 것들입니다. 이거 명백하게 두 후보를 찍거나 칸의 가운데에 찍어서 일부러 무효표를 만든 경우가 아니라고 한다면 어느 한 후보의 표로 인정되게 됩니다. 이런 표들은 사실 꽤 나옵니다. 기억들 하실지 모르겠는데 의왕교도소 503을 끝까지 지지한 4%, 혹은 호텔방에서 오줌을 끓여본 적이 있는 4%라는 숫자처럼, 그런 분들 꽤 많이 나옵니다. 제가 1992년부터 2004년 총선까지 몇 번 투표 참관인을 한 적이 있는데 기표 잘못 했으니 새 표 내놓으라고 하시던 어르신들 한 타스는 됩니다.

2.2. 2012년 대선은 역대 최악의 세대전쟁이었습니다. 

연령대별로 지지하는 후보가 명확하게 차이가 났고, 노인네들이 인구분포상 더 많아서 박근혜씨가 51.55% 득표할 수 있었습니다. 여기서 잠깐. 미분류되는 표를 젊은이들이 더 많이 만들어낼까요? 어르신들이 더 많이 만들어낼까요?

2.3 이른바 K값.

미분류로 분류된 표가 박근혜가 얼마를 더 많이 가져갔는가를 설명하는 지표입니다.17대는 워낙 이명박이 원사이드하게 끝났던 대선이니 말할 필요도 없지만 16대까지만 하더라도 세대전쟁보다는 지역전쟁이었다구요. 기표실수를 많이 할 수 밖에 없는 연령대가 한 후보를 집중적으로 지지한다면 기표 실수로 인해 미분류 되었다가 육안으로 확인한 다음에 유효표로 처리되는 표들이 많을 수 밖에 없습니다. K값이 1.5라고 하니까 뭔가 대단한 것처럼 보이는 것 같습니다. 그런데, 이거 미분류되었다가 문재인을 지지한 것으로 확인된 표보다 미분류되었다가 박근혜에게 간 표가 30%정도 더 많다는 겁니다. 즉, 2012년 대선에선 어르신들이 더 많이 박근혜를 지지해서 대통령이 되었으니 더 많이 나올 수 밖에 없는 수치에요. 포와송 그래프를 그리는 것도 선거구별로 인구분포상 문재인을 지지했던 젊은이들보다 박근혜를 지지했던 어르신들이 더 많다는 것을 보여줄 뿐입니다.

2.4 이게 왜 문제가 되는가. 

K값을 상정하신 교수님이 잘못된 것을 전제로 삼으셨기 때문에 그래요. 즉, 교수님은 유효표로 처리되는 비중이 일정해야 한다고 주장합니다.  그런데 세대전쟁이었는데 그런 실수들이 한 쪽에서 일방적으로 발생한다는 것은 당연한게 아닌가요?

3. 딴지일보의 필진으로서 한 말씀. 

일개 필진이 총수에게 당신 틀렸어~라고 삿대질 하는거. 아마 신기할 겁니다. 근데 그게 지금까지 투명인간 취급받는 매체를 아직도 많은 분들이 사랑해주시고 찾아주시는 이유기도 합니다.  그래도 총수가 삽질하면 말단 기자가 개저씨 취급해서 정리들을 시키는 편입니다.

근데 수학 이야기 나오기 시작하면 대부분 졸죠. 대한민국에는 수포자와 물포자가 훨씬 더 많으니 말입니다. 어떻게보면 이게 논란씩이나 되는 것도 미적분과 통계를 고등학교 문과수업에서 추방시킨 것과 연관이 있는게 아닌가 싶습니다. 명확한 상관관계에 있기 때문에 특정한 지표가 나오는 것을, 그것을 조작의 증거라고 이야기해도 되는 것은 우리 수학교육에 문제가 있어서 그런 것일테니까요.

이번 대선도 불안해하실 분들이 많을 겁니다. 투표한 것이 제대로 표로 집계되는 것이 맞냐는 두려움, 저 영상물을 보시고 불안하셨던 분들이라면 5월 9일 대선에서 참관인 신청 많이 하세요. 각 정당 지역 당사를 통해 신청하실 수 있습니다. 눈이 많으면 총수 말따나 뭔 플랜이 가동되어서 개표조작을 하지도 못할 것 아닙니까?