로켓 [763845] · MS 2017 (수정됨) · 쪽지

2018-11-21 18:03:01
조회수 28,785

원서영역 도구(chapter2: 표본분석법)

게시글 주소: https://susi.orbi.kr/00019328026

앞선 글들을 읽고 오시길 권장합니다!

저번 글에서 객관성, 일반성에 대한 피드백을 받았습니다. 경험과 추론을 이용한 것이 아닌, 논리적으로 생각하여 최대한 모두가 공감할 수 있는 내용만을 전해드리도록 노력해보겠습니다.


이번 글은 표본분석법에 대한 글입니다. 표본 하나하나에 대한 판단부터 전체적 분포에 대한 내용으로 확대해 나가며 진행하겠습니다. 


---------------------------------------------------------------------------------------------------------------------


표본분석법


1.표본분석의 한계

표본분석을 하는 것은 상향지원 할 학과의 합격확률을 조금이라도 더 높이고, 안정지원 할 학과의 확실함을 조금이라도 더 보증하기 위해서 입니다. 표본분석은 만능이 아닙니다. 

철저한 분석을 통해 확신을 가지고 상향지원한 학과에 모의지원 사이트 상 단 한번도 찾아볼 수 없었던 표본이 실제지원에 몇 명만 등장해도 노력은 물거품이 됩니다. 

애초에 모집인원이 100명이 넘어가는 대형과는 하루에도 자신 앞에 수십명의 표본이 들락날락 할 수 있습니다. 그런 학과의 표본을 하나하나 판단하고 매일 상태를 체크하는 것은 불가능합니다. 


저는 당연히 표본분석 방법에 관련된 모든 정보와 진리를 전달해 드릴 수는 없습니다. 불충분한 정보들을 차곡차곡 쌓아 완벽하게 해나갈 자신이 없다면 컨설팅 팀에 맡기거나 타임머신, 페잇등을 이용하는 것이 훨씬 나을 수 있습니다.  


그럼에도 고된 수험생활 끝의 휴식이라고 할 만한 12월을 표본분석에 갈아 넣을 준비가 된 수험생은, 1%라도 합격확률을 높이기 위한 그 희생이 가치가 있다고 판단한 것 이겠지요! 




2.모의지원 사이트의 예상합격자 산출방식

저번 글에서 말씀드렸듯이 자세한 수식이나 산출법은 각 회사의 기밀인 것으로 압니다. 하지만 관찰에 따라 대강 다음과 같은 방식을 따르는 것을 알 수 있습니다.


지난 경쟁률 등으로 예상경쟁률 산출 - 예상지원자 수와 모의지원자 수의 비율로 예상최초합격자 수 계산 – 각 표본의 가,나,다군 우선순위에 따라 추가합격자 수 계산


예를 들어 봅시다. (당연히 실제 수치와 다릅니다) 

모집인원이 8명인 학과가 있습니다. 모의지원 사이트는 예상경쟁률을 3.3:1로 잡았고, 모의지원자 수는 20명입니다. 모의지원 프로그램은 그들의 비밀 공식을 이용해 모의지원자들 중 6명을 최초합격자로 예상했습니다. 

6명의 최초합격자 중 3명의 표본이 다른 군에 지원한 학과를 우선순위로 입력했고, 그 중 2명의 표본이 우선순위 학과에 합격이 예상됩니다. 

이에따라 모의지원 사이트는 2명의 1차 추가합격자를 예상할 것이고, 추가합격자들의 지원상황에 따라 2차 추가합격자가 같은 방식으로 계산될 것입니다. 


복잡한 메커니즘이 있겠지만 그 방식을 대강이라도 알고 있는 것이 좋을 것 같습니다. (자세히 알기가 힘들기 때문입니다 ㅜㅜ) 

저번 글에도 말씀드렸듯, 각 합격예측 프로그램의 원리를 알면 알수록 그들을 남들보다 잘 이용할 수 있습니다!




3. 허수 거르기

표본들 중에는 가짜표본이 있습니다. 실제 수능 응시자가 아닌데 재미로 넣어 보거나, 점수를 허위로 입력하거나, 어쩌면 다른 수험생들을 교란하기 위해 누군가 만들어낸 표본이 있을 수도 있습니다. 

우선 각 모의지원 사이트는 자체적으로 어떤 알고리즘을 이용하여 허수들을 걸러냅니다. 이번 오르비 모의지원에는 인공지능이 사용된다고 들은 것 같습니다. 

작년 가장 큰 모의지원 사이트에서 제거된 허수는 2만건에 육박했던 것으로 기억합니다. 하지만 이와 같은 노력에도 허수표본들은 완전히 제거되지 못합니다. 


저번 글에 말씀드렸듯이 저는 개인 수험생이 자신만의 생각으로 표본들의 허수 여부를 마구 판단하는 것은 좋지 않다고 생각합니다. 다만 여러가지 조건을 통해 어떤 표본이 허수일 ‘확률’이 높을지 생각하는 것은 유의미하다고 생각합니다. 

여태 오르비에 표본분석에 대한 글을 남겨 주신 분들은 허수의 판단에 쓰일 수 있는 몇 가지 주된 요소를 언급하셨습니다. 주로 다음과 같습니다. 

-전혀 상관없는 학과들의 조합

-더 높은 대학/학과를 쓸 수 있음에도 굳이 낮춰 쓴 듯한 표본

-움직이지 않는 표본

-지원할 만한 대학이 있음에도 특정 군에 지원하지 않은 표본

이 요소들에 해당되더라도 그 표본이 허수라는 확신을 할 수 없습니다. 하지만 한가지가 아닌 여러가지 요소를 가지고 있는 표본이라면, 허수일 확률이 비교적 높아진다고 할 수 있겠지요. 


특히나 움직이지 않는 표본은 확률이 높다고 생각합니다. 취향이 확고한 수험생이라도 12월초부터 원서접수 직전까지 단 한번도 다른 학교, 다른 학과에 모의지원조차 안해보는 수험생은 굉장히 적을 것입니다.  

반면 상관없는 학과들의 조합은 그닥 허수의 조건이 아니라고 생각합니다. 실제지원자 중에 상관없는 학과의 조합으로 지원하는 학생이 오히려 더 많은 것 같습니다. 

이는 본인의 판단에 맡깁니다.


제가 지원 했었던 학과의 실제 있었던 허수 표본을 예로 들겠습니다. 

Ex)

가군 해당 학과 (1순위)-사이버 국방과 전혀 연관성 x

나군 고려대 사이버국방학과(2순위)

다군 지원x

해당 표본의 성적은 고대식 누백 0프로 중반으로 기억합니다. 

전혀 상관없는 학과의 조합 에다가, 성적이 남는 학과를 1순위로 하였고, 다군을 지원하지 않았으며 무엇보다 전혀 움직임이 없었습니다. 

실제로 차후 허수였던 것으로 확인했습니다.

그럼에도 다시 말씀드리지만, 100%는 없습니다.





4.표본 카테고리화, 추적

허수일 확률이 있는 표본들을 분리하고 나면, 실제표본들이 남습니다. 이제 앞으로의 판단을 위해이 표본들을 종류에 따라 대충 나눌 필요가 있겠습니다. 

어떻게 나눠서 생각해볼지는 개인의 판단입니다. 저는 대강 다음과 같이 나눴습니다. 

-해당 군에는 이 학과를 쓰는 것으로 확고한 표본

-고민하는 표본

-밀려 내려오는 표본

이를 위해서는 표본을 추적해볼 필요가 있습니다. 먼저 표본들의 점수와 각 군의 희망학과를 메모 해 둡시다. 가군의 학과에서 어떤 표본이 사라졌다 나타났다 한다면, 나,다군에 그 표본이 썼던 학과에 모의지원을 하여 그 표본을 찾아 볼 수 있습니다. 어떤 학과를 두고 고민하고 있는지 알 수 있는 방법입니다. 

이는 최상위권에서 강력한 방법입니다. 

하지만 성적대가 내려갈수록, 스쳐 지나가는 표본이 많아지고 나중에는 전체적으로 칸수가 떨어지며 더 안정적인 학과로 엄청나게 밀려 내려오는 표본들 때문에 미리 해 뒀던 표본분석 자료들의 표본들은 온데간데 없어질 수도 있습니다. 





5.유동성

이제 개개의 표본에 집중하기보다 좀더 멀리서 바라보도록 합시다.

매일매일 지원예정 학과들 에서의 자신의 등수와 상위표본의 출입을 지켜보며 기록하다 보면 차이점을 발견할 때가 있습니다. 

어떤 학과에서는 자신의 등수가 14~16등 사이를 진동하는데, 어떤 학과에서는 10~20등 사이를 오르내립니다.

그 학과에 지원하는 것을 망설이고 고민하는 표본이 많다면, 실제지원에서 모의지원과 결과가 달라질 확률이 그렇지 않은 학과보다 조금이라도 높은 것은 공감하실 수 있을 것입니다. 

이는 합격선이 예상보다 낮아질 확률도,높아질 확률도 높인다고 할 수 있습니다. 

하지만 반복해 말했듯 단지 조금이라도 확률을 높이기 위한 일들입니다. 유동성이 적었던 과가 오히려 크게 폭발하거나 빵구날 수도 있습니다. 

그저 최선의 선택을 하기위해 참고할 만한 이야기입니다. 





6.도미노

상향지원을 위해 표본분석을 하는 분들을 위한 내용입니다. 이는 모의지원 사이트의 예상합격인원 산출법과 관련이 있습니다. 


2번에서 말했던 예시를 그대로 가져와 봅시다.

(모집인원이 8명인 학과가 있습니다. 모의지원 사이트는 예상경쟁률을 3.3:1로 잡았고, 모의지원자 수는 20명입니다. 모의지원 프로그램은 그들의 비밀 공식을 이용해 모의지원자들 중 6명을 최초합격자로 예상했습니다. 

6명의 최초합격자 중 3명의 표본이 다른 군에 지원한 학과를 우선순위로 입력했고, 그 중 2명의 표본이 우선순위 학과에 합격이 예상됩니다. 

이에따라 모의지원 사이트는 2명의 1차 추가합격자를 예상할 것입니다.)


이때 1차 예상 추가합격자 2명 모두 해당학과를 1순위로 설정해 놓았다고 합시다. 모의지원 프로그램은 여기서 예상 합격자를 마감할 것입니다. 

하지만 그 뒤 표본들의 우선순위와 다른 군의 예상합격 현황이 변수가 될 수 있습니다.

최종추가합격자와 나 사이에 5명의 불합격자 표본이 있다고 합시다.

만약 5명 모두 해당 학과의 우선순위가 낮고 우선순위가 높은 다른 학과에 합격할 것으로 예상된다면, 모의지원 프로그램이 모의지원자들 중 합격예상 인원을 한명만 더 잡아도 추가합격자가 도미노 쓰러지듯 늘어나 자신까지 합격할 수 있게 됩니다. 

이런 조건을 찾는 것 또한 상향지원의 합격확률을 조금이라도 높일 방법이 될 것입니다.





7. 점수절벽

6번과 관련하여 추가적인 내용입니다. 

보통 지원자들의 분포는 x축을 성적, y축을 학생수로 했을 때 정규분포를 그리게 됩니다.

이를 모의지원사이트에서 볼 수 있는 흔히 y축을 성적, x축을 등수로 하여 표본들을 점으로 표현해 놓는 그래프로 보면 ‘~’자를 좌우반전 후 시계방향으로 약간 돌려놓은 모양새가 됩니다. (마땅히 표현할 방법이 없네요,,)

통계학적인 이유에 따라 지원자가 많은 대형과들의 경우 특히 크게 벗어나는 일이 없겠지만,

지원자도 적고 모집인원도 적은 작은 모집단위 에서는 이 모양을 벗어나곤 합니다.

이때 ~표 모양의 허리가 끊어져 중간에 표본의 점수가 뚝 떨어진다거나 하는 현상이 있고,

그것이 6번의 도미노 구간에 걸쳐 있다면

해당학과의 입결이 소위 말하는 ‘배치표’상의 점수보다 많이 떨어질 가능성이 있는 것이겠지요!




8.정리

표본 분석법에 대한 글은 이미 오르비에 꽤 많은 걸로 압니다. 

이 글 말고도 다양한 내용과 근거들을 조합하여 2번에 대입해보고 생각해 봅시다. 자신이 판단한 예상합격 표본 수를 산출할 수 있을 것입니다. 거기에 추가적으로 비 모의지원자까지 고려해서 생각해 본다면 예상되는 최종합격 예비번호 등을 계산해 낼 수 있을 것입니다! 

절대적으로 맞출 수 있는게 아닌, 확률을 높이는 시도일 뿐이라는 것을 마지막으로 다시 강조해서 말씀드립니다.

---------------------------------------------------------------------------------------------------------

  

글이 길어져서 정리한다고 힘들었네요 ㅜㅜ


글 중간중간에도 언급했지만 절대적인 내용이 아니기에 수험생 여러분들이 각자 판단하시고 객관성과 일반성이 부족하다고 생각되는 부분은 스스로 생각해 주시고,


부족한 내용, 틀린 부분 있다면 피드백 해주시면 감사하겠습니다!




0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.