일반적으로 통계는 의사결정을 하기 위해 자료를 수집, 조직, 요약, 분석, 해석하는 방법 혹은 체계적으로 자료를 수집하고 그 자료에 근거하여 결정을 내리기 위한 방법으로 의미합니다.
대학원에서 통계학을 필수적으로 공부해야 하는 이뉴는 통계지식이 수리적인 정보를 이해하는 데 도움을 주기 때문입니다. 오늘날 거의 모든 학문분야의 문헌, 논문, 연구보고서에는 통계 개념 및 논리/방법/분석결과등이 다수 포함되어 있기때문에 기본 소양이 없으면 제대로 이해하기 어렵습니다. - (참고서적 학지사-사회과학연구를 위한 통계학/권대훈 저)
나도 이번 2학기체 유아교육 통계 수업을 들으면서 통계란게 알면 알수록 흥미를 갖게 되었다.
처음에는 논문에 나오는 표를 읽지 못했는데 점차 점차 조금이라도 해석이 가능해지는 자신을보면서 신기했다.
그렇다고 막 해석을 아주 잘하는 건아니다. 통계학을 제대로 배울려면 단순히 한학기로 배워서 습득이 되는 것이 아니기 때문이고 또 이 통계를 사용하지 않으면 금방까먹게 되기때문이다 .
블로그를 통해서 내가 배운 통계학을 기본을 기록해보기로 했다.

통계학 1일차 - 정규분포와 T값 구하기
정규분포란 연속적이고 좌우대칭이 종모양의 가설적이고 이론적인 분포를 말합니다. 정규분포는 가우스 곡선 혹은 정규확률곡선이라고 부르기도 합니다. 단 종모양의 모든 분포가 정규분포는 아닙니다. 종모양의 분포가 정규분부가 되려면 일정 요건을 갖추어야 합니다.

1. 정규분포는 평균을 중심으로 완벽한 좌우대칭을 이룬다. 따라서 정규분포 왼쪽의 면적과 오른쪽의 면적은 각각
50(50%)이다.
2. 정규분포는 연속적이다. 따라서 정규분포에서는 X의 모든 값이 대응되는 Y 값이 존재한다.
정규분포에서 X축은 점수를 Y축은 빈도를 나타낸다.
3. 정규분포는 최빈치가 하나인 종 모양의 단봉분포 다 그러므로 정규분포에서는 평균, 중앙치, 최빈치가 일치한다.
4. 정규분포의 전체 면적(확률)은 1.0이다(백분률로 100%) 정규분포에서는 평균에 근접할수록 많은 사례들이 밀집해
있어 빈도 (즉, 정규분포곡선의 높이)가 많고, 중간에 벗어날수록 사례들이 감소한다. 그래서 정규분포에서 평균과
+1s사이의 면적이 34.13%이지만, +1s와 +2s 사이의 면적은 13.59%, +2s와 +3s 사이의 면적은 2.15%에 불과한다.
정규분포의 면적비율은 확률 혹은 사례들의 비율과 같은데, 그 비율을 평균과 표준편차에 따라 결정된다.
정규분포에서 평균을 중심으로 +-1s의 범위에 전체 면적의 약 68%,+-2s의 범위에 약 95%, +-3s의 범위에 약99.7%가
분포한다. 이를 확률로 나타내면 다음과 같다.
- 원점수가 평균을 기준으로 +-1 표준편차 이내에 존재할 확률 : .6826
- 원점수가 평균을 기준으로 +-2 표준편차 이내에 존재할 확률 : .9544
- 원점수가 평균을 기준으로 +-3 표준편차 이내에 존재할 확률 : .9974
5. 정규분포의 꼬리는 결코 X추에 닿지 않는다. 수학적으로 이러한 성질을 '곡선이 X 축에 점근적으로 접근한다'고 하거나 'X축은 곡선의 점근석이다' 한다.
6. 정규분포의 형태는 평균과 표준편차에 따라 결정된다. 반지름이나 다른 원들이 수업이 존재하는 것처럼, 평균과 표준편차에 따라 수많은 정규분포들이 존재하낟. 정규분포에서 평균은 분포의 중심을 결정하고, 표준편차는 분포가 어느 정도 퍼져 있는지 를 나타낸다.
사실 이렇게 말로 적으면 이해가 안된다. 나도 수업시간에 무슨 말인지.. 처음에는 하나도 무슨말인지 몰랐다.
그냥 간단히 이야기하면 저 정규분포표에 양끝의 결과가 나올수록 연구 결과 유의미하다는 이야기다.
표준점수는 점수가 평균으로 부터 떨어진 정도(거리)를 표준편차 단위로 표시한 점수로, 점수의 상대적 위치를 판단할 수 있는 기준을 제공한다. 대표적인 표준점수는 Z점수와 T점수다.
* Z점수*
점수와 평균의 차이를 표준편차 단위로 나타낸것 아래 Z점수로 변환하는 공식은 다음과 같다.

Z 점수는 점수가 평균보다 크거나 작은 정도를 표준편차 단위로 나타낸다. 아래 그림은 정규분포와 Z분포의 관계이다.

Z점수는 점수의 상대적 위치에 대한 정보를 제공한다.
Z점수 (양수+) | 점수가 평균보다 높다. |
Z점수 (음수-) | 점수가 평균보다 낮다. |
Z점수가(0) | 점수가 평균과 같다. |
예시) 학생A 영어시험점수 70점 , 수학점수 60점
두 시험점수의 평균과 표준편차는 영어시험점수 평균은60, 표준편차 10 / 수학시험점수 평균 50, 표준편차 5 일경우
두 시험점수의 상대적 위치 판단을 위해 Z점수로 변환하면 된다.

결과 영어시험은 +1.0 / 수학시험 +2.0으로 결국 A는 영어시험보다 수학시험이 상대적으로 더 높다고 볼 수 있다.
* T점수 *
Z점수는 매우 유용하지만 한계가 있다. 1) 음수(-)값을 가질 수있다. 2)소수점 이하의 값을 가질수 있다.
3) 일반인들에게 친숙하지 않다는 단점이 있다. Z값 문제점을 보완하기 위해서 고안된 T점수는 아래 공식과 같이
Z점수를 평균 50, 표준편차 10이 되도록 선형 이동시킨 것이다.
T=10Z + 50 |

T점수가 50 | 평균과 같다. |
T점수가 80에 가까울수록 | 상대적 위치가 높다. |
T점수가 20에 가까울수록 | 상대적 위치가 낮다. |
예시 영어성적과 수학성적을 공식에 대입하면
T영어 = 10 * 1.0 + 50 = 60 / T수학 = 10 * 2.0 + 50 = 70
정규 분포 및 표준정규분포의 활용이 가장 많이 되는 곳이 수능성적, 지능지수에 많이 사용됩니다.
1) 원점수를 알 때 확률(백분율)을 구하는 방법
① 원점수를 Z 점수로 바꾼다
② 표준정규분포에서 z점수에 해당되는 확률을 구한다.
예시-문제 : 평균이 100, 표전편차 20인 정규분포에서 80점 이하의 점수를 받은 학생들은 전체의 몇 %인가?
풀의 : 80점을 Z점수로 바꾸면 -1.0으로 정규분포에서 Z=-0.1
이하의 면적은 .1587이므로 80점 이하의 점수를 받은 학생들은 약 16% 입니다.
2) 면적(백분율)을 알 때 원점수 구하는 방법
① 특정 면적(백분율)에 대응하는 Z점수를 구한다.
② Z점수를 이용하여 원점수를 구한다
예시 - 문제 : 평균이 100, 표준편차 20인 정규분포에서 전체 사례를 상위 20%와 하루 80%로 구분하는 점수는?
풀이 : 표준정규분포곡선에서 오른쪽 끝부분의 면적 .20에 대응되는 Z점수는 대략 .84이다.
이를 원점수로 환산하면 116.8이다.( X=(.84*20) + 100 = 116.8)
3) 특정 백분위에 대응되는 원점수 구하는 방법
특정 백분위에 해당하는 원점수르 구하자면 먼저 표준정규분포에서 백분위에 해당하는 Z점수를 구한 다음
Z점수를 원저수로 변환하면 된다.
예시 - 문제 : 지능지수는 평균 100, 표준편차 15인 정규분표를 따른다. 백분위 90에 대응되는 지능지수를 구하라
풀이 : 백분위 90은 정규분포곡선을 하위 90%(.90)와 상위10%(.10)로 구분하므로 백분위 90에 대응되는
지능지수를 구하자면 표준 정규분포에서 면적=.90에 해당하는 Z점수를 먼저 구해야 한다.
면적=.90에 해당하는 Z점수는 +1.28이다. Z=+1.28에 해당하는 IQ는 119.20이다.
* 백분위 *
백분위는 분포를 100등분 했을 떄 어느 위치에 해당되는 가에 나타난다. 확률분포에서 특정 점수의 백분위는 그 점수에 대응되는 누적 확률 100을 곱한 것이다. 그러므로 백분위는 특정 점수에 대응되는 누적 확률에 100을 곱한 것이다.
백분위 구하는 절차는 다음과 같다
① 빈도분포에서 누적빈도를 구한다
② 백분위를 구하고자 하는 점수에 대응되는 빈도(f)를 반으로 나눈다
③ 반으로 나눈 값을 점수의 아래에 있는 누적빈도와 더한다.
④ 3단계에서 구한 값을 전체 사례수로 나눈 다음 100을 곱한다. 그러므로 백분위를 구하기 위한 공식은 다음과 같다.


위에 표에서 19점에 대응되는 백분위는 43% 입니다.
풀이 : 19점 미만의 점수를 받은 학생수 11명 ->19점에 해당하는 빈도 4를 반으로 나누면 2 -> 11+2 =13
-> 13을 전체 사례 30으로 나눈 다음 100을 곱하면 43.3으로 반올림하면 43%

자 그렇다면 SPSS로 표준점수 (Z점수)와 백분위 구하는 방법
Z값
- 자료를 입력후 분석 - 기술통계량 - 기술통계를 선택
- 기술통계 대화상장에서 Z점수 구하려고 하는 변수를 선택한 다음, 표준화 값을 변수로 저장(Z)을 선택하고 확인을클릭 하여 자료화면에 Z 점수 산출 된다.
백분위
- 자료를 입력한 후 분석- 기술통계량- 빈도분석을 선택한다
- 통계량을 클릭하고 대화상자에서 백분위수를 선택한 다음, 구하려고 하는 백분위수를 입력한다. 구하려고 하는 백분위수 입력이 끝나면 계속을 클릭하여 빈도분석 대화상자로 돌아가서 확인을 클릭한다.
다음시간은 실제로 SPSS 프로그램에 T값을 구하는 것을 알려 드리겠습니다.
'대학원생활(유교과) > 대학원-통계학' 카테고리의 다른 글
통계학 2 - 가설검증과 독립표본 T값 구하기 ( SPSS 사용 ) (0) | 2022.01.22 |
---|