ETC/DailyRoutine

[방송통신대학교]데이터정보처리입문 1학기 중간평가 출석수업대체과제물

AnKiWoong 2022. 8. 3. 19:02
반응형

1-1. 1990년부터 2019년까지의 연도별 전국 총출생성비를 시계열도표로 나타내고 전체적인 경향을 
설명하시오.
출생성비는 여아 100명당 남아 수를 말하며, 1991년, 1997년에 눈에 띄게 출생성비가 감소한 것을 
볼 수 있었고, 1998년도에 출생성비가 증가 햇으나 전체적으로 출생성비가 서서히 감소하고 있는 
추세이며, 광주광역시가 가장 출생성비가 감소하였다.
1-2. 1990년부터 2019년까지의 연도별 서울과 부산의 총출생성비를 하나의 시계열도표에 나타내고 
비교하여 설명하시오.

부산의 출생성비는 지속적으로 감소 하고 있으며 서울의 출생성비도 지속적으로 감소하고 있는
추세를 확인 할 수 있었다.


1-3. 1993년부터 2019년까지의 연도별 전국 합계출산율을 시계열도표로 나타내고 전체적인 경향을 
설명하시오.

합계출산율은 여성 1명이 평생동안 낳을 것으로 예상되는 평균 출생아수를 나타낸 지표로서 출산력 
수준을 나타내는 국제적 지표을 말한다.
최근 혼인 감소 등 출산에 미치는 요인들의 변화에 따라, 2001년에 이어 2002년에 크게 감소한 
이후 1.3을 넘지 못하는 낮은 합계출산율을 보이고 있다.

2-1. 평균, 중앙값, 표본분산, 표본표준편차, 변동계수를 구하여 분포의 특징을 설명하시오.
평균 : 47.44615
중앙값 : 48
표본분산 : 404.3135
표본표준편차 : 20.10755
변동계수 : 0.4237972

분포는 좌우 대칭의 형태를 띠며, 평균치에서 확률값이 가장 높다.


2-2. 줄기-잎 그림, 히스토그램, 상자그림을 그리고 분포의 특징을 설명하시오.

<줄기-잎 그림>

구분기호 왼쪽은 십의자리를 나타냅니다. 
자료의 분포를 파악하기가 용이하다. 
원데이터의 파악이 가능하다.(중앙값)


<히스토그램>

일변량 데이터를 계급으로 나누어 각 도수를 구한 후 x축은 계급, y축은 도수를 막대의 형태로 
나타낸 그림이다.


<상자그림>

중앙값, 제 1사분위수, 제 3사분위수, 최댓값 , 최솟값을 다섯 숫자 요약(5 number summary)라고 
한다. 이를 그림으로 나타낸 것이 상자그림이다.


3. 교재4장 연습문제 1번
<독립성 검정 방법에 대하여>
관측된 자료들이 어떤 특성을 갖는지에 따라 몇 개의 범주(category)로 나뉘어 분류 정리되었을 때, 각 범주에 속하는 도수(frequency)로 이루어진 자료 변수를 범주형 변수라고 하며, 다음과 같은 형태의 표를 이차원 분할표라고 한다.

<2차원 분할표>


변 수 B
B1 B2 B3 B4 합 계


A
A1 11 12 13 14 1
A2 21 22 23 24 2
A3 3
A4 4
A5 51 52 53 54 5
합 계 ∱∙1 ∱∙2 ∱∙3 ∱∙4

독립성 검정에서의 귀무가설은

: 행과 열 변수는 서로 독립이다.

로서, 총 표본의 크기는 만이 미리 결정되어 있다면 번째 반응을 나타내는 개체의 총수는

 

이 된다. 두 변수 A와 B가 서로 독립이라면
로서, 귀무가설하에서의 각 칸의 기대도수는

이며 검정통계량은 다음과 같다.



반응형