본문 바로가기

Python_Beginer/Study

빅데이터 가설 설정 - HRD 온라인 교육 수강 노트

반응형

< 빅데이터 가설 설정 >

1. 빅데이터 분석

- 대량의 정형, 비정형 데이터로부터 정보를 추출

- 데이터속에 숨겨진 패턴 데이터 간의 관계를 발견해 정보를 추출 분석하는 과정

- 통계 및 데이터 마이닝

- 수집된 데이터로 특정 변ㅅ의 미래값 예측

- 인자에 대한 값을 추정해 모델 도출

- 모델의 유의성 검을 위한 가설을 세우고 가설 검정 시행

2. 통계 분석

- 객관적인 근거에 기반을 둔 의사결정을 위해 데이터를 수집, 처리, 분류, 분석, 해석하는 프로세스

- 분석 목적에 부합 선택

- 다양한 통계 툴 사용


3. 데이터 마이닝 기분 분석

- 통계 및 수학적 기술들을 화용해 빅데이터를 순석

- 새로운 상관관계 / 추세 / 예측 / 분류 등을 찾아내고 수행

- 기계학습 / 패턴인식과 관련해 빅데이터 분석에 가장 기본


4. 통계적 가설검정 이해 및 가설 설정

- 통계적 가설 > 표본을 추출 > 진위여부를 판단 > 가설채택하거나 기각

5. 검정 통계량 및 p-value의 정으 ㅣ및 해석

- 검정통계량 값을 가지고 귀무가설이 옳다는 전제하에 P-값 계산 가능


6. 가설검정 절차

- 가설 설정 > 유의수준 설정 > 검정방법 설정 > P값산출 > P값 유의 수준

7. 가설

- 모집단의 특성(모수에 대한 가정 혹은 잠정적인 결론)

- 귀무가설 : 기존과 비교하여 변화 혹은 차이가 없음

- 대립가설(연구가설) : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설


8. 가설 검정(hypothesis testing)

- 모집단에 대한 통계적 가설을 세움

- 모집단으로부터 표본 추출

- 추출된 표본의 정보로 통계적 가설의 진위여부 판단

- 모집단에 대한 가설을 채택하거나 기각


9. 유의수준 : 제 1종 오류(귀무가설이 참인데 기각하게 되는 오류)를 범할 최대 허용 확률


10. 표본크기가 고정되어 있을 경우

- 제 1종 오류 확률이 커지면 제 2종 오류 확률 작아짐

- 제 1종 오류 확률이 작아지면 제 2종 오류 확률이 커짐

반응형