26일(월)~
2주차에는 온라인 강의를 통해 데이터 분석과정을 실습해보고 기초 통계 이론을 학습했습니다.
📌 데이터 분석 단계 및 탐색적 데이터 분석(EDA)
🔸 Exploratory Data Analysis, EDA
- 기초적인 통계 개념으로 데이터 전체를 파악
- 데이터의 형질에 대한 도메인 개념 축적
- 전처리의 방향성 제시
🔸 데이터 전처리
- 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환한다.
🔸 캐글(kaggle)이란?
- 데이터 분석 경진대회 플랫폼으로 기업 또는 단체에서 빅데이터를 제공한다.
- 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁
🔸 데이터 과학자 커뮤니티
- 캐글에서 제공하는 데이터와 문제를 바탕으로 의견을 공유
- 기업은 이를 바탕으로 정보와 인사이트를 얻고 유저는 다양한 데이터 및 분석 경험을 할 수 있다.
🔸 EXCEL을 통해 캐글에서 다운받은 'Titanic' 자료를 기술통계량, 공분산 분석, 상관 분석 해보았다.
📌 데이터 탐색 사례
1️⃣ 대표값을 통한 데이터 탐색
▪️ 수집된 데이터로부터 통계량을 측정
▪️ 통계량을 통해 집단의 특성을 파악
▪️ 기술 통계(Descriptive Statistics): EXCEL, Python...
2️⃣ 차트로 데이터 탐색 사례
▪️ 좌석, 생존에 따른 연령 분포: 생성한 차트에서의 면적을 비교해 분포를 파악해야 한다.
▪️ 분포를 확인할 때 함께 확인해야 하는 수치
- 분포의 중심: 평균, 중위값, 최빈값 등
- 퍼짐 정도: 분산, 표준편차, 사분위수, 변동계수
- 분포의 모양(비대칭성): 왜도(skeness), 첨도(kurtosis)
3️⃣ 상관관계로 데이터 탐색 사례
▪️ IRIS dataset
- 변수간 상관분석 결과
4️⃣ 결측치, 이상치 데이터 탐색 사례
▪️ Titanic 탑승 요금 분포에 대한 boxplot
📌 데이터 탐색과 통계 필요성
1️⃣ 기술통계
▪️ 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색
▪️ 관측된 데이터의 특성을 파악하는 좋은 수단
2️⃣ 추론 통계
▪️ 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론
▪️ p-value 등을 활용하여 추론의 신뢰도 확보
🔑 적절한 통계 기법을 활용하고 수치를 뽑는 과정은 데이터로부터 올바른 정보를 얻어내는 과정이다.
→ 통계 공부는 수치로부터 정보를 추출해내기 위한 수단
3️⃣ 데이터 탐색 과정의 목적
▪️ 어떤 변수가 결론에 많은 영향을 미치는지 판단한다.
- 유의미한 변수를 탐색
- 변수간의 독립성을 확보
- 의미 없는 데이터를 제거 → 효율성, 차원 축소
▪️ 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르다.
- ex. 정규성 검정을 통해 정규분포를 따르는지 아닌지를 판단할 수 있다.
📌 왕초보 고등학교 기초 통계
(기초 통계 이론에 대해 학습했습니다. 그 중 인상깊었던 부분 위주로 정리해보았습니다.)
✅ 통계에 확률변수, 확률분포가 등장하는 이유
▪️ 통계의 목적
- 아직 벌어지지 않은 일을 예측하기 위해서
- 미래에 대한 예측
▪️ 확률 변수란
- 일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
- 엄밀하게는 사건마다 부여된 확률 값을 변수로 나타낸 것
▪️ 확률 분포
- 확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것
✅ 연속형 확률분포와 이산형 확률분포
▪️ 자료의 종류
- 범주형 자료 (명목형 자료, 순서형 자료)
- 양적 자료 (이산형 자료, 연속형 자료/구간형 자료, 비율형 자료)
✅ 정규분포, 표준정규분포, 표준화
▪️ 정규분포는 왜 중요한가?
- 많은 분야의 연속형 데이터들이 종모양의 형태를 띤다는 것을 확인
- 실험 오차를 분석하면서 사용하기 시작
- 왜 서로 다른 다양한 상황에서 비슷한 분포가 나타날까?
▪️ 중심극한정리
- 독립적인 확률변수들의 평균은 정규분포에 가까워진다.
- 수학적인 방법을 통해 증명
▪️ 표본정규분포
- 정규분포 중에서 평균이 0, 표준편차가 1인 정규분포
- 표준화: 다양한 형태의 정규 분포를 표준 정규 분포로 변환하는 방법
- 표준화의 중요성: 다양한 데이터를 균일한 기준으로 비교할 수 있다.
✅ 모집단 vs. 표본
▪️ 모집단: 조사 대상이 되는 전체 집합
▪️ 표본: 모집단을 대표하는 모집단의 일부
▪️ 모분산, 표본분산 구하는 방식에 차이가 있다.
💻 비대면 실시간 강의를 통해서는 전반적인 EXCEL 함수에 대한 실습과 통계학 이론에 대해 학습했습니다.
(헷갈리거나 꼭 기억해야 할 내용 위주로 정리해보았습니다.✏️)
✅ 통계학
- 효율성을 높이기 위한 학문
- 표본 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사결정을 내리 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
- 모집단을 추론하는 학문이므로 절대 통계학의 결론을 맹신해서는 안된다.
✅ P-value (유의확률)
: 귀무가설을 기각할 때 그 결정이 틀릴 확률, 귀무가설을 기각할 수 있는 최소의 유의수준
- 유의수준: 귀무가설을 채택하고자 할 때 그 결정이 틀릴 확률
✅ t-test: 두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정
- 집단이 무조건 두 개 (서로 다른 두 집단 또는 한 집단의 전후)
- 시행단계: 변수(집단) 선택 → F- 검정 → t-test → 결과 해석
✅ F-검정: 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
- 귀무가설: 두 집단의 분산에 유의미한 차이가 없다. → 등분산 t-test
- 대립가설: 두 집단의 분산에 유의미한 차이가 있다. → 이분산 t-test
✅ 회귀분석: 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 것
▪️ 단순선형회귀분석
- 결정계수(상관계수 r의 제곱값)
- F값: 0.05보다 작아야 회귀 모형이 유의미함
- y 절편 및 x1의 계수 확인
- 실습: 매출액-광고비 각 단순선형회귀분석
▪️ 다중선형회귀분석
00. 상관분석으로 16개 이내의 상관관계가 높은 변수 추출 (엑셀에서 다중변수 16개까지만 입력가능)
01. 모든 변수를 포함한 다중선형회귀분석
02. 유의미한 변수들로만 다중선형회귀분석
03. 유의미한 변수들을 각각 단순선형회귀분석
✅ 시계열분석
- forecast.ets 함수: 계절성을 가진 데이터 예측에 용이하다.
- 3주기 이상 가져야 계절성이 인정된다.
'[패스트캠퍼스] 데이터 분석 부트캠프 13기' 카테고리의 다른 글
[BDA_13기] 7주차_학습일지 (0) | 2024.04.03 |
---|---|
[BDA_13기] 4주차_학습일지 (1) | 2024.03.14 |
[BDA_13기] 3주차_학습일지 (2) | 2024.03.07 |
[BDA_13기] 1주차_학습일지 (0) | 2024.02.22 |
[BDA_13기] OT_학습일지 (0) | 2024.02.19 |