본문 바로가기

[패스트캠퍼스] 데이터 분석 부트캠프 13기

[BDA_13기] 2주차_학습일지

 

 

26일(월)~

2주차에는 온라인 강의를 통해 데이터 분석과정을 실습해보고 기초 통계 이론을 학습했습니다.  

 

📌 데이터 분석 단계 및 탐색적 데이터 분석(EDA)

 

🔸 Exploratory Data Analysis, EDA
 - 기초적인 통계 개념으로 데이터 전체를 파악
 - 데이터의 형질에 대한 도메인 개념 축적
 - 전처리의 방향성 제시

🔸 데이터 전처리
 - 데이터 분석에 앞서 전처리 과정을 통한 데이터 가공 및 변환한다. 

🔸 캐글(kaggle)이란?
 - 데이터 분석 경진대회 플랫폼으로 기업 또는 단체에서 빅데이터를 제공한다. 
 - 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁

🔸 데이터 과학자 커뮤니티
 - 캐글에서 제공하는 데이터와 문제를 바탕으로 의견을 공유
 - 기업은 이를 바탕으로 정보와 인사이트를 얻고 유저는 다양한 데이터 및 분석 경험을 할 수 있다. 

🔸 EXCEL을 통해 캐글에서 다운받은 'Titanic' 자료를 기술통계량, 공분산 분석, 상관 분석 해보았다. 

 

 

📌 데이터 탐색 사례

 

1️⃣ 대표값을 통한 데이터 탐색
        ▪️ 수집된 데이터로부터 통계량을 측정
        ▪️ 통계량을 통해 집단의 특성을 파악
        ▪️ 기술 통계(Descriptive Statistics): EXCEL, Python...

2️⃣ 차트로 데이터 탐색 사례
        ▪️ 좌석, 생존에 따른 연령 분포: 생성한 차트에서의 면적을 비교해 분포를 파악해야 한다. 
        ▪️ 분포를 확인할 때 함께 확인해야 하는 수치
          - 분포의 중심: 평균, 중위값, 최빈값 등
          - 퍼짐 정도: 분산, 표준편차, 사분위수, 변동계수
          - 분포의 모양(비대칭성): 왜도(skeness), 첨도(kurtosis)

3️⃣ 상관관계로 데이터 탐색 사례
        ▪️ IRIS dataset
          - 변수간 상관분석 결과
4️⃣ 결측치, 이상치 데이터 탐색 사례
        ▪️ Titanic 탑승 요금 분포에 대한 boxplot

 

 

📌 데이터 탐색과 통계 필요성

 

1️⃣ 기술통계
        ▪️ 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색
        ▪️ 관측된 데이터의 특성을 파악하는 좋은 수단

2️⃣ 추론 통계
        ▪️ 추출한 표본의 통계량 관찰 및 분석 기법을 활용하여 모집단을 추론
        ▪️ p-value 등을 활용하여 추론의 신뢰도 확보

🔑 적절한 통계 기법을 활용하고 수치를 뽑는 과정은 데이터로부터 올바른 정보를 얻어내는 과정이다. 
        →  통계 공부는 수치로부터 정보를 추출해내기 위한 수단

3️⃣ 데이터 탐색 과정의 목적
        ▪️ 어떤 변수가 결론에 많은 영향을 미치는지 판단한다. 
           - 유의미한 변수를 탐색
           - 변수간의 독립성을 확보
           - 의미 없는 데이터를 제거 → 효율성, 차원 축소
        ▪️ 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르다. 
           - ex. 정규성 검정을 통해 정규분포를 따르는지 아닌지를 판단할 수 있다. 

 

📌 왕초보 고등학교 기초 통계

  (기초 통계 이론에 대해 학습했습니다. 그 중 인상깊었던 부분 위주로 정리해보았습니다.)

✅ 통계에 확률변수, 확률분포가 등장하는 이유
▪️ 통계의 목적
-    아직 벌어지지 않은 일을 예측하기 위해서
-    미래에 대한 예측

▪️ 확률 변수란
-    일정한 확률을 갖고 일어나는 사건에 수치가 부여된 것
-    엄밀하게는 사건마다 부여된 확률 값을 변수로 나타낸 것

▪️ 확률 분포
-    확률 변수에서 정의된 사건에 대한 확률의 분포를 함수로 나타낸 것

✅ 연속형 확률분포와 이산형 확률분포
▪️ 자료의 종류
-    범주형 자료 (명목형 자료, 순서형 자료)
-    양적 자료 (이산형 자료, 연속형 자료/구간형 자료, 비율형 자료)

✅ 정규분포, 표준정규분포, 표준화
▪️ 정규분포는 왜 중요한가?
-    많은 분야의 연속형 데이터들이 종모양의 형태를 띤다는 것을 확인
-    실험 오차를 분석하면서 사용하기 시작
-    왜 서로 다른 다양한 상황에서 비슷한 분포가 나타날까?

▪️ 중심극한정리
-   독립적인 확률변수들의 평균은 정규분포에 가까워진다.
-   수학적인 방법을 통해 증명

▪️ 표본정규분포
-    정규분포 중에서 평균이 0, 표준편차가 1인 정규분포
-    표준화: 다양한 형태의 정규 분포를 표준 정규 분포로 변환하는 방법
-    표준화의 중요성: 다양한 데이터를 균일한 기준으로 비교할 수 있다.


✅ 모집단 vs. 표본
▪️ 모집단: 조사 대상이 되는 전체 집합
▪️ 표본: 모집단을 대표하는 모집단의 일부
▪️ 모분산, 표본분산 구하는 방식에 차이가 있다.

 

 

💻 비대면 실시간 강의를 통해서는 전반적인 EXCEL 함수에 대한 실습과 통계학 이론에 대해 학습했습니다. 

  (헷갈리거나 꼭 기억해야 할 내용 위주로 정리해보았습니다.✏️) 

✅ 통계학
   - 효율성을 높이기 위한 학문
   - 표본 정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사결정을 내리 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문
   - 모집단을 추론하는 학문이므로 절대 통계학의 결론을 맹신해서는 안된다. 

✅ P-value (유의확률)
   : 귀무가설을 기각할 때 그 결정이 틀릴 확률, 귀무가설을 기각할 수 있는 최소의 유의수준
   - 유의수준: 귀무가설을 채택하고자 할 때 그 결정이 틀릴 확률

✅ t-test: 두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정
   - 집단이 무조건 두 개 (서로 다른 두 집단 또는 한 집단의 전후)
   - 시행단계: 변수(집단) 선택 → F- 검정 → t-test → 결과 해석

✅ F-검정: 두 집단의 분산에 통계적으로 유의미한 차이가 있는지를 검정
   - 귀무가설: 두 집단의 분산에 유의미한 차이가 없다. → 등분산 t-test
   - 대립가설: 두 집단의 분산에 유의미한 차이가 있다. → 이분산 t-test

✅ 회귀분석: 두 개 이상의 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 것
▪️ 단순선형회귀분석
  - 결정계수(상관계수 r의 제곱값)
  - F값: 0.05보다 작아야 회귀 모형이 유의미함
  - y 절편 및 x1의 계수 확인
  - 실습: 매출액-광고비 각 단순선형회귀분석
▪️ 다중선형회귀분석
  00. 상관분석으로 16개 이내의 상관관계가 높은 변수 추출 (엑셀에서 다중변수 16개까지만 입력가능)
  01. 모든 변수를 포함한 다중선형회귀분석
  02. 유의미한 변수들로만 다중선형회귀분석
  03. 유의미한 변수들을 각각 단순선형회귀분석

✅ 시계열분석
  - forecast.ets 함수: 계절성을 가진 데이터 예측에 용이하다. 
  - 3주기 이상 가져야 계절성이 인정된다.