본문 바로가기

[패스트캠퍼스] 데이터 분석 부트캠프 13기

[BDA_13기] 1주차_학습일지

 

 

 

20일(화)

# 빅데이터 이해 & 데이터 리터러시 함양하기(박서희 강사님)

  첫 수업은 현재 데이터 사이언티스트로 재직 중이신 박서희 강사님의 특강이었습니다. 

 빅데이터에 대한 강의와 Q&A 시간으로 진행되었습니다.

 강의를 들으며 인상깊었던 내용 위주로 정리해보았습니다. 

더보기

√ Why Data-Driven is Important?

 

데이터 드리븐 (Data Driven)은?

▶ 데이터를 기반으로 의사결정을 하는 것을 의미. 데이터가 모든 의사결정을 좌지우지 하는 것

 

과거에는 직관을 기반으로 한 의사결정을 하였으나 이제는 데이터 기반의 의사결정

대표적인 데이터 드리븐 경영 사례: 마켓컬리, 무신사 등등...

 

√ Since When is Data-Driven Important, How long will it be important?

 

  • 데이터의 양이 제타바이트 시대에 도달
  • 빅데이터의 유형이 실시간 분석 비중이 증가
  • 분석기술의 변화: 텍스트 마이닝-텍스트 변환 기술, 생성형 AI 모델 등장
  • AI 트렌드의 선두주자인 generative AI(생성형 AI)가 등장 했고 이에 따라 AI risk 관리 개발분야도 떠오르고 있다. 
  • LLM: large language model → ChatGPT
  • 새로운 LLM → 구글 Genimi: 텍스트와 이미지를 동시에 입력하고 동시에 생성하는 진화된 생성형 AI

√ What's going on with the data

  • 데이터 관련 직무들의 명칭

 - 데이터 엔지니어 vs 데이터 분석가 vs 머신러닝 엔지니어, 딥러닝 엔지니어

 - Product Analyst, Business Analyst, Performance marketer

  • 데이터 사이언티스트는 데이터 분석 역량 뿐만 아니라 논리적 사고, PT 등 컨설팅 역량도 요구
  • 시민 데이터 과학자 (Citizen Data Scientist)의 등장

√ What competencies do you need, What do you need to prepare from now on?

  • 프로그래밍 + 분석 이론 + 도메인 지식 + 커뮤니케이션 스킬 역량
  • 데이터 분석 Tool 7가지: Python, R, EXCEL, SQL, Tableau, Power BI, Google Analytics

강의 후  Q&A 시간에 들어온 질문들을 거의 다 꼼꼼하게 답해주시고 현직자 입장에서 현실적인 조언들을 많이 해주셔서 매우매우 좋았습니다👍

 

21일(수) ~

# 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기(이동훈 강사님)

 

부트캠프에서 배우는 첫번째 tool인 EXCEL 강의가 본격적으로 시작되었습니다!

21일부터는 EXCEL을 실시간 강의와 함께 온라인 강의로 학습하였습니다. 

 

📌우리가 엑셀을 배워야 하는 이유 & 엑셀 기본 원리
√ 왜 엑셀인가
- 기업에서 가장 많이 활용되는 tool
- 엑셀의 강점: 사용하기 쉽고, 데이터를 빠르게 처리하며, 어디서나 접근 가능

√ 엑셀을 잘 한다는 것은
- 사용자의 입장에서 목적에 부합하도록 자료를 구성하는 것

√ 엑셀의 기본 원리
- 엑셀 데이터의 종류: 값, 수식, 서식
- 기억해야 할 엑셀의 기초
   ① 엑셀의 모든 셀에는 서식이 적용되어 있다. (복붙할 때 수식/값/서식을 각각 따로 붙여 넣어야 한다.)
   ② 함수를 사용하는 상황에 따라 각각의 참조를 적절히 사용해야 한다.
        상대 참조: SUM(C5:C12)
        절대 참조: SUM($C$5:$C$12)
        혼합 참조: SUM(C$5:C:$12) / SUM($C5:$C12) 
- 업무 속도 500% 올리기: 빠른실행도구모음 사용하기 → Alt+1,2,3 ···
- 사용자 지정 기호(표시 형식을 통해 셀 서식을 변경할 수 있다.)

기호 의미 예시
# 숫자의 대표 값(의미 없는 0은 생략) 001 -> ### -> 1
0 -> # -> (빈칸)
0 숫자의 대표 값(의미 없는 0도 표시) 001 -> 000 -> 001
0 -> 0 ->0
@ 문자의 대표 값 고객 -> @"님" -> 고객님
, 숫자의 중간: 1000단위 마다 쉼표
숫자의 끝: 1000단위 반올림
1000500 -> #,##0 -> 1,000,500
1000500 -> #,##0, -> 1,001

 

 

📌반드시 알아야 할 엑셀 함수
🔸 기본 함수
=SUM(C5:C12) / =SUM(C5,C12) : C5 - C12셀들의 값을 모두 더함/ C5, C12 셀 두개의 값만 더함
=AVERAGE(C5:C12) / =AVERAGE(C5, C12): C5-C12셀들의 평균을 구함/C5, C12 셀 두개의 평균만 구함

🔸
COUNT 함수: 특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악
COUNTA 함수: 특정 범위에서 데이터가 들어가 있는 셀(비어있지 않은 셀)의 개수 파악
COUNTBLANK 함수: 특정 범위에서 비어 있는 셀의 개수 파악
COUNTIF 함수: 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
COUNTIFS 함수: 특정 범웨에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악

🔸
IF 함수: 부등호/등호를 활용해 가정을 설정하고 데이터를 가정에 만족하는 값과 만족하지 않는 값으로 분류


🔸
VLOOKUP 함수: 공통 열을 기준으로 n번째 있는 데이터를 불러오는 함수
 =VLOOKUP(찾을 기준 데이터, 불러올 데이터의 범위(공통 기준열부터~), 불러올 데이터의 열 번호, 0)
  * 0(FALSE)=정확히 일치할 때만, 1(TRUE)=근사치여도
  + 심화 활용: 열_번호 참조하기, MATCH 함수 대입하기, 기준 열에 중복 값이 있는 경우

🔸
INDEX & MATCH 함수
: 기준열 왼쪽에 위치한 데이터는 불러올 수 없다는 VLOOKUP 함수의 한계를 극복하기 위해 함께 사용
 MATCH 함수는 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줌
   =MATCH(lookup_value, lookup_array, [match_type])
 INDEX 함수는 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴
 =INDEX(array, row_num, [column_num])

🔸
SUMIF 함수: 특정 조건을 만족하는 데이터의 합계 계산
 =SUMIF(더할 조건들의 범위, “식비”, 더할 값들의 범위)
SUMIFS 함수: 2개 이상의 조건을 동시에 만족하는 데이터의 합계 계산
 =SUMIFS(더할 값들의 범위, 더할 조건 범위 1, 조건 1, 더할 조건 범위 2, 조건 2)

🔸텍스트 처리 함수
FIND 함수: 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
 띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분 → 대소문자를 구분하지 않아야 할 때는 SEARCH 함수 사용
* 첫번째 “아빠” 텍스트의 위치
 =FIND(“아빠”, 긴 텍스트, 문자열을 찾기 시작할 위치)
* 두번째 “아빠” 텍스트의 위치
 =FIND(“아빠”, 긴 텍스트, 문자열을 찾기 시작할 위치)

LEFT & RIGHT 함수: 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출
 =LEFT(전체 텍스트, 불러올 문자열 수)
 =RIGHT(전체 텍스트, 불러올 문자열 수)

MID 함수: 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출
 =MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)

 

📌알면 편해지는 엑셀 기능
🔹 피벗 테이블(Pivot Table): 엑셀에서 커다란 표의 데이터를 요약하는 통계표
 - [피벗 테이블 필드]의 필드를 필터/열/행/값 중 필요한 부분에 드래그

🔹텍스트 나누기: [데이터]탭 → [텍스트 나누기] → [구분 기호로 분리됨] → [기타] 체크 → “-” 입력 → [마침]

🔹중복된 항목 제거하기:
  특정 열에서 중복되어 있는 데이터를 1개씩만 남기고 제거(고유 값만 추출)
  선택한 열에 입력된 데이터의 중복만 제거하거나, 중복된 데이터가 포함된 행 전체를 제거할 수도 있음
  [데이터]탭 → [중복된 항목 제거] → 중복 값을 제거할 기준 열 선택 → [확인]

🔹FILTER:
  필터는 필터링(필요한 데이터만 선택 or 필요하지 않은 데이터 제외) 기능과 데이터 정렬(오름차순/내림차순) 기능을 가지고 있음
 기본적으로 사용하는 필터링 이외에도 숫자 필터, 텍스트 필터, 색 기준 필터 등 다양한 필터 사용 가능
🔹고급 필터:
  AND 조건(모든 조건을 만족하는 데이터만 필터링)과 OR 조건(1개 이상의 조건을 만족하는 데이터 모두 필터링)으로 고급 필터 사용
  AND 조건은 조건을 한 행에, OR 조건은 조건을 다른 행에 쓴 후 조건 범위에 참조해 사용 가능

🔹데이터 유효성 검사:
  특정 셀이나 범위에, 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능
 - 조건 설정: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [제한 대상], [제한 방법] 지정

🔹잘못된 데이터 확인하기
: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [잘못된 데이터]

🔹데이터 유효성 검사로 목록 만들기:
  셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [목록] → 데이터 직접 입력 또는 목록 범위 설정

 

📌멋진 자료 작성에 필요한 엑셀 시각화
🔹콤보형 차트: 2개 이상의 정보를 표현하는 콤보형 차트
  데이터 범위 선택 → [막대형 차트]삽입 → 그래프의 막대 선택 → 마우스 오른쪽 클릭 → [계열 차트 종류 변경]
차트를 변경할 계열의 차트 변경 → 필요한 경우 [보조 축] 선택

🔹거품형 차트 (Bubble Chart): 숫자의 크기나 비율을 거품으로 나타내는 차트 거품의 위치와 거품의 크기, 거품의 색 등을 활용해 정보를 표현

🔹폭포형 차트 (Waterfall Chart) 데이터의 증가, 감소분 만큼을 막대 그래프로 표현

🔹 조건부 서식: 특정한 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능
  - 셀 값을 기준으로 모든 셀의 서식 지정: 선택한 범위의 모든 셀에 특정한 조건에 의한 조건부 서식 적용 가능
  - 다음을 포함하는 셀만 서식 지정: 선택한 범위에서 특정한 조건을 만족하는 데이터에만 서식 적용
  - 상위 또는 하위 값만 서식 지정: 상위 10개(%) 또는 하위 10개(%)에 해당하는 데이터에만 서식 적용
  - 평균보다 크거나 작은 값만 서식 지정: 선택한 데이터의 평균보다 크거나 작은 데이터에만 서식 적용
  - 고유 또는 중복 값만 서식 지정: 고유(1개만 있는)하거나 중복(2개 이상)된 데이터에만 서식 적용
  - 수식을 사용하여 서식을 지정한 셀 결정: 임의의 수식의 결과가 참(TRUE)이 되게 하는 데이터에만 서식 적용

 

새롭게 알게 된 함수가 많아서 복습을 꼼꼼하게 해야겠다😢