20일(화)
# 빅데이터 이해 & 데이터 리터러시 함양하기(박서희 강사님)
첫 수업은 현재 데이터 사이언티스트로 재직 중이신 박서희 강사님의 특강이었습니다.
빅데이터에 대한 강의와 Q&A 시간으로 진행되었습니다.
강의를 들으며 인상깊었던 내용 위주로 정리해보았습니다.
√ Why Data-Driven is Important?
데이터 드리븐 (Data Driven)은?
▶ 데이터를 기반으로 의사결정을 하는 것을 의미. 데이터가 모든 의사결정을 좌지우지 하는 것
과거에는 직관을 기반으로 한 의사결정을 하였으나 이제는 데이터 기반의 의사결정
대표적인 데이터 드리븐 경영 사례: 마켓컬리, 무신사 등등...
√ Since When is Data-Driven Important, How long will it be important?
- 데이터의 양이 제타바이트 시대에 도달
- 빅데이터의 유형이 실시간 분석 비중이 증가
- 분석기술의 변화: 텍스트 마이닝-텍스트 변환 기술, 생성형 AI 모델 등장
- AI 트렌드의 선두주자인 generative AI(생성형 AI)가 등장 했고 이에 따라 AI risk 관리 개발분야도 떠오르고 있다.
- LLM: large language model → ChatGPT
- 새로운 LLM → 구글 Genimi: 텍스트와 이미지를 동시에 입력하고 동시에 생성하는 진화된 생성형 AI
√ What's going on with the data
- 데이터 관련 직무들의 명칭
- 데이터 엔지니어 vs 데이터 분석가 vs 머신러닝 엔지니어, 딥러닝 엔지니어
- Product Analyst, Business Analyst, Performance marketer
- 데이터 사이언티스트는 데이터 분석 역량 뿐만 아니라 논리적 사고, PT 등 컨설팅 역량도 요구
- 시민 데이터 과학자 (Citizen Data Scientist)의 등장
√ What competencies do you need, What do you need to prepare from now on?
- 프로그래밍 + 분석 이론 + 도메인 지식 + 커뮤니케이션 스킬 역량
- 데이터 분석 Tool 7가지: Python, R, EXCEL, SQL, Tableau, Power BI, Google Analytics
강의 후 Q&A 시간에 들어온 질문들을 거의 다 꼼꼼하게 답해주시고 현직자 입장에서 현실적인 조언들을 많이 해주셔서 매우매우 좋았습니다👍
21일(수) ~
# 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기(이동훈 강사님)
부트캠프에서 배우는 첫번째 tool인 EXCEL 강의가 본격적으로 시작되었습니다!
21일부터는 EXCEL을 실시간 강의와 함께 온라인 강의로 학습하였습니다.
📌우리가 엑셀을 배워야 하는 이유 & 엑셀 기본 원리
√ 왜 엑셀인가
- 기업에서 가장 많이 활용되는 tool
- 엑셀의 강점: 사용하기 쉽고, 데이터를 빠르게 처리하며, 어디서나 접근 가능
√ 엑셀을 잘 한다는 것은
- 사용자의 입장에서 목적에 부합하도록 자료를 구성하는 것
√ 엑셀의 기본 원리
- 엑셀 데이터의 종류: 값, 수식, 서식
- 기억해야 할 엑셀의 기초
① 엑셀의 모든 셀에는 서식이 적용되어 있다. (복붙할 때 수식/값/서식을 각각 따로 붙여 넣어야 한다.)
② 함수를 사용하는 상황에 따라 각각의 참조를 적절히 사용해야 한다.
상대 참조: SUM(C5:C12)
절대 참조: SUM($C$5:$C$12)
혼합 참조: SUM(C$5:C:$12) / SUM($C5:$C12)
- 업무 속도 500% 올리기: 빠른실행도구모음 사용하기 → Alt+1,2,3 ···
- 사용자 지정 기호(표시 형식을 통해 셀 서식을 변경할 수 있다.)
기호 의미 예시 # 숫자의 대표 값(의미 없는 0은 생략) 001 -> ### -> 1
0 -> # -> (빈칸)0 숫자의 대표 값(의미 없는 0도 표시) 001 -> 000 -> 001
0 -> 0 ->0@ 문자의 대표 값 고객 -> @"님" -> 고객님 , 숫자의 중간: 1000단위 마다 쉼표
숫자의 끝: 1000단위 반올림1000500 -> #,##0 -> 1,000,500
1000500 -> #,##0, -> 1,001
📌반드시 알아야 할 엑셀 함수
🔸 기본 함수
=SUM(C5:C12) / =SUM(C5,C12) : C5 - C12셀들의 값을 모두 더함/ C5, C12 셀 두개의 값만 더함
=AVERAGE(C5:C12) / =AVERAGE(C5, C12): C5-C12셀들의 평균을 구함/C5, C12 셀 두개의 평균만 구함
🔸
COUNT 함수: 특정 범위에서 "숫자 데이터"가 들어가 있는 셀의 개수 파악
COUNTA 함수: 특정 범위에서 데이터가 들어가 있는 셀(비어있지 않은 셀)의 개수 파악
COUNTBLANK 함수: 특정 범위에서 비어 있는 셀의 개수 파악
COUNTIF 함수: 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
COUNTIFS 함수: 특정 범웨에서 2개 이상의 조건을 동시에 만족하는 셀의 개수 파악
🔸
IF 함수: 부등호/등호를 활용해 가정을 설정하고 데이터를 가정에 만족하는 값과 만족하지 않는 값으로 분류
🔸
VLOOKUP 함수: 공통 열을 기준으로 n번째 있는 데이터를 불러오는 함수
=VLOOKUP(찾을 기준 데이터, 불러올 데이터의 범위(공통 기준열부터~), 불러올 데이터의 열 번호, 0)
* 0(FALSE)=정확히 일치할 때만, 1(TRUE)=근사치여도
+ 심화 활용: 열_번호 참조하기, MATCH 함수 대입하기, 기준 열에 중복 값이 있는 경우
🔸
INDEX & MATCH 함수
: 기준열 왼쪽에 위치한 데이터는 불러올 수 없다는 VLOOKUP 함수의 한계를 극복하기 위해 함께 사용
MATCH 함수는 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줌
=MATCH(lookup_value, lookup_array, [match_type])
INDEX 함수는 특정 범위에서 행 번호와 열 번호로 원하는 데이터를 불러옴
=INDEX(array, row_num, [column_num])
🔸
SUMIF 함수: 특정 조건을 만족하는 데이터의 합계 계산
=SUMIF(더할 조건들의 범위, “식비”, 더할 값들의 범위)
SUMIFS 함수: 2개 이상의 조건을 동시에 만족하는 데이터의 합계 계산
=SUMIFS(더할 값들의 범위, 더할 조건 범위 1, 조건 1, 더할 조건 범위 2, 조건 2)
🔸텍스트 처리 함수
FIND 함수: 긴 텍스트에서 특정 단어나 문장이 시작하는 위치를 숫자로 출력
띄어쓰기까지 포함하여 문자를 세며 대소문자를 구분 → 대소문자를 구분하지 않아야 할 때는 SEARCH 함수 사용
* 첫번째 “아빠” 텍스트의 위치
=FIND(“아빠”, 긴 텍스트, 문자열을 찾기 시작할 위치)
* 두번째 “아빠” 텍스트의 위치
=FIND(“아빠”, 긴 텍스트, 문자열을 찾기 시작할 위치)
LEFT & RIGHT 함수: 텍스트의 가장 왼쪽/오른쪽부터 원하는 문자열까지 추출
=LEFT(전체 텍스트, 불러올 문자열 수)
=RIGHT(전체 텍스트, 불러올 문자열 수)
MID 함수: 텍스트의 중간 시작 위치부터 원하는 문자열까지 추출
=MID(전체 텍스트, 불러올 문자열의 시작 위치, 불러올 문자열 수)
📌알면 편해지는 엑셀 기능
🔹 피벗 테이블(Pivot Table): 엑셀에서 커다란 표의 데이터를 요약하는 통계표
- [피벗 테이블 필드]의 필드를 필터/열/행/값 중 필요한 부분에 드래그
🔹텍스트 나누기: [데이터]탭 → [텍스트 나누기] → [구분 기호로 분리됨] → [기타] 체크 → “-” 입력 → [마침]
🔹중복된 항목 제거하기:
특정 열에서 중복되어 있는 데이터를 1개씩만 남기고 제거(고유 값만 추출)
선택한 열에 입력된 데이터의 중복만 제거하거나, 중복된 데이터가 포함된 행 전체를 제거할 수도 있음
[데이터]탭 → [중복된 항목 제거] → 중복 값을 제거할 기준 열 선택 → [확인]
🔹FILTER:
필터는 필터링(필요한 데이터만 선택 or 필요하지 않은 데이터 제외) 기능과 데이터 정렬(오름차순/내림차순) 기능을 가지고 있음
기본적으로 사용하는 필터링 이외에도 숫자 필터, 텍스트 필터, 색 기준 필터 등 다양한 필터 사용 가능
🔹고급 필터:
AND 조건(모든 조건을 만족하는 데이터만 필터링)과 OR 조건(1개 이상의 조건을 만족하는 데이터 모두 필터링)으로 고급 필터 사용
AND 조건은 조건을 한 행에, OR 조건은 조건을 다른 행에 쓴 후 조건 범위에 참조해 사용 가능
🔹데이터 유효성 검사:
특정 셀이나 범위에, 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능
- 조건 설정: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [제한 대상], [제한 방법] 지정
🔹잘못된 데이터 확인하기
: 셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [잘못된 데이터]
🔹데이터 유효성 검사로 목록 만들기:
셀이나 범위 선택 → [데이터]탭 → [데이터 유효성 검사] → [목록] → 데이터 직접 입력 또는 목록 범위 설정
📌멋진 자료 작성에 필요한 엑셀 시각화
🔹콤보형 차트: 2개 이상의 정보를 표현하는 콤보형 차트
데이터 범위 선택 → [막대형 차트]삽입 → 그래프의 막대 선택 → 마우스 오른쪽 클릭 → [계열 차트 종류 변경]
차트를 변경할 계열의 차트 변경 → 필요한 경우 [보조 축] 선택
🔹거품형 차트 (Bubble Chart): 숫자의 크기나 비율을 거품으로 나타내는 차트 거품의 위치와 거품의 크기, 거품의 색 등을 활용해 정보를 표현
🔹폭포형 차트 (Waterfall Chart) 데이터의 증가, 감소분 만큼을 막대 그래프로 표현
🔹 조건부 서식: 특정한 조건 규칙을 만족하는 데이터에만 자동으로 서식이 적용되도록 하는 기능
- 셀 값을 기준으로 모든 셀의 서식 지정: 선택한 범위의 모든 셀에 특정한 조건에 의한 조건부 서식 적용 가능
- 다음을 포함하는 셀만 서식 지정: 선택한 범위에서 특정한 조건을 만족하는 데이터에만 서식 적용
- 상위 또는 하위 값만 서식 지정: 상위 10개(%) 또는 하위 10개(%)에 해당하는 데이터에만 서식 적용
- 평균보다 크거나 작은 값만 서식 지정: 선택한 데이터의 평균보다 크거나 작은 데이터에만 서식 적용
- 고유 또는 중복 값만 서식 지정: 고유(1개만 있는)하거나 중복(2개 이상)된 데이터에만 서식 적용
- 수식을 사용하여 서식을 지정한 셀 결정: 임의의 수식의 결과가 참(TRUE)이 되게 하는 데이터에만 서식 적용
새롭게 알게 된 함수가 많아서 복습을 꼼꼼하게 해야겠다😢
'[패스트캠퍼스] 데이터 분석 부트캠프 13기' 카테고리의 다른 글
[BDA_13기] 7주차_학습일지 (0) | 2024.04.03 |
---|---|
[BDA_13기] 4주차_학습일지 (1) | 2024.03.14 |
[BDA_13기] 3주차_학습일지 (2) | 2024.03.07 |
[BDA_13기] 2주차_학습일지 (2) | 2024.02.29 |
[BDA_13기] OT_학습일지 (0) | 2024.02.19 |