PART 03. tidyverse로 데이터 다루기
데이터를 분석하기 전에 반드시 거쳐야 하는 과정이 있습니다. 원본 데이터를 분석에 알맞은 형태로 정리하는 일입니다. 실무에서는 이 과정에 전체 분석 시간의 70~80%가 소요된다고도 합니다.
tidyverse는 이 지루하고 까다로운 작업을 훨씬 쉽고 직관적으로 만들어줍니다. tidyverse는 Hadley Wickham이 설계한 R 패키지 모음으로, 데이터 과학의 전 과정을 일관된 철학 아래 처리할 수 있도록 구성되어 있습니다.
이 파트에서는 tidyverse의 핵심 도구들을 하나씩 살펴봅니다. tibble로 데이터 구조를 이해하고, readr과 readxl로 데이터를 불러오고, dplyr로 필터링·변환·집계를 수행합니다. 마지막으로 tidyr로 데이터의 형태를 자유롭게 바꾸는 방법까지 익힙니다.
각 챕터는 독립적으로 읽을 수 있지만, 순서대로 따라오면 데이터 가공의 전체 흐름이 자연스럽게 연결됩니다.
이 파트에서 다루는 내용
- Ch 01. tibble과 data.frame — tibble의 장점과 data.frame과의 차이
- Ch 02. 데이터 읽기와 쓰기 — readr, readxl로 CSV·Excel 불러오기
- Ch 03. 행 필터링과 열 선택 — filter(), select()로 원하는 데이터 추출
- Ch 04. 결측치와 이상치 처리 — is.na(), drop_na(), IQR 기반 탐지
- Ch 05. 데이터 변환 — mutate(), case_when(), across()로 파생 변수 만들기
- Ch 06. 그룹화와 요약 — group_by() %>% summarise() 패턴 완전 정복
- Ch 07. 데이터 합치기 — join과 bind로 여러 테이블 연결하기
- Ch 08. 피벗과 재구성 — pivot_longer(), pivot_wider()로 데이터 모양 바꾸기