Ch 01. R 데이터 분석 정리

교재 전체를 함께 달렸습니다. 복잡했던 개념도 있고, 생각보다 쉬웠던 부분도 있었을 겁니다. 이 챕터는 PART 1부터 PART 6까지 배운 핵심 함수와 개념을 한 곳에 모아두는 치트시트입니다. 실전에서 막힐 때 이 표를 먼저 펼쳐보세요.

함수	설명	예시
`filter()`	행 필터링	`filter(df, age > 20)`
`select()`	열 선택	`select(df, name, age)`
`mutate()`	열 추가/변환	`mutate(df, bmi = weight / height^2)`
`arrange()`	행 정렬	`arrange(df, desc(score))`
`summarise()`	집계	`summarise(df, mean_age = mean(age))`
`group_by()`	그룹화	`group_by(df, city)`
`rename()`	열 이름 변경	`rename(df, 나이 = age)`
`distinct()`	중복 제거	`distinct(df, city)`
`count()`	빈도 집계	`count(df, city)`
`slice_max()`	상위 N행	`slice_max(df, score, n = 5)`
`case_when()`	다중 조건 변환	`case_when(x > 80 ~ "우", x > 60 ~ "미", TRUE ~ "가")`
`across()`	여러 열 동시 변환	`mutate(across(where(is.numeric), round))`

함수	설명	예시
`pivot_longer()`	wide → long	`pivot_longer(df, cols = -id)`
`pivot_wider()`	long → wide	`pivot_wider(df, names_from = year)`
`separate()`	열 분리	`separate(df, date, c("y","m","d"), sep = "-")`
`unite()`	열 합치기	`unite(df, full_name, first, last, sep = " ")`
`drop_na()`	결측치 행 제거	`drop_na(df, score)`
`fill()`	결측치 채우기	`fill(df, value, .direction = "down")`

함수	설명	예시
`read_csv()`	CSV 읽기	`read_csv("data.csv", locale = locale(encoding = "EUC-KR"))`
`read_excel()`	Excel 읽기	`read_excel("data.xlsx", sheet = 1)`
`write_csv()`	CSV 저장	`write_csv(df, "output.csv")`
`col_types` 인자	컬럼 타입 지정	`read_csv("f.csv", col_types = cols(id = col_character()))`

함수	설명	예시
`labs()`	제목·축 레이블	`labs(title = "제목", x = "x축", y = "y축")`
`theme_minimal()`	미니멀 테마	`theme_minimal(base_family = "AppleGothic")`
`theme()`	세부 테마 조정	`theme(legend.position = "bottom")`
`facet_wrap()`	소그룹 분할 패널	`facet_wrap(~category, ncol = 2)`
`facet_grid()`	행·열 분할 패널	`facet_grid(rows ~ cols)`
`scale_x_date()`	날짜 축 포맷	`scale_x_date(date_labels = "%Y-%m")`
`scale_y_continuous()`	연속형 y축 포맷	`scale_y_continuous(labels = comma)`
`scale_fill_manual()`	색상 수동 지정	`scale_fill_manual(values = c(...))`
`coord_flip()`	x·y 축 교환	`coord_flip()`
`ggsave()`	그래프 저장	`ggsave("plot.png", width = 8, height = 5)`

작업	함수·패턴	예시
한글 인코딩 읽기	`locale(encoding = "EUC-KR")`	`read_csv("f.csv", locale = locale(encoding = "EUC-KR"))`
날짜 파싱	`ymd()`, `parse_date_time()`	`ymd("20240101")`
문자열 정제	`str_trim()`, `str_remove()`	`str_trim(df$name)`
숫자형 변환	`parse_number()`	`parse_number("1,234원")`
결측치 확인	`sum(is.na(x))`	`colSums(is.na(df))`
이상치 탐지	사분위수 규칙	`Q1 - 1.5 * IQR` ~ `Q3 + 1.5 * IQR`
R Markdown 렌더링	`rmarkdown::render()`	`rmarkdown::render("report.Rmd")`

함수 / 패키지	설명	예시
`tq_get()`	주가 데이터 수집	`tq_get("AAPL", get = "stock.prices")`
`getSymbols()`	xts 형식으로 수집	`getSymbols("AAPL", src = "yahoo")`
`tq_transmute()`	수익률 변환	`tq_transmute(select = adjusted, mutate_fun = periodReturn)`
`tq_mutate()`	기술 지표 추가	`tq_mutate(select = adjusted, mutate_fun = SMA, n = 20)`
`SMA()`	단순이동평균	`SMA(price, n = 20)`
`EMA()`	지수이동평균	`EMA(price, n = 12)`
`RSI()`	상대강도지수	`RSI(price, n = 14)`
`MACD()`	MACD 지표	`MACD(price, nFast = 12, nSlow = 26, nSig = 9)`
`rollapply()`	롤링 통계	`rollapply(x, width = 30, FUN = sd)`
`cumprod()`	누적 곱 (누적 수익률)	`cumprod(1 + daily_return) - 1`
`cor()`	상관계수 행렬	`cor(returns_wide)`
`corrplot()`	상관계수 히트맵	`corrplot(cor_matrix, method = "color")`
`patchwork` `/`	차트 세로 결합	`p1 / p2`
`patchwork` `	`	차트 가로 결합

R 4.1부터 네이티브 파이프 |>가 도입되었습니다. 이 교재는 네이티브 파이프를 사용했지만, 기존 magrittr 파이프 %>%도 동일하게 동작합니다.

연산자	패키지	특징
`	>`	R 기본 (4.1+)
`%>%`	magrittr / tidyverse	R 4.0 이하 환경에서 사용

이 치트시트를 벽에 붙여두거나 즐겨찾기에 저장해두면, 실전에서 함수 이름이 생각나지 않을 때 빠르게 찾을 수 있습니다.