Ch 01. 왜 R인가 — 실전 R 데이터 분석

R이라는 언어

R은 통계 분석과 데이터 시각화를 위해 태어난 프로그래밍 언어입니다. 1993년 뉴질랜드 오클랜드 대학교의 Ross Ihaka와 Robert Gentleman이 만들었으며, 두 사람의 이름 첫 글자에서 R이라는 이름이 유래했습니다.

처음에는 대학 통계학 수업에서 쓰이는 작은 도구였지만, 지금은 전 세계 연구자, 데이터 분석가, 기업이 사용하는 강력한 생태계로 성장했습니다. CRAN(Comprehensive R Archive Network)에는 2만 개 이상의 패키지가 등록되어 있으며, 의료, 금융, 사회과학, 생물정보학 등 거의 모든 분야에서 활용됩니다.

R의 강점

통계 분석의 표준 도구

R은 통계학자가 통계학자를 위해 만든 언어입니다. t-검정, ANOVA, 회귀분석 같은 기본 통계부터 베이지안 분석, 생존 분석, 혼합 모형 같은 고급 기법까지 기본 내장되어 있거나 패키지 하나로 바로 사용할 수 있습니다.

# t-검정 한 줄이면 됩니다
t.test(group_a, group_b)

시각화의 왕 ggplot2

R의 ggplot2는 "문법 기반 시각화(Grammar of Graphics)"를 구현한 패키지입니다. 데이터, 좌표, 기하 객체, 테마를 조합해서 어떤 차트든 만들 수 있습니다. 논문에 실을 수 있는 출판 품질의 그래프를 코드 몇 줄로 생성합니다.

library(ggplot2)

ggplot(data = mpg, aes(x = displ, y = hwy, color = class)) +
  geom_point(size = 3) +
  theme_minimal() +
  labs(title = "엔진 배기량과 연비", x = "배기량", y = "고속도로 연비")

tidyverse 생태계

tidyverse는 데이터 분석을 위한 R 패키지 모음입니다. dplyr(데이터 조작), tidyr(데이터 정리), readr(데이터 읽기), ggplot2(시각화) 등이 일관된 설계 철학으로 연결되어 있어서, 한 번 익히면 전체가 자연스럽게 이어집니다.

library(tidyverse)

# 데이터 읽기 → 정리 → 분석 → 시각화가 하나의 파이프라인으로
read_csv("sales.csv") %>%
  filter(year == 2026) %>%
  group_by(region) %>%
  summarise(total = sum(revenue)) %>%
  ggplot(aes(x = region, y = total)) +
  geom_col()

재현 가능한 분석

R Markdown과 Quarto를 사용하면 분석 코드, 결과, 설명을 하나의 문서로 작성할 수 있습니다. "이 분석 결과가 어떻게 나왔는가"를 누구나 재현할 수 있어서 학술 논문, 비즈니스 리포트에서 중요하게 활용됩니다.

R이 활발한 분야

분야	활용 예시
학술 연구	논문 통계 분석, 재현 가능한 연구
의료/제약	임상시험 분석, 생존 분석, FDA 제출 보고서
금융	리스크 분석, 포트폴리오 최적화, 시계열 예측
마케팅	A/B 테스트 분석, 고객 세분화
공공 정책	인구 통계 분석, 공공데이터 시각화

누구를 위한 교재인가

이 교재는 다음과 같은 분을 위해 쓰였습니다.

데이터 분석을 처음 배우는 대학생
Python pandas를 알고 있지만 R도 배우고 싶은 분
통계학 수업에서 R을 사용하게 된 분
공공데이터나 금융 데이터를 직접 분석해보고 싶은 분

프로그래밍 경험이 없어도 괜찮습니다. R 설치부터 시작하여 실전 프로젝트까지 단계적으로 안내합니다.

다른 교재에서 관련 내용 보기