통계와 R의 관계
R은 통계학자가 만든 언어입니다. 다른 프로그래밍 언어는 통계 기능을 "추가"하지만, R은 통계 분석이 언어의 핵심에 내장되어 있습니다. 별도 라이브러리를 설치하지 않아도 t-검정, 분산분석, 회귀분석을 바로 실행할 수 있습니다.
# 패키지 설치 없이 바로 실행 가능한 통계 분석
t.test(sleep$extra ~ sleep$group)
R vs SPSS vs SAS
| 항목 | R | SPSS | SAS |
|---|---|---|---|
| 비용 | 무료 (오픈소스) | 유료 (연간 수백만 원) | 유료 (연간 수천만 원) |
| 재현성 | 코드 기반 → 완전 재현 | 클릭 기반 → 재현 어려움 | 코드 기반 → 재현 가능 |
| 시각화 | ggplot2 (출판 품질) | 제한적 | 제한적 |
| 최신 기법 | 커뮤니티가 빠르게 구현 | 업데이트 느림 | 업데이트 느림 |
| 학습 곡선 | 프로그래밍 필요 | 낮음 (GUI) | 중간 |
| 학술 논문 | 채택 증가 | 여전히 많음 | 감소 추세 |
SPSS는 클릭으로 분석할 수 있어 배우기 쉽지만, 분석 과정을 코드로 기록하지 않기 때문에 "같은 분석을 다시 하라"고 하면 처음부터 클릭을 반복해야 합니다. R은 코드를 한 번 작성하면 언제든 동일한 결과를 재현할 수 있습니다.
이 교재의 학습 방법
모든 통계 개념은 다음 4단계로 학습합니다.
- 개념 이해 — 이 통계 기법이 무엇이고 언제 쓰는지 설명합니다.
- 수식과 원리 — 핵심 공식을 간단히 살펴봅니다. (수학이 어려우면 건너뛰어도 됩니다.)
- R 코드 실행 — 실제 데이터로 R 코드를 실행합니다.
- 결과 해석 — 출력 결과를 읽고 의미를 해석합니다.
선수 지식
이 교재는 R 기초 문법을 알고 있다고 가정합니다. "실전 R 데이터 분석(1권)"을 먼저 학습하거나, 다음 내용을 알고 있으면 바로 시작할 수 있습니다.
- 변수 할당 (
<-), 벡터 (c()), 데이터프레임 - 파이프 연산자 (
%>%또는|>) - tidyverse 기본 (filter, mutate, summarise)
- ggplot2 기본 (geom_point, geom_bar)
PART 01에서 R 기초를 빠르게 복습하므로, 약간 부족하더라도 시작할 수 있습니다.