이 책의 제목에는 "인식"과 "감정 분석"이 들어 있지만, 실제로 우리가 다루는 기술은 세 가지입니다. 얼굴 검출, 얼굴 인식, 그리고 감정·속성 인식입니다. 이 셋은 자주 한 묶음으로 불리지만 입력과 출력이 분명히 다릅니다. 이 장에서 그 차이를 확실히 구분해 두면, 앞으로 어떤 라이브러리를 어디에 써야 하는지가 훨씬 또렷해집니다.
세 가지 기술을 한 문장으로
- 얼굴 검출(face detection)은 "사진 어디에 얼굴이 있는가"에 답합니다. 출력은 얼굴을 둘러싼 사각형의 좌표입니다.
- 얼굴 인식(face recognition)은 "이 얼굴이 누구인가"에 답합니다. 출력은 사람의 이름 또는 신원 ID입니다.
- 감정·속성 인식(emotion and attribute)은 "이 얼굴이 어떤 상태인가"에 답합니다. 출력은 표정(기쁨, 슬픔 등)이나 나이, 성별 같은 속성입니다.
비유하자면 검출은 "여기 사람이 있다"라고 손가락으로 가리키는 것이고, 인식은 "저 사람은 홍길동이다"라고 이름을 부르는 것이며, 감정 인식은 "그가 지금 웃고 있다"라고 표정을 읽는 것입니다.
왜 순서가 중요한가
이 세 기술은 보통 정해진 순서로 이어집니다. 인식을 하려면 먼저 얼굴을 찾아야 하고, 표정을 읽으려 해도 마찬가지입니다. 그래서 실제 시스템은 다음과 같은 파이프라인 형태가 됩니다.
또는 영상 프레임] --> B[얼굴 검출
위치 찾기] B --> C[랜드마크와 정렬
눈·코·입 기준 맞추기] C --> D[얼굴 인식
누구인지 판별] C --> E[감정·속성 인식
표정 읽기] D --> F[결과 활용
출입 허용, 출석 기록 등] E --> F
가운데에 있는 "랜드마크와 정렬"은 이 책에서 따로 한 PART를 할애하는 중요한 중간 단계입니다. 얼굴이 기울어져 있거나 옆을 보고 있으면 인식 정확도가 크게 떨어지는데, 눈과 코의 위치를 기준으로 얼굴을 똑바로 세워 주면 정확도가 올라가기 때문입니다. 자세한 내용은 [PART 03. 얼굴 랜드마크와 정렬]에서 다룹니다.
입력과 출력으로 정리하기
| 기술 | 입력 | 출력 | 이 책의 위치 |
|---|---|---|---|
| 얼굴 검출 | 이미지/프레임 | 얼굴 사각형 좌표, 신뢰도 | PART 02 |
| 랜드마크·정렬 | 얼굴 영역 | 눈·코·입 좌표, 정렬된 얼굴 | PART 03 |
| 얼굴 인식 | 정렬된 얼굴 | 신원(이름/ID) | PART 04~07 |
| 감정·속성 | 정렬된 얼굴 | 표정, 나이, 성별 | PART 08 |
| 위조 방지 | 얼굴 영역/프레임 | 진짜/가짜 판정 | PART 09 |
실무 팁. 처음 프로젝트를 설계할 때 "우리에게 정말 필요한 단계가 무엇인가"를 먼저 따져 보세요. 단순히 사람 수만 세면 검출만으로 충분하고, 출입 통제라면 검출과 인식에 더해 위조 방지(PART 09)가 반드시 필요합니다. 필요 없는 단계를 빼면 속도와 비용이 크게 줄어듭니다.
이 장에서 기억할 것
검출, 인식, 감정은 서로 다른 질문에 답하는 별개의 기술이지만, 대개 검출에서 시작해 정렬을 거쳐 인식과 감정으로 갈라지는 하나의 파이프라인으로 이어집니다. 이 큰 그림을 머릿속에 넣어 두면, 다음 장에서 살펴볼 수많은 라이브러리가 각각 이 파이프라인의 어느 칸을 담당하는지 자연스럽게 정리됩니다.