얼굴 인식은 모두에게 똑같이 정확하지 않습니다. 인종·성별·나이에 따라 정확도가 달라진다는 것이 여러 대규모 연구에서 거듭 확인되었습니다. 이 격차를 모른 채 시스템을 배포하면, 특정 집단이 부당하게 더 자주 거부되거나 오인됩니다. 이 장은 그 편향을 점검하고 줄이는 방법을 다룹니다.
편향은 실재한다
미국 표준기술연구소(NIST)의 대규모 얼굴 인식 평가를 비롯한 여러 연구는, 많은 인식 시스템이 집단에 따라 다른 오류율을 보인다고 보고했습니다. 일반적으로 학습 데이터가 적었던 집단(특정 인종·여성·고령자·어린이 등)에서 오류가 더 잦은 경향이 나타납니다.
원인은 대부분 데이터입니다. 모델은 학습 때 많이 본 얼굴을 잘 인식합니다. 학습 데이터가 특정 집단에 치우쳐 있으면, 적게 본 집단에서 정확도가 떨어집니다. 알고리즘이 악의를 가진 게 아니라, 데이터의 불균형이 그대로 성능 격차로 나타나는 것입니다.
격차를 측정하는 법
편향은 "전체 정확도" 하나로는 보이지 않습니다. 전체가 99%여도 특정 집단에서만 90%일 수 있습니다. 그래서 1장의 FAR/FRR을 집단별로 따로 측정해야 합니다.
# 파일: fairness_audit.py"""그룹별로 FAR/FRR을 따로 측정해 격차를 본다."""import numpy as npdef far_frr(same, diff, thr): frr = np.mean(np.array(same) >= thr) far = np.mean(np.array(diff) < thr) return far, frr# groups: {"그룹명": (같은쌍 거리들, 다른쌍 거리들)}THR = 0.6for name, (same, diff) in groups.items(): far, frr = far_frr(same, diff, THR) print(f"{name:10s} FAR {far:.3f} FRR {frr:.3f}")
같은 임계값에서 그룹마다 FAR·FRR을 따로 내 보면, 어떤 집단이 더 자주 거부되거나(높은 FRR) 더 자주 잘못 수용되는지(높은 FAR) 드러납니다. 그룹 간 이 수치가 크게 벌어지면 편향이 있는 것입니다. 측정하지 않으면 편향은 보이지 않은 채 사용자에게 피해를 줍니다.
격차를 줄이는 방법과 한계
| 방법 | 내용 | 주의 |
|---|---|---|
| 데이터 보강 | 부족했던 집단의 얼굴을 더 학습 | 가장 근본적, 동의·출처 중요 |
| 모델 선택 | 편향이 덜한 모델로 교체 | 공개 평가(NIST 등) 참고 |
| 그룹별 임계값 | 집단마다 다른 임계값 | 신중·논쟁적(아래) |
| 적용 범위 제한 | 격차 큰 환경엔 배포 안 함 | 가장 안전한 선택일 때도 |
그룹별로 다른 임계값을 쓰는 것은 격차를 수치상 줄일 수 있지만 논쟁적입니다. 사람을 집단으로 나눠 다르게 대하는 것 자체가 또 다른 공정성 문제를 일으킬 수 있고, 집단 분류 자체가 부정확하거나 차별적일 수 있기 때문입니다. 신중히, 전문가·이해관계자와 함께 판단해야 합니다.
가장 정직한 결론
때로는 "이 시스템을 이 용도에 쓰지 않는다"가 가장 공정한 선택입니다. 편향을 충분히 줄일 수 없는데 그 결과가 사람의 권리(출입·채용·수사)에 영향을 준다면, 배포하지 않거나 사람의 최종 판단을 반드시 끼우는 것이 옳습니다. PART 08에서 감정 인식에 대해 말한 "틀리면 누가 다치는가"가 여기서도 기준입니다.
실무 팁. 편향 점검을 "한 번 하고 끝"으로 두지 마세요. 운영 중 사용자 구성이 바뀌거나 모델을 업데이트하면 격차가 달라질 수 있습니다. 주기적으로 그룹별 지표를 다시 측정하고, 특정 집단의 불만·오류 신고를 편향의 신호로 받아들여 점검 트리거로 삼으세요. 그리고 점검에 쓰는 데이터 역시 동의를 받아 수집해야 합니다. 편향을 잡겠다고 또 다른 프라이버시 침해를 해서는 안 됩니다.
이 장에서 기억할 것
얼굴 인식의 정확도는 인종·성별·나이에 따라 달라지며, 주된 원인은 학습 데이터의 불균형입니다. 전체 정확도로는 안 보이므로 1장의 FAR/FRR을 그룹별로 따로 측정해 격차를 드러내야 합니다. 데이터 보강·모델 교체로 줄이되 그룹별 임계값은 신중히 다루고, 충분히 줄일 수 없고 권리에 영향을 준다면 쓰지 않는 것이 가장 공정할 수 있습니다. 편향 점검은 주기적으로 반복합니다. 다음 장에서는 이 모든 것을 아우르는 프라이버시와 법·윤리를 다룹니다.