IT_World

[논문리뷰] GroupFace : Learning Latent Groups and Constructing Group-based Representations for Face Recognition (잠복 그룹 학습 및 얼굴 인식을위한 그룹 기반 표현 구성) 1장 본문

Artificial intelligence, AI/REVIEW

[논문리뷰] GroupFace : Learning Latent Groups and Constructing Group-based Representations for Face Recognition (잠복 그룹 학습 및 얼굴 인식을위한 그룹 기반 표현 구성) 1장

engine 2021. 5. 17. 17:25

얼굴 인식 분야에서 모델은 더 적은 차원 임베딩 기능으로 수백만 개의 얼굴 이미지를 구별하는 방법을 배우며, 그러한 방대한 정보는 단일 분기로 기존 모델에 제대로 인코딩 되지 않을 수 있다. 임베딩 기능의 품질을 향상하기 위해 여러 그룹 인식 표현을 동시에 활용하는 GroupFace라는 새로운 얼굴 인식 전문 아키텍처를 제안한다. 제안된 방법은 추가 인간 주석 없이 각 그룹에 속하는 샘플 수의 균형을 맞추는 자체 분산 레이블을 제공하고 대상 ID의 검색 공간을 좁힐 수 있는 그룹 인식 표현을 학습한다.

광범위한 절제 연구와 시각화를 보여줌으로써 제안된 방법의 효과를 입증한다.  제안된 방법의 모든 구성 요소는 계산 복잡성이 미미하게 증가하여 종단 간 방식으로 훈련될 수 있다. 제안된 방법은 LFW, YTF, CALFW, CPLFW, CFP, AgeDB-0, MegaFace, IJB-B 및 IJB-B와 같은 공개 데이터 세트에서 1:1 얼굴 검증 및 1:N 얼굴 식별 작업을 크게 개선하여 최첨단 결과를 달성한다.

 

1. 소개

얼굴 인식은 실제 세계를 모델링하고 이해하기 위한 컴퓨터 비전의 주요 기술이다. 
많은 방법과 방대한 데이터 세트[3, 10, 16, 25, 32, 41]가 도입되었으며, 최근에는 딥 러닝[7, 9, 14, 19, 34, 35, 44]을 사용하는 방법이 얼굴 인식 정확도를 크게 향상시켰지만 여전히 기대에 미치지 못한다. 부족한 부분을 줄이기 위해, 얼굴 인식의 최근 연구는 대부분 손실 기능을 개선하는 데 초점을 맞췄다. 중심 손실 [35], CosFace [34], ArcFace [7] 및 RegularFace [44]의 스트림은 모두 클래스 내 변동을 최소화하고 클래스 간 변동을 최대화하려고 했다. 이러한 방법은 효과적이며 학습 목표를 상세히 설명함으로써 정확성을 점차 향상했다.

그림1. 제안된 방법의 개념적 체계. 제안된 방법은 브라운 수염 맨 그룹을 고려한 그룹 인식 표현을 사용하여 로버트 다우니 주니어의 인스턴스 기반 표현을 지원함으로써 임베딩 기능의 품질을 향상시킨다.

손실 함수의 개발에도 불구하고, 얼굴 인식을 위해 고안된 네트워크가 아닌 범용 네트워크는 네트워크의 효과적인 훈련을 가능하게 하여 엄청난 수의 사람 신원을 인식하는데 어려움을 겪을 수 있다.  분류와 같은 일반적인 문제와 달리, 평가 단계에서 얼굴 인식 모델은 훈련 세트에 포함되지 않은 새로운 정체성과 마주친다. 따라서, 모델은 훈련 세트에 거의 100k 개의 ID [10]를 포함시켜야 하며 알려지지 않은 수많은 ID도 고려해야 한다. 그러나 기존 방법의 대부분은 얼굴 인식 특성에 대한 설계 없이 VGG [25] 및 ResNet [12]와 같이 널리 사용되는 백본 네트워크 뒤에 완전히 연결된 여러 레이어를 부착할 뿐이다.

 

그룹화는 많은 사람들을 효율적이고 유연하게 포함시키고 알려지지 않은 사람을 간략하게 묘사하는 핵심 아이디어이다. 
사람마다 얼굴의 특징이 있고, 한 무리의 사람들 속에서 공유되는 공통점을 가지고 있다. 실상에서는 그룹 내 공통 특성을 수반하는 그룹 기반 설명(깊고 검은 눈동자와 붉은 수염을 가진 남성)이 정확한 사람을 식별할 수는 없지만 후보군을 좁히는 데 유용할 수 있다.  안타깝게도 명시적 그룹화는 거대한 데이터에 대한 수동 분류를 필요로 하며 인간 지식에 의한 유한한 설명 범위에 의해 제한될 수 있지만, 인식 네트워크는 그룹화의 개념을 채택함으로써 검색 공간을 줄이고 많은 수의 신원을 임베딩 기능에 유연하게 포함할 수 있고, 그룹 개념을 효과적으로 채택하기 위해 여러 잠재 그룹을 학습하고 그룹 인식 표현을 구성하는 GroupFace라는 새로운 얼굴 인식 아키텍처를 제안한다. 이 것은 잠재 그룹을 정의하는 데 있어 잠재 그룹은 내부적으로 얼굴 요인(예: 머리카락, 포즈, 턱수염)과 얼굴 이외의 요인(예: 소음, 배경, 조명)을 종합적으로 고려하여 결정된다. 잠재 그룹을 학습하기 위해 잠재 그룹의 전체 분포를 고려하여 그룹 레이블을 결정하는 자체 분산 그룹화 방법을 소개한다. 제안된 GroupFace는 얼굴 인식을 위해 여러 그룹 인식 표현을 원래 인스턴스 기반 표현으로 구조적으로 결합한다. 기여도를 요약하면 다음과 같다.

• GroupFace는 그룹 인식 표현을 임베딩 기능에 통합하고 기능 표현의 품질을 개선하기 위해 잘 분산된 그룹 레이블을 제공하는 새로운 얼굴 인식 전문 아키텍처이다. GroupFace는 또한 그룹 정보를 추가로 고려할 수 있는 새로운 유사성 메트릭을 제안한다.
• GroupFace의 동작에 대한 광범위한 실험 및 절제 연구에서 GroupFace의 효과를 입증한다.
• GroupFace는 기존 얼굴 인식 방법을 많이 적용하여 자원의 한계 증가에 따라 상당한 개선을 달성할 수 있다.  GroupFace의 하드 앙상블 버전은 몇 가지 추가 컨볼루션만 적응적으로 사용하여 높은 인식 정확도를 달성할 수 있다.

 

2. 관련 작품

[1, 5, 6, 28, 17, 23, 31, 38, 42]
얼굴 인식은 수십 년 동안 연구되어 왔다. 많은 연구자들은 피처 엔지니어링을 사용한 머신 러닝 기법을 제안했다.

최근 딥 러닝 방법은 공개 얼굴 인식 데이터 세트[3, 10, 16, 25, 32, 41]를 통해 기존의 얼굴 인식 접근 방식의 한계를 극복했다. 
DeepFace [30]은 3D 얼굴 정면화를 사용하여 딥 러닝을 사용하는 얼굴 인식 방법의 획기적인 발전을 이루었다.
FaceNet [26]은 앵커와 그 음의 샘플 사이의 거리를 최대화하고 동일한 앵커와 양성 샘플 간의 거리를 최소화하기 위해 삼중수소의 손실을 제안했다.  CenterLoss [35] 표본과 해당 클래스 중심 사이의 거리를 최소화하기 위해 중심 손실을 제안했다. MarginalLoss [8]은 클래스 내 변동을 최소화하고 클래스 간 거리를 여백으로 유지하기 위해 여백 개념을 채택했다.  RangeLoss [43]은 교육 단계에서 긴 꼬리 데이터를 사용했다. RingLoss [47]은 형상의 크기를 특정 숫자로 제한했다. 
NormFace [33]은 특징과 완전히 연결된 레이어 가중치를 정규화하기 위해 제안되었다. 정규화 후 검증 정확도가 향상되었다. 
SphereFace [19]는 곱셈 각도 여유를 갖는 각도 소프트맥스(A-Softmax) 손실을 제안했다. 
A-Softmax를 기반으로 CosFace [34]는 첨가 코사인 마진을 제안하고 ArcFace [7]는 첨가 각도 마진을 적용한다. 
Regular Face [44]와 Uniform Face [9]의 저자들은 각 마진을 사용하는 접근법[7, 19, 34]이 클래스 내 콤팩트 성에만 집중된 후 클래스 간 변동을 증가시키기 위해 새로운 손실을 제안했다고 주장했다. 일반적으로 이러한 이전 방법은 기존의 특징 표현으로 얼굴 인식 정확도를 향상하기 위해 손실 기능을 개선하는 방법에 초점을 맞췄다. 몇 개의 레이어를 추가하거나 채널의 수를 늘리는 것과 같은 약간의 변화는 일반적으로 눈에 띄는 개선을 가져오지 않았다.  그러나 GroupFace는 기능 표현의 품질을 개선하고 몇 개의 레이어를 병렬로 추가함으로써 상당한 개선을 달성한다. k-평균과 같은 그룹화 또는 클러스터링 방법은 명시적 클래스 레이블이 없는 코사인 유사성 또는 유클리드 거리와 같은 상대 지표를 고려하여 내부적으로 샘플을 분류한다.  일반적으로 이러한 클러스터링 방법은 대부분의 이미지를 하나 또는 몇 개의 클러스터에 할당하는 것을 방지하여 잘 구분된 범주를 구성하려고 시도한다. 
최근에는 딥 러닝[4, 24, 40]을 사용한 몇 가지 방법이 도입되었다.  그러나 이러한 방법은 딥 러닝에서와 같은 미니 패치가 아니라 이전 방법과 마찬가지로 전체 배치를 사용한다. 따라서 이러한 방법은 애플리케이션 프레임워크에 깊고 종단 간 통합이 쉽지 않다. 
잠재 그룹을 효율적으로 학습하기 위해,  기대 정규화된 확률을 심층적으로 고려하는 자기 분산 그룹화 방법을 도입한다.

그림2. GroupFace는 4096 차원의 공유 기능을 생성하고 주어진 샘플 x에 대한 그룹 인식 표현 E를 위해 인스턴스 기반 표현 A 및 K 완전 연결 계층을 배포한다. 자체 분산 레이블링에 의해 감독되는 그룹 결정 네트워크는 인스턴스 기반 표현에서 그룹 확률 집합 {p(B),p(C),...,p(D)}을 출력한다. 512 차원에 대한 최종 표현은 인스턴스 기반 표현과 그룹 확률에 대한 그룹 인식 표현의 가중 합계 E의 집합이다. W는 함수 g의 무게이다.

3. 제안된 방법
GroupFace는 자체 분산 그룹화 방법을 사용하여 잠재 그룹을 학습하고, 여러 그룹 인식 표현을 구성하고, 얼굴 인식을 위한 기능 표현을 풍부하게 하기 위해 이들을 표준 인스턴스 기반 표현으로 결합한다.
3.1. GroupFace
잠재 그룹의 체계가 GroupFace의 임베딩 기능에 어떻게 효과적으로 통합되는지 논의한다.
인스턴스 기반 표현이며, 인스턴스 기반 표현으로서 기존의 얼굴 인식 체계에서 특징 벡터를 [7, 34, 35, 44]라고 부를 것이다(그림 2). 인스턴스 기반 표현은 일반적으로 소프트맥스 기반 손실(예: CosFace [34] 및 ArcFace [7])을 사용하여 임베딩 기능으로 훈련되며 다음과 같은 아이덴티티를 예측하는 데 사용된다.

predict an identity as:

여기서 Yi는 ID 레이블이고, A는 주어진 샘플 x의 인스턴스 기반 표현이며, g는 512차원의 임베딩 기능을 M차원 공간에 투영하는 함수이다. M은 개인 ID 수이다.

 

그룹 인식 표현(Instance-based Representation). GroupFace는 인스턴스 기반 표현뿐만 아니라 새로운 그룹 인식 표현을 사용하여 임베딩 기능을 풍부하게 한다. 각 그룹 인식 표현 벡터는 각 해당 그룹에 대해 완전히 연결된 계층을 배포하여 추출한다. GroupFace의 임베딩 기능(G, 그림 2의 최종 표현)은 인스턴스 기반 표현 A와 가중치 요약 그룹 인식 표현 E를 집계하여 얻는다. GroupFace는 다음과 같이 농축된 최종 표현 G를 사용하여 ID를 예측한다.

여러 group-aware 표현 방법의 그룹 가능성과 E 이다.


구조체(Structure). GroupFace 계산하고, 동시에 instance-based 표현 및 group-aware 표현을 사용한다. 
그 instance-based 표현은 재래식 얼굴 인식 방법에 [7일 34,35,44], Kgroup-aware 표현은 fullyconnected 계층을 구축 하면 사용되는 동일한 절차에 의해 얻어진 것이다. 이후, 이 그룹 가능성은 instance-based 표현 벡터에서 열린 그룹 의사 결정 네트워크(GDN)세 가지 fully-connected 층과 softmax 계층으로 구축하여 계산된다. 그룹 가능성을 이용해서, 여러 group-aware 부드러운 태도(S-GroupFace)또는 힘든 태도(H-GroupFace)에 sub-ensembled 있다.

(3) S-GroupFace 무게 집단의 해당 확률로 뒤덮였고, 정의된다:여러 group-aware 표현을 집결 시킨다. (4) H-GroupFace는 해당 그룹 확률에 대한 그룹 인식 표현 중 하나를 선택하며, 가장 높은 값을 가지며 다음과 같이 정의된다.

S-GroupFace는 추가 리소스에 대한 한계 요구사항으로 인식 정확도를 크게 향상하며, H-GroupFace는 몇 가지 추가 컨볼루션 비용을 들여 S-GroupFace보다 실제 애플리케이션에 더 적합하다. 최종 표현 G는 인스턴스 기반 표현과 하위 앙상블 그룹 인식 표현을 모두 집계함으로써 강화된다.

그룹 인식 유사성(Group-aware Similarity). 추론 단계에서 GDN의 표준 임베딩 기능과 중간 기능을 모두 고려한 새로운 유사성인 그룹 인식 유사성을 소개한다. 그룹 인식 유사성은 중간 특징이 코사인 공간에서 훈련되지 않고 주어진 샘플의 그룹 아이덴티티가 아닌 주어진 샘플의 그룹 아이덴티티만 설명하기 때문에 주어진 샘플의 명시적 ID는 설명하지 않는다.

 

3.2. 자가 분산 그룹화 (Self-distributed Grouping)
본 연구에서는 얼굴 인식에 사용되는 일반적인 시각적 또는 비시각적 특징을 공유하는 샘플 집합으로 그룹을 정의한다. 그러한 그룹은 배포된 GDN에 의해 결정된다. GDN은 명시적 실제 정보 없이 잠재 그룹의 분포를 고려하여 그룹 레이블을 제공하는 자체 그룹화 방식으로 점차 훈련된다. 단순한 라벨링. 그룹 레이블을 결정하는 간단한 방법은 소프트맥스 출력의 최대 활성화가 있는 인덱스를 취하는 것이며, MLP를 배포하고 소프트맥스 함수를 첨부하여 주어진 샘플 x에 대한 소속 그룹 G*를 결정하기 위한 GDN f를 구축한다.

 

자체 분산 레이블링(Self-distributed Labeling). 이전 확률로 조절된 수정된 확률을 활용하여 균일하게 분포된 그룹 레이블을 심층적으로 생성하는 효율적인 레이블링 방법을 소개한다. 우리는 K 그룹 간의 표본 수의 균형을 맞추기 위해 기대 정규화된 확률 p² 를 정의한다.

그림3. 자체 분산 레이블링의 개념적 체계. GDN을 통해 4개 그룹에 대한 5개 샘플의 그룹 확률을 얻었을 때, 기대 정규화 확률은 그룹 확률에서 그룹 확률의 해당 기대를 빼서 계산한다. 최대 확률의 그룹 식별자는 주어진 표본의 레이블로 선택되며 기대치를 고려하여 레이블의 분포를 보다 균일하게 만든다.

훈련된 GDN은 샘플이 잠재 그룹에 속하는 정도를 나타내는 그룹 확률 집합을 추정한다. 샘플 수가 무한대에 가까워질 때, 제안된 방법은 균일하게 분포된 레이블을 안정적으로 출력한다.

 

3.3. Learning
GroupFace의 네트워크는 신원을 구별하기 위한 소프트맥스 기반 손실인 표준 분류 손실과 잠재 그룹을 훈련시키기 위한 소프트맥스 손실인 셀프 그룹화 손실에 의해 동시에 훈련된다.  

Loss Function. 소프트맥스 기반 손실 L1(ArcFace [7]은 주로 본 연구에서 사용됨)은 ID에 대한 형상 표현을 훈련하는 데 사용된다.

훈련. 전체 네트워크는 다음의 두 가지 손실 합계를 사용하여 훈련된다.

여기서 매개변수 β는 다른 손실의 가중치를 균형 있게 하고 경험적으로 0.1로 설정된다. 따라서 GDN은 얼굴 인식에 유익한 속성인 그룹을 학습할 수 있다.

참조 : 

https://arxiv.org/pdf/2005.10497.pdf

 

Comments