컴퓨터 비전이 아마존 고객들의 온라인 쇼핑에 어떻게 도움이 될것인가?

CVPR(Conference on Computer Vision and Pattern Recognition)에 관한 3개 논문은 제품 발견을 개선하기 위한 보완 방법을 제시한다.

컴퓨터 비전 및 패턴 인식에 관한 IEEE 콘퍼런스(CVPR)는 컴퓨터 비전 분야의 최고 회의로, 올해 아마존이 채택한 논문은 신경구조 검색부터 인간 노출 추적, 수기 텍스트 생성에 이르기까지 다양한 주제에 걸쳐 있다.

그러나 소매 판매는 여전히 아마존이 하는 일의 핵심이며, 10개의 CVPR 논문 중 3개는 컴퓨터 비전이 고객들이 옷을 사는 데 도움을 줄 수 있는 방법을 보고하고 있다.

한 논문은 고객이 제품 이미지에 변화를 설명함으로써 제품 쿼리를 날카롭게 할 수 있는 시스템을 설명하고 있다. 예를 들어, 고객은 “나는 그것이 가벼운 꽃무늬를 갖기를 원한다”고 타이핑하거나 말함으로써 이미지를 바꿀 수 있다.

두 번째 논문은 색상, 스타일, 텍스처 등의 특징을 바탕으로 고객이 이미 선택한 항목을 보완할 수 있는 아이템을 제안하는 시스템을 리포트하고 있다.

세 번째 논문은 서로 다른 제품 페이지의 옷을 입은 모델의 이미지를 합성해 앙상블으로서 어떻게 함께 작동 할지를 보여주는 시스템에 관해 리포트 하고있다. 세 시스템 모두 신경망을 사용한다.

쿼리 이미지(왼쪽)는 다른 제품 페이지의 이미지와 결합되어 합성 후 새로운 이미지(오른쪽)를 생성한다.

시각언어학 제품 발견

텍스트를 사용하여 제품 쿼리와 일치하는 이미지를 구체화하는 것은 세 가지 주요 과제를 내포한다. 첫 번째는 텍스트 설명과 이미지 특징을 하나의 표현으로 융합하는 방법을 찾는 것이다. 두 번째는 다양한 수준의 해상도로 융합을 수행하는 것이다: 고객은 “좀 더 격식을 갖춘” 것과 같은 추상적 또는 “목 스타일 변경”만큼 정확한 말을 할 수 있어야 한다. 그리고 세 번째는 다른 것을 바꾸라는 고객의 지시를 따르는 동시에 일부 이미지 기능을 보존하도록 네트워크를 교육하는 것이다.

아마존에서 인턴으로 일했던 런던 퀸 메리 대학 대학원생 옌베이 첸, 시각 연산 공 샤오강 공 교수, 아마존의 수석 컴퓨터 비전 과학자인 로리스 바자니는 소스 이미지, 텍스트 수정기호, 그리고 수정기호와 일치하는 표적 이미지 이 세 개의 입력에 대해 훈련된 신경망으로 이러한 과제를 해결한다.

언어와 시각적 표현의 각각의 융합은 두 가지 요소를 가진 신경망에 의해 수행된다. 한 구성 요소는 공동 주의 메커니즘을 사용하여 소스 영상과 대상 영상에서 동일해야 하는 시각적 특징을 식별한다.다른 하나는 변경해야하는 기능을 식별하기 위해 자기주의를 사용하는 변압기 네트워크이다.

테스트에서 연구원들은 새로운 시스템이 최고 성능의 이전 시스템보다 58 % 더 자주 텍스트 수정에 유효한 일치 항목을 찾을 수 있음을 발견했다. ]

보완 항목 검색

과거 연구자들은 의상 아이템을 입력으로 받아 호환성을 예측하는 시스템을 개발했지만 대규모 데이터 검색에는 최적화되지 않았다.

아마존의 과학자인 옌량린과 그의 동료들은 규모에 맞는 제품 발견이 가능한 시스템을 원했고, 그들은 그것이 여러 입력을 취하기를 원했다. 예를 들어 고객이 셔츠, 바지, 재킷을 선택하고 신발에 대한 추천을 받을 있도록 하기를 원했다.

그들이 고안한 네트워크는 셔츠, 바지 또는 재킷과 같은 각각의 범주를 나타내는 벡터와 함께 의류 이미지를 입력하는 것으로 간주된다. 고객이 찾는 항목의 카테고리 벡터도 가져간다.

그 이미지들은 각각의 벡터 표현을 생성하는 경련 신경망을 통과한다. 그리고 나서 각 표현은 어떤 표현 특징을 약화시키고 다른 표현 특징을 증폭시키는 일련의 “마스크”를 통과한다.

마스크는 교육 중에 학습되며, 결과 표현은 보완 항목의 부분 집합에만 관련된 제품 정보(색상 및 스타일 등)를 암호화한다. 즉, 마스킹에서 비롯되는 표현들 중 일부는 신발, 다른 것들은 핸드백, 다른 것들은 모자 등과 관련이 있을 것이다.

보완 항목 검색에 사용되는 신경 네트워크의 아키텍처. 입력 항목과 대상 항목의 제품 범주를 나타내는 벡터로부터, 네트워크는 보완 항목을 선택할 때 어떤 입력 항목 특징이 우선되어야 하는지를 나타내는 가중치 집합(w1~wk)을 생산한다.

병렬로, 다른 네트워크는 각 입력 이미지의 범주와 대상 항목의 범주를 입력으로 가져간다. 그것의 출력은 하위 공간 표현에 우선순위를 매기기 위한 가중치 집합이다.

네트워크는 전체 의상에 적용되는 평가 기준을 사용하여 훈련된다. 각각의 훈련 예에는 의상, 그 의상과 잘 어울리는 아이템, 그리고 그렇지 않은 아이템들이 포함된다.

가상 시착 네트워크

앞서 연구진은 서로 다른 시각에서 촬영한 동일한 의복을 특징으로 하는 훈련 데이터를 활용해 서로 다른 출처의 옷을 입은 인물의 이미지를 합성하는 머신러닝 시스템을 교육한 바 있다. 그러나 그러한 종류의 데이터는 생산하기에 극도로 노동 집약적이다.

선임 응용 과학자인 아사프 뉴버거와 아마존의 Lab126의 그의 동료들은 대신 생성적 적대적 네트워크, 즉 GANs를 사용하여 단일 영상에서 훈련될 수 있는 시스템을 구축했다. GAN은, 훈련 중에 네트워크로 생성된 영상과 실제 영상을 구별하는 것을 배우는 판별기로 알려진 구성요소를 가지고 있다. 동시에 발전기는 판별자를 속이는 법을 배운다.

그 연구자들의 시스템은 세 가지 요소를 가지고 있다. 첫 번째는 형태 생성 네트워크로, 입력은 쿼리 이미지로서 최종 이미지의 템플릿 역할을 할 것이며, 조회 이미지로부터 모델로 옮겨질 옷을 묘사하는 참조 이미지 수는 얼마든지 가능하다.

아마존 연구자들의 ‘가상 트라이온 네트워크’는 3단계 공정을 통해 서로 다른 출처의 옷을 입은 모델의 이미지를 합성한다.

사전 처리에서, 확립된 기법은 모든 입력 영상을 분할하고 자세와 체형을 나타내는 쿼리 피쳐의 신체 모델을 계산한다. 최종 영상에 포함하기 위해 선택한 세그먼트는 형상 생성 네트워크에 전달되며, 이 세그먼트는 형상 생성 네트워크와 이를 결합하고 쿼리 이미지의 형상 표현을 업데이트한다. 그 형태 표현은 외형 생성 네트워크라고 불리는 두 번째 네트워크로 전달된다.

외관 생성 네트워크의 구조는 형태보다는 질감과 색에 관한 정보를 인코딩한다는 점만 빼면 형태 생성 네트워크의 구조와 많이 비슷하다. 그것이 만들어내는 표현은 형태 표현과 결합되어 기준 의류를 착용한 질의 모델의 사실적 시각화를 만든다.

네트워크의 세 번째 구성요소는 모델의 실루엣을 훼손하지 않고 로고나 독특한 패턴 등의 특징을 보존하기 위해 외관 생성 네트워크의 매개변수를 미세 조정한다.

새 시스템의 출력은 이전 시스템의 출력보다 더 자연스러워 보인다. 아래 그림에서 첫 번째 열은 조회 영상, 두 번째 기준 영상, 세 번째 최고 성능의 이전 시스템의 출력, 네 번째와 다섯 번째 열은 각각 외관 정교함이 없는 새로운 시스템의 출력이다.

#ALOOH, #SmartCity, #IoT, #IIoT, #DeepLearning, #MachineLearning, #AI

왼쪽에서 오른쪽으로: 조회 샘플, 참조 샘플, 이전 시스템의 출력, 그리고 외관 개선 네트워크 없이 새로운 시스템의 출력.

출처 : https://www.amazon.science/blog/how-computer-vision-will-help-amazon-customers-shop-online

Leave a Reply