>> HLK 자연과학 >  >> 생물학

우리가 모양을 보는 곳에서 AI는 질감을 본다


고양이의 사진을 볼 때, 당신은 그것이 생강이든 줄무늬이든, 또는 이미지가 검은 색과 흰색, 얼룩덜룩하거나, 마모 또는 사라지는지를 알 수 있습니다. 애완 동물이 베개 뒤에 웅크 리거나 움직임이 흐려지면서 조리대 위로 뛰어 들면 애완 동물을 발견 할 수 있습니다. 거의 모든 상황에서 고양이를 식별하는 법을 자연스럽게 배웠습니다. 대조적으로, 깊은 신경망으로 구동되는 기계 비전 시스템은 때때로 고정 된 조건에서 고양이를 인식하는 데 인간을 능가 할 수 있지만, 작은 소설, 시끄럽거나 거친 이미지는 해당 시스템을 완전히 버릴 수 있습니다.

.

독일의 연구팀은 이제 예상치 못한 이유를 발견했습니다. 인간이 사진 객체의 모양에주의를 기울이지 만 딥 러닝 컴퓨터 비전 알고리즘은 일상적으로 물체의 질감에 걸리게됩니다.

.

5 월의 학습에 관한 국제 컨퍼런스에서 발표 된이 발견은 인간과 기계가 어떻게“생각”하는지 사이의 날카로운 대조를 강조하고, 우리의 직관이 오해의 소지가 어떻게 인공 지능을 똑딱 거리는지를 보여줍니다. 또한 우리 자신의 비전이 왜 그렇게 진화했는지에 대해 힌트를 줄 수 있습니다.

코끼리 피부를 가진 고양이와 시계로 만든 비행기

딥 러닝 알고리즘은 고양이를 포함하거나 포함하지 않는 수천 개의 이미지를 가진 신경망을 제시함으로써 작동합니다. 이 시스템은 해당 데이터의 패턴을 찾은 다음 이전에 본 적이없는 이미지에 가장 적합한 방법을 결정하는 데 사용합니다. 네트워크의 아키텍처는 연결된 레이어가 이미지에서 점점 더 추상적 인 기능을 추출 할 수 있다는 점에서 인간의 시각 시스템의 아키텍처에 대해 느슨하게 모델링됩니다. 그러나이 시스템은 인간이 사실 이후에만 해석 할 수있는 블랙 박스 프로세스를 통해 정답으로 이어지는 연관성을 만듭니다. "우리는 이러한 딥 러닝 컴퓨터 비전 알고리즘의 성공으로 이어지는 이유와 그들의 브랜드로 이어지는 이유를 알아 내려고 노력했습니다."

그렇게하기 위해 일부 연구자들은 이미지를 수정하여 네트워크를 속일 때 어떤 일이 발생하는지 살펴 보는 것을 선호합니다. 그들은 매우 작은 변화로 인해 시스템이 이미지의 객체를 완전히 잘못 표시 할 수 있다는 것을 발견했습니다. 그리고 큰 변화가 때때로 시스템이 레이블을 전혀 수정하지 못하게 할 수 있음을 발견했습니다. 한편, 다른 전문가들은 네트워크를 통해 역행하여 개별“뉴런”이 이미지에서 반응하는 내용을 분석하여 시스템이 배운 기능의“활성화 아틀라스”를 생성했습니다.

.

그러나 독일 튜빙 겐 대학교 (University of Tübingen)의 전산적 신경 과학자 인 마티아스 베르지 (Matthias Bethge)와 심리 생리 학자 펠릭스 위 만 (Felix Wichmann)의 실험실에있는 과학자 그룹이보다 질적으로 접근했다. 작년 에이 팀은 특정 종류의 소음으로 저하 된 이미지에 대한 신경망을 훈련 시켰을 때 동일한 유형의 왜곡을받은 새로운 이미지를 분류 할 때 인간보다 더 나았다 고보고했습니다. 그러나 그 이미지는 약간 다른 방식으로 변경 될 때 새로운 왜곡이 오래된 것과 실제로 동일하게 보였지만 네트워크를 완전히 속였다.

.

그 결과를 설명하기 위해 연구원들은 작은 수준의 소음으로 인해 품질이 가장 많이 변하는 것에 대해 생각했습니다. 질감은 명백한 선택처럼 보였다. Bethge 's와 Wichmann의 실험실의 대학원생이자 연구의 주요 저자 인 Robert Geirhos는“대상의 모양은 오랫동안 많은 소음을 더하면 손상되지 않습니다. 그러나 "이미지의 로컬 구조 - 약간의 소음을 추가 할 때 매우 빠르게 왜곡됩니다." 그래서 그들은 인간과 딥 러닝 시스템이 이미지를 처리하는 방법을 테스트하는 영리한 방법을 생각해 냈습니다.

Geirhos, Bethge 및 동료들은 하나의 물체에서 가져온 모양과 다른 물체의 질감으로 두 개의 충돌하는 큐를 포함하는 이미지를 만들었습니다. 예를 들어 코끼리 피부의 금이 간 회색 질감, 또는 알루미늄 캔으로 만든 곰 또는 겹치는 시계로 채워진 곰이 곰팡이가 가득한 곰. 수백 가지의 이미지를 제시 한 인간은 예상대로 거의 매번 고양이, 곰, 비행기 등의 모양을 기반으로 표시했습니다. 그러나 네 가지 분류 알고리즘은 다른 방식으로 몸을 기울여서 물체의 질감을 반영한 라벨을 뱉어 내고 코끼리, 캔, 시계.

컬럼비아 대학교 (Columbia University)의 전산적 신경 과학자 인 Nikolaus Kriegeskorte는“이것은 상자 밖에서 얼마나 깊은 사료 포워드 신경 네트워크 (상자 밖에서 훈련을받는 방식)에 대한 이해를 바꾸고 있습니다.

인공 지능의 모양보다 질감에 대한 선호도가 처음에는 보일 수 있습니다. Kriegeskorte는“질감을 미세한 규모로 생각할 수 있습니다. 텍스처 정보를 가진 픽셀의 수는 물체의 경계를 구성하는 픽셀의 수를 훨씬 초과하고 네트워크의 첫 단계는 선 및 가장자리와 같은 로컬 기능을 감지하는 것과 관련이 있습니다. 토론토의 요크 대학교 (York University)의 전산 비전 과학자 인 존 테 소스 (John Tsotsos)는“질감이 바로 그게 텍스처입니다. “예를 들어 모든 것이 같은 방식으로 일치하는 라인 세그먼트 그룹.”

.

Geirhos와 그의 동료들은 이러한 지역 기능이 네트워크가 이미지 분류 작업을 수행 할 수 있도록 충분하다는 것을 보여주었습니다. 실제로 Bethge와 연구의 다른 저자 인 박사후 연구원 인 Wieland Brendel은 5 월 회의에서 발표 된 논문 에서이 지점을 집으로 몰아 넣었습니다. 이 작업에서 그들은 딥 러닝이 시작되기 전에“기능 가방”과 같은 분류 알고리즘과 매우 유사한 딥 러닝 시스템을 구축했습니다. 처음에는 Geirhos가 사용한 모델과 같은 현재 모델과 마찬가지로 이미지를 작은 패치로 나누었지만 처음에는 정보를 점진적으로 통합하기보다는 더 높은 수준의 기능을 추출하기 위해 각 작은 패치의 내용에 대한 즉각적인 결정을 내 렸습니다 (“이 패치에는 BIRS에 대한 증거가 포함 된 베이블에 대한 증거가 포함되어 있음). 그것은 단순히 그 결정을 함께 추가하여 물체의 정체성을 결정하기 위해 (“더 많은 패치에는 자전거에 대한 증거가 포함되어 있으므로 자전거의 이미지”), 패치 사이의 글로벌 공간 관계를 고려하지 않고도. 그럼에도 불구하고 놀라운 정확도로 물체를 인식 할 수 있습니다.

Brendel은“이것은 딥 러닝이 이전 모델보다 완전히 다른 일을하고 있다는 가정에 도전한다”고 말했다. “분명히… 도약이있었습니다. 나는 단지 일부 사람들이 기대했던 것보다도 도약이 그리 좋지 않다고 제안합니다.”

요크 대학교 (York University)의 박사후 연구원과 토론토 대학 (University of Toronto)의 연구에 참여하지 않은 아미르 로젠 펠트 (Amir Rosenfeld)에 따르면,“우리가 네트워크가해야 할 일과 실제로하는 일 사이에는 여전히 큰 차이점이있다”며

.

Brendel도 비슷한 견해를 표현했습니다. 그는 신경망이 우리의 인간과의 과제를 해결할 것이라고 가정하기 쉽다고 말했다. "그러나 우리는 다른 방법이 있다는 것을 잊는 경향이 있습니다."

더 인간의 시력을 향한 멍청이

현재 딥 러닝 방법은 텍스처와 같은 로컬 기능을 모양과 같은보다 글로벌 패턴으로 통합 할 수 있습니다. Kriegeskorte는“이 논문에서 약간 놀랍고 매우 놀랍게도 시연 된 것은 건축이 허용되지만 [표준 이미지를 분류하기 위해] 훈련하는 경우 자동으로 발생하지 않는다는 것입니다.

Geirhos는 팀이 모델이 질감을 무시하도록 강요했을 때 어떤 일이 일어날 지 알고 싶어했습니다. 이 팀은 전통적으로 분류 알고리즘을 훈련시키는 데 사용되는 이미지를 가져 와서 다양한 스타일로 "페인트"하여 본질적으로 유용한 텍스처 정보를 제거했습니다. 그들이 새로운 이미지에서 각 딥 러닝 모델을 재교육했을 때, 시스템은 더 크고 더 큰 글로벌 패턴에 의존하기 시작했고 인간의 것과 훨씬 더 비슷한 형태 바이어스를 나타 냈습니다.

그리고 그 일이 일어 났을 때, 알고리즘은 시끄러운 이미지를 분류하는 데 더 나아졌습니다. Geirhos는“모양 기반 네트워크는 무료로 더욱 강력 해졌습니다. "이것은 특정 작업에 대한 올바른 편견을 갖는 것만으로도 모양 바이어스가 새로운 설정으로 일반화하는 데 많은 도움이된다고 말합니다."

.

또한 형태는 소설이나 시끄러운 상황에서도 우리가 보는 것을 정의하는 더 강력한 방법이기 때문에 인간이 자연스럽게 이런 종류의 편견을 가질 수 있다는 것을 암시합니다. 인간은 다양한 조건에서 여러 각도에서 물체가 보이는 3 차원 세계에 살고 있으며 터치와 같은 다른 감각이 필요에 따라 객체 인식에 기여할 수있는 곳. 따라서 우리의 비전이 텍스처보다 모양을 우선시하는 것이 합리적입니다. (또한 일부 심리학자들은 언어, 학습 및 인간의 형태 편견 사이의 연관성을 보여주었습니다. 어린 아이들이 특정 범주의 단어를 배우면서 형태에 더 많은주의를 기울 이도록 훈련을 받았을 때 나중에 훈련을받지 않은 어린이들보다 훨씬 더 큰 명사 나 물체 어휘를 ​​개발할 수있었습니다.)

.

Wichmann 은이 작업은“데이터가 우리가 믿는 것보다 더 많은 편견과 영향을 가하는 것”이라고 상기시켜줍니다. 연구자들이 문제를 겪은 것은 이번이 처음이 아닙니다. 얼굴 인식 프로그램, 자동 고용 알고리즘 및 기타 신경망은 이전에 교육을받은 데이터의 뿌리 깊은 편견으로 인해 예기치 않은 기능에 너무 많은 가중치를 부여한 것으로 나타났습니다. 의사 결정 과정에서 원치 않는 편견을 제거하는 것은 어려운 것으로 판명되었지만 Wichmann은 새로운 작업이 가능하다는 것을 보여줍니다.

그럼에도 불구하고, 모양에 중점을 둔 Geirhos의 모델조차도 이미지의 너무 많은 소음이나 특정 픽셀 변화에 의해 패배 할 수 있습니다. 이는 인간 수준의 비전을 달성함으로써 먼 길임을 보여줍니다. (비슷한 맥락에서, Tsotsos 실험실의 대학원생 인 Rosenfeld, Tsotsos 및 Markus Solbach는 최근에 머신 학습 알고리즘이 인간과 마찬가지로 다른 이미지들 사이의 유사성을 인식 할 수 없다는 연구를 발표했습니다. 여전히 인간 뇌의 중요한 메커니즘이 아직 포착되지 않은 곳에 손가락을 두는 것”이라고 Kriegeske는 말했다. Wichmann은“경우에 따라 데이터 세트를 보는 것이 더 중요합니다.”

.

토론토 대학교의 컴퓨터 과학자 인 Sanja Fidler는이 연구에 참여하지 않았다. "영리한 데이터, 영리한 작업을 설계하는 것은 우리에게 달려 있습니다."라고 그녀는 말했습니다. 그녀와 그녀의 동료들은 신경망을 부차적 인 작업을 제공하면 주요 기능을 수행하는 데 도움이되는 방법을 연구하고 있습니다. Geirhos의 결과에서 영감을 얻은 그들은 최근에 객체 자체를 인식하는 것뿐만 아니라 어떤 픽셀이 개요의 일부인지 모양을 식별하기 위해 이미지 분류 알고리즘을 교육했습니다. 정기적 인 객체 식별 작업에서 네트워크가 자동으로 향상되었습니다. Fidler는“단일 작업이 주어지면 선택적으로주의를 기울이고 많은 다른 것들에 눈을 멀게하게됩니다. “여러분에게 여러 가지 작업을한다면 더 많은 일을 알고있을 수 있습니다. 이 알고리즘과 동일합니다.” 다양한 작업을 해결하면 "다른 정보에 대한 편견을 개발할 수 있습니다"는 Geirhos의 모양과 질감에 대한 실험에서 발생한 것과 유사합니다.

Dietterich는“이 모든 연구는 [딥 러닝에서 무슨 일이 일어나고 있는지에 대한 이해를 심화시키는 흥미로운 단계이며, 아마도 우리가보고있는 한계를 극복하는 데 도움이 될 것”이라고 말했다. "그래서 나는이 논문을 좋아하는 이유입니다."



  1. 자연 환경에서 서로 번식하고 비옥 한 자손을 생산할 수있는 비슷한 유기체?
  2. 새로운 암 약물은 감자와 토마토에서 나올 수 있습니까?
  3. CRISPR은 연구원들이 따뜻한 바다에 어떻게 적용되는지를 밝히도록 도와줍니다.
  4. 기아 기간 동안 Planians가 재생성 할 수있는 방법
  5. 해파리는 심장이나 뇌없이 어떻게 기능합니까?
  6. 연구는 세포 기반 의식 이론과 그것이 수반하는 것을 탐구합니다.