2011 년 겨울, Massachusetts Institute of Technology의 Computational Neuroscience의 박사후 연구원 인 Daniel Yamins는 때때로 그의 기계 비전 프로젝트에서 자정이 지나도 자정을 통과 할 것입니다. 그는 크기, 위치 및 기타 속성의 변형에 관계없이 인간이 쉽게하는 일에 관계없이 그림에서 객체를 인식 할 수있는 시스템을 힘들게 설계했습니다. 이 시스템은 살아있는 뇌의 신경 학적 배선에서 영감을 얻은 계산 장치의 유형 인 심층 신경망이었습니다.
"저는 실제로 작업을 해결 한 신경망을 발견 한 시간을 매우 분명히 기억합니다." 오전 2시 였는데, 그의 고문 인 제임스 디카로 (James Dicarlo) 또는 다른 동료들을 깨우기에는 너무 이른 일이었습니다. "나는 정말로 펌핑되었다"고 말했다
그것은 인공 지능만으로도 주목할만한 성과로 간주되었을 것입니다. 이는 향후 몇 년 동안 신경망을 AI 기술의 신경계로 만들 수있는 많은 사람들 중 하나입니다. 그러나 그것은 Yamins와 그의 동료들에게는 주요 목표가 아니 었습니다. 그들과 다른 신경 과학자들에게, 이것은 뇌 기능을위한 계산 모델의 발달에 중추적 인 순간이었습니다.
현재 스탠포드 대학교에서 자신의 실험실을 운영하고있는 Dicarlo와 Yamins는 뇌의 건축을 이해하기 위해 깊은 신경망을 사용하는 신경 과학자들의 동시에 참여합니다. 특히 과학자들은 다양한 작업에 대한 뇌의 전문 분야의 이유를 이해하기 위해 고군분투했습니다. 그들은 뇌의 다른 부분이 왜 다른 일을하는지뿐만 아니라 차이점이 왜 그렇게 구체적 일 수 있는지 궁금해했습니다. 예를 들어, 뇌가 일반적으로 물체를 인식하는 영역이 있지만 특히 얼굴에 대해서는 왜 그런가? 깊은 신경망은 그러한 전문화가 문제를 해결하는 가장 효율적인 방법 일 수 있음을 보여주고 있습니다.
마찬가지로, 연구자들은 언어, 음악 및 시뮬레이션 된 향기를 분류하는 데 가장 능숙한 깊은 네트워크가 뇌의 청각 및 후각 시스템과 유사한 건축물을 가지고 있음을 보여주었습니다. 이러한 유사점은 또한 2D 장면을보고 그 안에있는 3D 객체의 기본 특성을 유추 할 수있는 깊은 그물에 나타나서 생물학적 인식이 어떻게 빠르고 믿을 수 없을 정도로 풍부 할 수 있는지 설명하는 데 도움이됩니다. 이 모든 결과는 살아있는 신경 시스템의 구조가 그들이 수행 한 작업에 대한 특정 최적의 솔루션을 구현한다는 것을 암시합니다.
이러한 성공은 신경 과학자들이 오랫동안 뇌와 깊은 신경 네트워크 사이의 비교에 회의적이라는 점을 감안할 때 더 예상치 못한 일입니다. MIT 신경 과학자 인 낸시 칸 위셔 (Nancy Kanwisher)는“정직하게, 내 실험실의 어느 누구도 [최근까지] 깊은 그물로 아무것도하지 않았다”고 말했다. "이제 그들 대부분은 일상적으로 훈련하고 있습니다."
깊은 그물과 비전
인공 신경망은 생물학적 뉴런의 디지털 모델을 단순화 한 Perceptrons라는 상호 연결 구성 요소로 구축됩니다. 네트워크에는 적어도 두 개의 퍼셉트론 계층이 있으며, 하나는 입력 레이어와 출력 용입니다. 입력과 출력 사이에 하나 이상의 "숨겨진"레이어 샌드위치 "깊은"신경망이 발생합니다. 숨겨진 계층의 수가 많을수록 네트워크가 깊어집니다.
딥 네트는 고양이 나 개 이미지를 나타내는 패턴과 같은 데이터의 패턴을 선택하도록 훈련 될 수 있습니다. 교육에는 알고리즘을 사용하여 퍼셉트론 간의 연결 강도를 반복적으로 조정하여 네트워크가 주어진 입력 (이미지의 픽셀)을 올바른 레이블 (고양이 또는 개)과 연관시키는 법을 배웁니다. 일단 훈련을 받으면 깊은 그물은 이상적으로는 이전에 보지 못한 입력을 분류 할 수 있어야합니다.
.그들의 일반적인 구조와 기능에서, 깊은 그물은 뇌를 흉내 내기 위해 느슨하게 열망하며, 여기서 뉴런 사이의 조정 된 연결 강도는 학습 된 연관성을 반영합니다. 신경 과학자들은 종종 그 비교에서 중요한 한계를 지적했습니다. 예를 들어, 개별 뉴런은 예를 들어“멍청한”퍼셉트론보다 정보를 더 광범위하게 처리 할 수 있으며, 깊은 그물은 종종 신경계에서 발생하지 않는 것처럼 보이지 않는 역전화라고하는 지각 간의 의사 소통에 종종 의존합니다. 그럼에도 불구하고, 계산 신경 과학자들에게 깊은 그물은 때때로 뇌의 일부를 모델링하는 데 가장 적합한 옵션처럼 보였습니다.
시각 시스템의 계산 모델을 개발하는 연구원들은 영장류 시각 시스템, 특히 복부 시각 스트림이라는 사람, 장소 및 물건을 인식하는 경로에 의해 우리가 알고있는 것에 영향을 받았습니다. (크게 별도의 경로, 등의 시각적 스트림은 운동과 사물의 위치를 보는 정보를 처리합니다.) 인간의 경우,이 복부 통로는 눈에서 시작하여 감각 정보를위한 일종의 릴레이 스테이션 인 Thalamus의 측면 생성 핵으로 진행됩니다. 측면 생성 핵은 1 차 시각 피질에서 V1이라는 영역에 연결되며, 그 중 하류는 거짓말 영역 V2와 V4로, 결국 열등한 시간 피질로 이어진다. (비인간 영장류 뇌는 상 동성 구조를 가지고 있습니다.)
주요 신경 과학적 통찰력은 시각적 정보 처리가 계층 적이며 단계에서 진행된다는 것입니다. 초기 단계는 시야 (예 :가장자리, 윤곽, 색상 및 모양)의 저수준 기능을 처리하는 반면, 전체 물체 및 얼굴과 같은 복잡한 표현은 나중에 열등한 시간 피질에서 제작됩니다.
.그 통찰력은 Yamins와 그의 동료들에 의해 Deep Net의 디자인을 인도했습니다. 그들의 깊은 그물에는 숨겨진 층이 있었고, 그 중 일부는 이미지의 모든 부분에 동일한 필터를 적용한 "컨볼 루션"을 수행했습니다. 각 컨볼 루션은 가장자리와 같은 이미지의 다른 필수 기능을 포착했습니다. 더 기본적인 기능은 영장류 시각 시스템에서와 같이 네트워크의 초기 단계와 더 깊은 단계에서 더 복잡한 기능을 포착했습니다. 이와 같은 CNN (Convolutional Neural Network)이 이미지를 분류하도록 교육을 받으면 필터에 대한 무작위 초기화 값으로 시작하여 당면한 작업에 필요한 올바른 값을 배웁니다.
.이 팀의 4 층 CNN은 5,760 개의 사진 현실 3D 이미지로 묘사 된 8 가지 범주의 물체 (동물, 보트, 자동차, 의자, 얼굴, 과일, 비행기 및 테이블)를 인식 할 수 있습니다. 그림의 물체는 포즈, 위치 및 스케일에서 크게 다릅니다. 그럼에도 불구하고 깊은 그물은 변형에도 불구하고 물체를 인식하는 데 매우 능숙한 인간의 성능과 일치했습니다.
Yamins에게 알려지지 않은 컴퓨터 비전의 세계에서 혁명 양조는 또한 자신과 그의 동료들이 취한 접근 방식을 독립적으로 검증 할 것입니다. 그들이 CNN을 짓는 직후, Alexnet이라는 또 다른 CNN은 연례 이미지 인식 콘테스트에서 그 자체로 이름을 올렸습니다. Alexnet도 초기 단계에서 기본 시각적 기능을 포착하고 더 높은 단계에서 더 복잡한 기능을 포착하는 계층 적 처리 아키텍처를 기반으로했습니다. 수천 가지 범주의 객체를 나타내는 120 만 개의 레이블이 붙은 이미지에 대해 교육을 받았습니다. 2012 년 경연 대회에서 Alexnet은 다른 모든 테스트 된 알고리즘을 라우팅했습니다. 경쟁의 지표에 의해 Alexnet의 오류율은 15.3%에 불과했으며 가장 가까운 경쟁 업체의 26.2%에 비해 15.3%에 불과했습니다. Alexnet의 승리로 Deep Nets는 AI 및 기계 학습 분야에서 합법적 인 경쟁자가되었습니다.
그러나 Yamins와 Dicarlo 팀의 다른 멤버들은 신경 과학적 지불 후에있었습니다. 그들의 CNN이 시각적 시스템을 모방했다면, 그들은 새로운 이미지에 대한 신경 반응을 예측할 수 있을까요? 알기 위해, 그들은 CNN의 인공 뉴런 세트에서의 활동이 두 붉은 붉은 붉은 원숭이의 복부 시각 스트림의 거의 300 개 부위에서의 활동에 어떻게 대응 하는지를 먼저 확립했습니다.
.그런 다음 CNN을 사용하여 원숭이가 훈련 데이터 세트의 일부가 아닌 이미지를 보여 주었을 때 뇌 부위가 어떻게 반응하는지 예측했습니다. Yamins는“우리는 좋은 예측을 얻었을뿐만 아니라 일종의 해부학 적 일관성도 있습니다. 형태를 따랐다.
Kanwisher는 2014 년에 출판되었을 때 결과에 깊은 인상을 받았음을 기억합니다.“깊은 네트워크의 부대가 개별적으로 뉴런처럼 생물 물리적으로 행동한다고 말하지는 않습니다.”라고 그녀는 말했습니다. "그럼에도 불구하고 기능적 일치에는 충격적인 특이성이 있습니다."
소리 전문화
Yamins와 Dicarlo의 결과가 나온 후, 사냥은 뇌의 다른 더 나은 네트 모델, 특히 영장류 시각 시스템보다 잘 연구되지 않은 지역의 경우에 헌트가 시작되었습니다. 예를 들어, MIT의 신경 과학자 인 조쉬 맥더 모트 (Josh McDermott)는“우리는 여전히 청각 피질, 특히 인간에게는 잘 이해하지 못한다”고 말했다. 딥 러닝이 뇌가 어떻게 소리를 낼 수 있는지에 대한 가설을 생성하는 데 도움이 될 수 있습니까?
맥더 모트의 목표입니다. Alexander Kell과 Yamins를 포함한 그의 팀은 연설과 음악의 두 가지 유형의 소리를 분류하기 위해 깊은 그물을 디자인하기 시작했습니다. 첫째, 그들은 달팽이관의 모델을 하드 코딩하여 내 이어의 사운드 트랜스 덕트 오르간 (Sound Transducing Organ)을 하드 코딩했으며, 그 작업은 오디오를 처리하고 컨볼 루션 신경망의 입력으로 다른 주파수 채널로 사운드를 처리합니다. CNN은 오디오 클립의 단어를 인식하고 배경 소음과 혼합 된 음악 클립의 장르를 인식하도록 교육을 받았습니다. 팀은 많은 자원이 필요하지 않고 이러한 작업을 정확하게 수행 할 수있는 딥 네트 아키텍처를 검색했습니다.
세 세트의 아키텍처가 가능해 보였다. Deep Net의 두 작업은 입력 계층 만 공유 한 다음 두 개의 별개의 네트워크로 분할 될 수 있습니다. 다른 극단에서는 작업이 모든 처리에 대해 동일한 네트워크를 공유하고 출력 단계에서만 분할 할 수 있습니다. 또는 네트워크의 일부 단계가 공유되고 다른 단계가 뚜렷한 수십 가지 변형 중 하나 일 수도 있습니다.
의심 할 여지없이, 입력 계층 후 전용 경로를 가진 네트워크는 경로를 완전히 공유 한 네트워크를 능가했습니다. 그러나 입력 스테이지 이후 7 개의 공통 계층이있는 하이브리드 네트워크와 각각 5 개의 레이어의 2 개의 개별 네트워크가 거의 완전히 별도의 네트워크를 수행했습니다. McDermott와 동료들은 하이브리드 네트워크를 최소한의 계산 자원과 가장 잘 맞는 네트워크로 선택했습니다.
그들이이 작업에서 인간에 대한 하이브리드 네트워크를 움켜 쥐었을 때, 그것은 잘 일치했습니다. 또한 비 임시 청각 피질이 음악과 연설을 처리하기위한 뚜렷한 영역을 가지고 있다고 제안한 많은 연구자들과의 이전 결과와 일치했습니다. 그리고 2018 년에 발표 된 주요 테스트 에서이 모델은 인간 대상의 뇌 활동을 예측했습니다.이 모델의 중간 층은 1 차 청각 피질의 반응을 예상했으며 더 깊은 층은 청각 피질의 더 높은 영역을 예상했습니다. 이러한 예측은 딥 러닝을 기반으로하지 않은 모델보다 실질적으로 더 좋았습니다.
McDermott는“과학의 목표는 시스템이 무엇을할지 예측할 수있는 것입니다. "이러한 인공 신경망은 신경 과학에서 그 목표에 더 가까워집니다."
.자신의 연구에 대한 딥 러닝의 유용성에 회의적인 Kanwisher는 McDermott의 모델에서 영감을 받았습니다. Kanwisher는 1990 년대 중반에서 Late 중반에서 그녀의 작품으로 가장 잘 알려져 있습니다. FFA (Fusiform Face Area)라는 열등한 시간 피질의 영역이 얼굴 식별을 위해 특화되어 있음을 보여줍니다. FFA는 피험자가 집과 같은 물체의 이미지를 볼 때보 다 얼굴의 이미지를 응시할 때 훨씬 더 활발합니다. 뇌가 다른 물체의 얼굴 처리를 분리하는 이유는 무엇입니까?
전통적으로, 그러한“이유”질문에 대답하는 것은 신경 과학에 어려웠습니다. 그래서 Kanwisher는 박사후 Katharina Dobs 및 다른 동료들과 함께 Deep Nets로 도움을 청했습니다. 그들은 VGG라는 훨씬 더 깊은 컨볼 루션 신경 네트워크 인 Alexnet에 컴퓨터 vision 후계자를 사용했으며 특정 작업에서 두 개의 별도의 깊은 그물을 훈련 시켰습니다. 얼굴 인식 및 대상 인식
이 팀은 얼굴을 인식하도록 훈련 된 깊은 그물이 물체를 인식하는 데 좋지 않으며 그 반대도 마찬가지입니다.이 네트워크는 얼굴과 물체를 다르게 나타냅니다. 다음으로 팀은 두 작업 모두에 대해 단일 네트워크를 교육했습니다. 그들은 네트워크가 네트워크의 후반 단계에서 얼굴과 물체의 처리를 분리하기 위해 내부적으로 정리되어 있음을 발견했습니다. Kanwisher는“VGG는 후반 단계에서 자발적으로 더 많이 분리합니다. "초기 단계에서 분리 할 필요는 없습니다."
이것은 인간의 시각 시스템이 구성되는 방식과 일치합니다. 분기는 복부 시각 경로의 공유 초기 단계 (측면 생식기 핵 및 영역 V1 및 V2)의 하류에서만 발생합니다. "우리는 얼굴과 객체 처리의 기능적 전문화가 인간 뇌에서와 같이 두 가지 작업에 대해 훈련 된 깊은 그물에서 자발적으로 등장한다는 것을 알았습니다."
Kanwisher는“나에게 가장 흥미로운 점은 이제 우리가 뇌가 왜 그런지에 대한 질문에 대답 할 수있는 방법이 있다고 생각한다.
향의 층
이러한 증거는 냄새에 대한 인식을 다루는 연구에서 나오고 있습니다. 작년에 Columbia University의 계산 신경 과학자 Robert Yang과 그의 동료들은 과일 파리의 후각 시스템을 모델링하기 위해 깊은 그물을 설계했으며, 신경 과학자들에 의해 세부적으로 매핑되었습니다.
.냄새 처리의 첫 번째 층은 후각 감각 뉴런을 포함하며, 각각은 약 50 가지 유형의 냄새 수용체 중 하나만 발현한다. 평균적으로 약 10의 동일한 유형의 모든 감각 뉴런은 처리 계층의 다음 층에서 단일 신경 클러스터에 도달합니다. 이 층의 뇌의 각 측면에 약 50 개의 이러한 신경 클러스터가 있기 때문에, 이것은 감각 뉴런 유형과 상응하는 신경 클러스터 사이에 일대일 매핑을 확립합니다. 신경 클러스터는 다음 층의 뉴런에 다중 무작위로 연결되어 있으며, 케냐 층이라고 불리는 약 2,500 개의 뉴런을 갖는데, 각각은 약 7 개의 입력을받습니다. 케냐 층은 냄새의 높은 수준의 표현에 관여하는 것으로 생각됩니다. 약 20 개의 뉴런의 최종 층은 플라이가 냄새 관련 행동을 안내하는 데 사용하는 출력을 제공합니다 (양은이 출력이 냄새의 분류로 자격이 있는지는 아무도 모르는 사람이 없음을 경고합니다).
.이 과정을 모방하기 위해 계산 모델을 설계 할 수 있는지 확인하기 위해 Yang과 동료들은 먼저 이미지와 같은 방식으로 뉴런을 활성화하지 않는 냄새를 모방하기 위해 데이터 세트를 만들었습니다. 고양이의 두 이미지를 겹쳐서 픽셀로 픽셀을 추가하면 결과 이미지가 고양이처럼 보이지 않을 수 있습니다. 그러나 두 사과에서 냄새를 섞어도 여전히 사과 냄새가납니다. Yang은“이것은 우리의 후각 작업을 설계하는 데 사용했던 중요한 통찰력입니다.
그들은 과일 파리에서 처리 층과 출력 레이어를 모델링 한 3 개의 레이어로 깊은 그물을 만들었습니다. Yang과 동료 들이이 네트워크를 시뮬레이션 된 냄새를 분류하기 위해이 네트워크를 훈련시킬 때, 그들은 네트워크가 과일 플라이 뇌에서 볼 수있는 것과 거의 동일한 연결성으로 수렴되었음을 발견했습니다 :층 1에서 층 2로의 일대일 매핑, 그리고 레이어 2에서 층 3으로의 희소하고 무작위 (7-1) 매핑
.이러한 유사성은 진화와 깊은 그물이 최적의 솔루션에 도달했음을 시사합니다. 그러나 양은 그들의 결과에 대해 여전히 조심합니다. "어쩌면 우리는 여기서 운이 좋았고 일반화되지 않을 수도 있습니다."
테스트의 다음 단계는 아직 연구되지 않은 일부 동물의 후각 시스템의 연결성을 예측할 수있는 깊은 네트워크를 발전시키는 것입니다. 그러면 신경 과학자가 확인할 수 있습니다. 2021 년 7 월 MIT로 이사 할 양은“이것은 우리 이론에 대한 훨씬 더 엄격한 시험을 제공 할 것입니다.
블랙 박스뿐만 아니라
딥 네트는 종종 훈련 데이터 세트에서 너무 멀리 떨어진 데이터를 일반화 할 수 없기 때문에 종종 비롯됩니다. 그들은 또한 블랙 박스로 악명이 높습니다. 수백만 또는 수십억 개의 매개 변수를 형성함으로써 Deep Net의 결정을 설명하는 것은 불가능합니다. 하나의 블랙 박스를 다른 블랙 박스로 대체하는 뇌의 일부의 딥 네트 모델이 아닌가?
양의 견해로는 아닙니다. "뇌보다 여전히 공부하는 것이 더 쉽다"고 그는 말했다.
작년에 Dicarlo의 팀은 딥 네트의 불투명도와 일반화가 불가능하다고 주장하는 결과를 발표했습니다. 연구원들은 Alexnet 버전을 사용하여 원숭이의 복부 시각 스트림을 모델링하고 원숭이의 V4 지역의 인공 뉴런 단위와 신경 부위 사이의 대응을 파악했습니다. 그런 다음 계산 모델을 사용하여 예측 한 이미지를 합성하면 원숭이 뉴런에서 자연스럽게 높은 수준의 활동을 이끌어 낼 수 있습니다. 한 실험에서, 이들 "부 자연스러운"이미지가 원숭이들에게 보여 졌을 때, 그들은 일반적인 수준을 넘어 신경 부위의 68%의 활동을 높였다. 다른 한편으로, 이미지는 하나의 뉴런에서 활동을하면서 근처의 뉴런에서 그것을 억제했습니다. 두 결과는 신경망 모델에 의해 예측되었다.
연구원들 에게이 결과는 깊은 그물이 뇌로 일반화되고 완전히 멸종 할 수 없다는 것을 시사합니다. "그러나 우리는… 이러한 모델이 이러한 모델이 가치를 부여하는지 여부와 방법을 확인하기 위해 많은 다른 '이해'개념을 탐구해야한다는 것을 인정합니다.
.깊은 그물과 뇌 사이의 구조와 성능이 반드시 같은 방식으로 작동한다는 것을 의미하지는 않습니다. 그들이 명백히하지 않는 방법이 있습니다. 그러나 두 유형의 시스템이 동일한 광범위한 통치 원칙을 따를 수있는 충분한 유사성이있을 수 있습니다.
모델의 한계
McDermott는 이러한 깊은 순 연구에서 잠재적 인 치료 적 가치를보고 있습니다. 오늘날 사람들이 청각을 잃을 때는 일반적으로 귀의 변화로 인한 것입니다. 뇌의 청각 시스템은 손상된 입력에 대처해야합니다. McDermott는“우리가 청각 시스템의 나머지 부분에 대한 좋은 모델을 가지고 있다면 사람들이 실제로 더 잘 듣는 데 도움이되도록해야 할 일에 대한 더 나은 아이디어를 가질 것입니다.
그럼에도 불구하고 McDermott는 딥 네트가 제공 할 수있는 것에 대해 조심 스럽습니다. "우리는 신경망의 한계를 모델로 이해하려고 노력하고 있습니다."
이러한 한계에 대한 놀라운 시연에서 McDermott의 실험실의 대학원생 Jenelle Feather와 다른 사람들은 시스템에서 동일한 표현을 생성하는 물리적으로 뚜렷한 입력 신호 인 메타머에 중점을 두었습니다. 예를 들어, 두 개의 오디오 메타머는 다른 파 형태를 가지고 있지만 인간과 동일하게 들립니다. 이 팀은 청각 시스템의 딥 네트 모델을 사용하여 자연 오디오 신호의 메타머를 설계했습니다. 이 메타머는 오디오 클립과 같은 방식으로 신경망의 다른 단계를 활성화했습니다. 신경망이 인간 청각 시스템을 정확하게 모델링 한 경우, 메타머도 동일하게 들립니다.
그러나 그것은 일어난 일이 아닙니다. 인간은 신경망의 초기 단계에서 해당 오디오 클립과 동일한 활성화를 생성 한 메타머를 인식했습니다. 그러나 이것은 네트워크의 더 깊은 단계에서 활성화가 일치하는 메타머의 경우에도 유지되지 않았습니다. 이러한 메타머는 인간에게 소음처럼 들렸습니다. McDermott는“특정 상황에서 이러한 종류의 모델은 인간의 행동을 복제하는 데 아주 좋은 일을하지만 그에 대해 매우 잘못된 것이 있습니다.
Stanford에서 Yamins는 이러한 모델이 아직 뇌를 대표하지 않는 방법을 모색하고 있습니다. 예를 들어, 이러한 모델들 중 다수는 훈련을 위해 많은 라벨이 붙은 데이터가 필요하지만, 우리의 두뇌는 하나의 예만큼 쉽게 배울 수 있습니다. 효율적으로 배울 수있는 감독되지 않은 깊은 그물을 개발하려는 노력이 진행 중입니다. Deep Nets는 또한 대부분의 신경 과학자들이 적절한 연결이 없기 때문에 실제 신경 조직에서 작동 할 수 없다고 생각하는 Back Propagation이라는 알고리즘을 사용하는 것을 배웁니다. Yamins는“실제로 효과가있는 생물학적으로 그럴듯한 학습 규칙의 측면에서 큰 진전이있었습니다.
MIT의인지 신경 과학자 인 조쉬 테넨 바움 (Josh Tenenbaum)은 이러한 딥 네트 모델이“실제 진보 단계”이지만 주로 분류 또는 분류 작업을 수행하고 있다고 말했다. 그러나 우리의 두뇌는 거기에있는 것을 분류하는 것보다 훨씬 더 많은 일을합니다. 우리의 비전 시스템은 표면의 형상과 장면의 3D 구조를 이해할 수 있으며, 근본적인 인과 적 요인에 대해 추론 할 수 있습니다. 예를 들어, 자동차가 그 앞에서 통과했기 때문에 나무가 사라 졌다는 것을 실시간으로 추론 할 수 있습니다.
.뇌의 이러한 능력을 이해하기 위해 이전에 MIT와 Yale University의 Ilker Yildirim은 Tenenbaum 및 동료들과 협력하여 효율적인 역 그래픽 모델이라는 것을 구축했습니다. 그것은 모양, 질감, 조명 방향, 헤드 포즈 등과 같은 배경에서 렌더링 할 얼굴을 설명하는 매개 변수로 시작합니다. 생성 모델이라는 컴퓨터 그래픽 프로그램은 매개 변수에서 3D 장면을 만듭니다. 그런 다음 다양한 단계의 처리 후에는 특정 위치에서 볼 수 있듯이 해당 장면의 2D 이미지를 생성합니다. 생성 모델의 3D 및 2D 데이터를 사용하여 연구원들은 수정 된 버전의 AlexNet을 교육하여 익숙하지 않은 2D 이미지에서 3D 장면의 매개 변수를 예측했습니다. Tenenbaum은“시스템은 2D 이미지에서 제작 한 3D 장면으로 그 효과에서 원인으로 거꾸로 이동하는 법을 배웁니다.
팀은 붉은 털 원숭이의 열등한 시간 피질에서 활동에 대한 예측을 확인하여 모델을 테스트했습니다. 그들은 175 개의 이미지로 가카크를 제시하여 7 개의 포즈로 25 명을 보여 주었고 얼굴 인식을 전문으로하는 시각적 처리 영역 인“얼굴 패치”에서 신경 표시를 기록했습니다. 그들은 또한 딥 러닝 네트워크에 이미지를 보여주었습니다. 네트워크에서, 제 1 층에서 인공 뉴런의 활성화는 2D 이미지를 나타내고 마지막 층의 활성화는 3D 파라미터를 나타낸다. Tenenbaum은“그 과정에서 그것은 기본적으로 2D에서 3D에서 3D까지 당신을 데려 오는 것 같습니다. 그들은 네트워크의 마지막 세 층이 Macaques Face Processing Network의 마지막 세 층에 현저하게 잘 일치한다는 것을 발견했습니다.
이것은 뇌가 생성 및 인식 모델의 조합을 사용하여 물체를 인식하고 특성화 할뿐만 아니라 장면에 내재 된 인과 구조를 즉시 추론합니다. Tenenbaum은 모델이 뇌가 이런 식으로 작동한다는 것을 증명하지 않는다는 것을 인정합니다. "그러나 그것은보다 세밀한 기계적인 방식으로 이러한 질문을하는 문을 열어줍니다." "그것은 ... 우리가 그것을 통과하도록 동기를 부여해야합니다."
편집자 주 :Daniel Yamins와 James Dicarlo는 Simons Foundation의 일부인 Simons Foundation의 일부인 Simons Collaboration 에서이 편집자 독립 잡지에 자금을 지원하는 연구 자금을받습니다. Simons Foundation 자금 지원 결정은 에 영향을 미치지 않습니다 Quanta 의 적용 범위. 자세한 내용은이 페이지를 참조하십시오.
이 기사는 Wired.com과 Le Scienze의 이탈리아어로 재 인쇄되었습니다.