>> HLK 자연과학 >  >> 생물학

인공 신경망은 마침내 두뇌가 배우는 방법에 대한 단서를 산출합니다.


2007 년, 깊은 신경망의 일부 주요 사상가들은 인공 지능에 관한 유명한 연례 연례 회의의 여백에서 비공식“위성”회의를 조직했습니다. 회의는 공식 워크숍에 대한 그들의 요청을 거부했다. 깊은 신경망은 여전히 ​​AI를 인수하는 데 몇 년이 지났습니다. Bootleg 회의의 최종 연사는 토론토 대학교의 Geoffrey Hinton,인지 심리학자이자 Computer Scientist는 Deep Nets에서 가장 큰 획기적인 부분을 담당했습니다. 그는 quip으로 시작했습니다.“약 1 년 전, 나는 저녁 식사를 위해 집에 왔는데‘마침내 뇌가 어떻게 작동하는지 알아 냈다고 생각합니다.’그리고 15 살짜리 딸이‘아, 아빠, 다시는 아니에요.’

라고 말했습니다.

청중은 웃었다. 힌튼은 계속해서“그래서 여기에 어떻게 작동하는지”라고 계속했습니다. 더 많은 웃음이 계속되었습니다.

Hinton의 농담은 AI를 사용하여 뇌를 이해하기 위해 심각한 추구를했습니다. 오늘날 Deep Nets는 Backpropagation 또는 Backprop이라는 알고리즘으로 인해 AI를 부분적으로 규칙합니다. 이 알고리즘을 통해 Deep Nets는 데이터에서 학습 할 수 있으며 이미지를 분류하고, 언어를 인식하고, 언어를 번역하고, 자율 주행 자동차를위한 도로 조건을 이해하고, 다른 많은 작업을 수행 할 수있는 능력이 있습니다.

.

그러나 실제 두뇌는 동일한 알고리즘에 의존하지 않을 가능성이 거의 없습니다. 몬트리올 대학교의 컴퓨터 과학자, 퀘벡 인공 지능 연구소 (Quebec Artificial Intelligence Institute)의 컴퓨터 과학자 인 요슈아 벵간 (Yoshua Bengio)은“두뇌가 최첨단 AI 시스템보다 더 좋고 더 빠르게 배울 수있다”고 말했다. 여러 가지 이유로 역전술은 뇌의 해부학 및 생리학, 특히 피질에서 호환되지 않습니다.

Bengio와 Hinton에서 영감을 얻은 많은 사람들은 적어도 역전의 성공과 일치 할 수있는 생물학적으로 그럴듯한 학습 메커니즘에 대해 생각해 왔습니다. 피드백 정렬, 평형 전파 및 예측 코딩 등 세 가지가 특별한 약속을 보여주었습니다. 일부 연구자들은 또한 특정 유형의 피질 뉴런의 특성과 모델에 대한 관심과 같은 과정을 통합하고 있습니다. 이러한 모든 노력은 뇌에서 작동 할 수있는 알고리즘을 이해하는 데 더 가까이 다가 가고 있습니다.

“뇌는 거대한 미스터리입니다. 우리가 그 원칙 중 일부를 잠금 해제 할 수 있다면 AI에 도움이 될 수 있다는 일반적인 인상이 있습니다.”라고 Bengio는 말했습니다. "그러나 그것은 또한 그 자체로 가치가 있습니다."

역전술을 통한 학습

수십 년 동안 뇌가 배우는 방법에 대한 신경 과학자의 이론은 1949 년 캐나다 심리학자 인 도널드 히브 (Donald Hebb)가 도입 한 규칙에 의해 주로 인도되었다. 즉, 인접한 뉴런의 활성이 더 많이 상관 될수록 그들 사이의 시냅스 연결이 더 강해집니다. 이 원칙은 약간의 수정으로 특정 유형의 학습 및 시각적 분류 작업을 설명하는 데 성공했습니다.

그러나 그것은 실수로부터 배워야하는 큰 뉴런 네트워크에서 훨씬 잘 작동했습니다. 네트워크 내에서 뉴런이 발견 된 오류에 대해 배우고, 스스로 업데이트하고, 실수를 줄일 수있는 직접적으로 목표로하는 방법은 없었습니다. Stanford University의 계산 신경 과학자이자 컴퓨터 과학자 인 Daniel Yamins는“Hebbian 규칙은 매우 좁고 특히 오류 정보를 사용하는 민감한 방법입니다.

그럼에도 불구하고, 신경 과학자들이 가진 최고의 학습 규칙이었으며, 심지어 신경 과학을 지배하기 전에도 1950 년대 후반 최초의 인공 신경망의 발전에 영감을주었습니다. 이 네트워크의 각 인공 뉴런은 여러 입력을 받고 생물학적 상대와 같은 출력을 생성합니다. 뉴런은 각 입력에 소위 "시냅스"가중치를 곱한 다음 해당 입력에 할당 된 중요성을 나타내는 숫자와 가중 입력을 요약합니다. 이 합계는 뉴런의 출력입니다. 1960 년대에는 이러한 뉴런이 입력 계층과 출력 층이있는 네트워크로 구성 될 수 있으며 인공 신경망은 특정 클래스의 간단한 문제를 해결하도록 훈련 될 수 있습니다. 훈련 중에 신경망은 오류를 제거하거나 최소화하기 위해 뉴런의 최상의 가중치에 정착했습니다.



그러나 1960 년대에도 더 복잡한 문제를 해결하려면 입력 층과 출력 층 사이에 끼워진 하나 이상의 "숨겨진"뉴런 층이 필요하다는 것이 분명했습니다. 1986 년까지 힌튼, David Rumelhart와 Ronald Williams (현재 Northeastern University)가 역전술 알고리즘을 발표했습니다.

.

알고리즘은 두 단계에서 작동합니다. "포워드"단계에서 네트워크에 입력이 주어지면 출력을 유추하여 잘못 될 수 있습니다. 두 번째 "뒤로"단계는 시냅스 가중치를 업데이트하여 출력을 목표 값에 더 많이 가져옵니다.

이 과정을 이해하려면 언덕과 계곡의 풍경으로 추론 된 출력과 원하는 출력의 차이를 설명하는 "손실 기능"을 생각해보십시오. 네트워크가 주어진 시냅스 가중치 세트를 추론하면 손실 환경의 일부 위치에서 끝납니다. 배우기 위해서는 경사면 또는 그라디언트를 일부 계곡으로 이동해야하며 가능한 한 손실이 최소화됩니다. 역전술은 시냅스 가중치를 업데이트하여 그 그라디언트를 내려가는 방법입니다.

본질적으로, 알고리즘의 후진 위상은 각 뉴런의 시냅스 가중치가 오류에 얼마나 기여하는지 계산 한 다음 해당 가중치를 업데이트하여 네트워크의 성능을 향상시킵니다. 이 계산은 출력 계층에서 입력 계층으로 순차적으로 뒤로 진행되므로 이름 역전이됩니다. 입력 및 원하는 출력 세트에 대해 계속해서 수행하면 결국 전체 신경망에 수용 가능한 가중치에 도달하게됩니다.

.

뇌에는 불가능

역전의 발명은 즉시 일부 신경 과학자들의 외침을 이끌어 냈으며, 그는 실제 뇌에서 결코 작동하지 않을 수 없다고 말했다. 가장 주목할만한 Naysayer는 DNA 구조의 노벨상을 수상한 공동 발견자 인 Francis Crick이었습니다. 1989 년 Crick은 다음과 같이 썼습니다.“학습 과정에 관한 한, 뇌가 실제로 등 전파를 사용하지는 않습니다.”

.

역전은 몇 가지 주요 이유로 생물학적으로 불가능한 것으로 간주됩니다. 첫 번째는 컴퓨터가 두 단계로 알고리즘을 쉽게 구현할 수 있지만 생물학적 신경망의 경우 그렇게하는 것은 사소한 일이 아니라는 것입니다. 두 번째는 계산 신경 과학자가 체중 전송 문제라고 부르는 것입니다. 백 프롭 알고리즘 사본 또는 추론과 관련된 모든 시냅스 가중치에 대한 정보를 "운송"하고보다 정확성을 위해 해당 가중치를 업데이트합니다. 그러나 생물학적 네트워크에서, 뉴런은 다른 뉴런의 출력만이 시냅스 가중치 나 그 출력을 형성하는 내부 공정 만 본다. Yamins는 뉴런의 관점에서“자신의 시냅스 가중치를 아는 것은 괜찮습니다.”라고 말했습니다. "괜찮지 않은 것은 다른 뉴런의 시냅스 가중치 세트를 아는 것입니다."

.

생물학적으로 그럴듯한 학습 규칙은 또한 뉴런이 인접한 뉴런에서만 정보에 접근 할 수 있다는 제한을 준수해야합니다. 역전에는 더 먼 뉴런의 정보가 필요할 수 있습니다. Bengio는“편지로 역전하면 두뇌가 계산하는 것은 불가능한 것 같습니다.”라고 Bengio는 말했습니다.

그럼에도 불구하고, 힌튼과 몇몇 다른 사람들은 즉시 생물학적으로 그럴듯한 변형의 역전에 대한 도전에 도전했다. 펜실베이니아 대학교 (University of Pennsylvania)의 전산 신경 과학자 인 코드 쿠드 딩 (Konrad Kording)은“뇌가 역전술과 같은 일을하는 첫 번째 논문”이라고 펜실베니아 대학교 (University of Pennsylvania)의 전산 신경 과학자 인 Konrad Kording은 말했다. 지난 10 년 동안 인공 신경망의 성공으로 인해 인공 지능 연구를 지배하게 만들었으므로 백 프롭의 생물학적 동등한 것을 찾기위한 노력이 강화되었습니다.

더 생명

예를 들어, 2016 년 런던과 그의 동료들에 대한 Google Deepmind의 Timothy Lillicrap에 제공된 체중 전송 문제에 대한 가장 이상한 솔루션 중 하나를 취하십시오. 전방 패스에서 녹음 된 무게의 매트릭스에 의존하는 대신 알고리즘은 후진 패스의 임의 값으로 초기화 된 매트릭스를 사용했습니다. 일단 할당되면,이 값은 결코 변하지 않으므로 각 후진 패스에 대해 무게를 전송할 필요가 없습니다.

.

거의 모든 사람들의 놀랍게도 네트워크는 배웠습니다. 추론에 사용되는 순방향 가중치는 각 후진 패스마다 업데이트되므로 네트워크는 여전히 손실 함수의 기울기가 있지만 다른 경로에 의해 내려갑니다. 앞으로 가중치는 무작위로 선택된 뒤로 가중치와 천천히 정렬되어 결국 정답을 산출하여 알고리즘에 이름을 부여합니다. 피드백 정렬.

Yamins는 적어도 간단한 문제에 대해“실제로 생각만큼 나쁘지 않은 것으로 밝혀졌습니다. 대규모 문제와 더 숨겨진 계층이있는 더 깊은 네트워크의 경우, 피드백 정렬은 역전되지 않습니다. 전진 가중치에 대한 업데이트는 각 패스에서 진정으로 역전화 된 정보보다 각 패스에서 정확하지 않기 때문에 네트워크를 훈련시키는 데 훨씬 더 많은 데이터가 필요합니다.

.

연구원들은 또한 뉴런이 지역 이웃에게만 반응한다는 고전적인 Hebbian 학습 요구 사항을 유지하면서 역전의 성능을 일치시키는 방법을 탐구했습니다. 역전은 추론을 수행하는 한 세트의 뉴런 세트와 시냅스 가중치를 업데이트하기위한 계산을 수행하는 다른 뉴런 세트로 생각할 수 있습니다. 힌튼의 아이디어는 각 뉴런이 두 계산 세트를 수행하는 알고리즘에 대해 작업하는 것이 었습니다. Bengio는“이것은 기본적으로 Geoff의 대화가 2007 년에 []에 관한 것이 었습니다.

Bengio의 팀은 Hinton의 작업을 바탕으로 2017 년에 반복 연결이있는 신경망이 필요한 학습 규칙을 제안했습니다 (즉, 뉴런 A가 뉴런 B를 활성화하면 뉴런 B는 뉴런 A를 활성화시킵니다). 이러한 네트워크에 약간의 입력이 주어지면 각 뉴런이 직계 이웃의 푸시 및 당김에 응답함에 따라 네트워크가 반향을 설정합니다.

결국, 네트워크는 뉴런이 입력과 서로 평형 상태에있는 상태에 도달하며 출력이 발생하여 잘못 될 수 있습니다. 그런 다음 알고리즘은 출력 뉴런을 원하는 결과로 깎습니다. 이것은 네트워크를 통해 뒤로 전파되는 다른 신호를 설정하여 유사한 역학을 설정합니다. 네트워크는 새로운 평형을 찾습니다.

Bengio는“수학의 아름다움은이 두 가지 구성을 비교하면 누드 전과 누드 후에 그라디언트를 찾는 데 필요한 모든 정보가 있다는 것입니다. 네트워크 훈련에는 많은 라벨이 붙은 데이터 보다이“평형 전파”의이 과정을 단순히 반복하는 과정을 반복하는 것이 포함됩니다.

인식 예측

뉴런이 지역 환경에 반응 하여만 배울 수있는 제약은 또한 뇌가 어떻게 인식되는지에 대한 새로운 이론에서 표현을 찾습니다. 에든버러 대학교의 박사 과정 학생이자 서 섹스 대학교 (University of Sussex)의 방문 동료 인 베렌 밀리지 (Beren Millidge)와 그의 동료들은 역 프로칭 요구 사항과 함께 예측 코딩 (Predictive Coding)이라는 새로운 인식의 견해를 조정하고 있습니다. Millidge는“예측 코딩은 특정 방식으로 설정되면 생물학적으로 그럴듯한 학습 규칙을 제공 할 것입니다.

예측 코딩은 뇌가 감각 입력의 원인에 대해 끊임없이 예측하고 있다고 주장합니다. 이 과정에는 신경 처리의 계층 적 층이 포함됩니다. 특정 출력을 생성하려면 각 층은 아래 층의 신경 활동을 예측해야합니다. 가장 높은 층이 얼굴을 볼 것으로 예상되는 경우,이 인식을 정당화 할 수있는 아래 층의 활동을 예측합니다. 아래의 층은 그 아래의 것들로부터 기대할 수있는 것에 대해 비슷한 예측을합니다. 가장 낮은 층은 실제 감각 입력, 즉 망막에 떨어지는 광자에 대한 예측을합니다. 이런 식으로 예측은 상위 층에서 하부 층으로 흐릅니다.

그러나 오류는 계층 구조의 각 레벨에서 발생할 수 있습니다. 층이 기대하는 입력에 대한 예측과 실제 입력의 차이. 병적 인 층은 시냅스 가중치를 조정하여받는 감각 정보에 따라 오류를 최소화합니다. 이 조정은 새로 업데이트 된 가장 낮은 층과 위의 층 사이의 오류를 초래하므로, 높은 계층은 시냅스 가중치를 재 조정하여 예측 오차를 최소화해야합니다. 이 오류는 상향 위로 파열됩니다. 각 계층이 예측 오류를 최소화 할 때까지 네트워크가 앞뒤로 이동합니다.

Millidge는 적절한 설정으로 예측 코딩 네트워크가 백 프롭과 동일한 학습 구배에 수렴 할 수 있음을 보여주었습니다. "당신은 정말로, 실제로 백 프롭 구배에 가깝게 얻을 수 있습니다."

.

그러나 기존의 백 프롭 알고리즘이 깊은 신경 네트워크에서 만드는 모든 후진 패스에 대해 예측 코딩 네트워크는 여러 번 반복해야합니다. 이것이 생물학적으로 그럴듯한 지 여부는 이것이 실제 뇌에서 얼마나 오래 걸릴 수 있는지에 달려 있습니다. 결정적으로, 네트워크는 외부 변화의 세상의 입력 전에 솔루션에 수렴해야합니다.

Millidge는“이것은‘호랑이가 나에게 뛰어 들었습니다. 100 회 반복을 앞뒤로 내 뇌 위아래로하겠습니다. 그럼에도 불구하고 일부 부정확성이 허용되면 예측 코딩은 일반적으로 유용한 답변에 빠르게 도달 할 수 있다고 그는 말했다.

피라미드 뉴런

일부 과학자들은 개별 뉴런의 알려진 특성을 기반으로 백 프롭 유사 모델을 구축하는 Nitty Gritty 작업을 수행했습니다. 표준 뉴런에는 다른 뉴런의 축삭에서 정보를 수집하는 수상 돌기가 있습니다. 수상 돌기는 신호가 통합되는 뉴런 세포체에 신호를 전달합니다. 이는 시냅스 후 뉴런의 수상 돌기로 뉴런의 축삭을 나가는 스파이크 또는 행동 전위를 초래할 수도 있습니다.

그러나 모든 뉴런이 정확히이 구조를 갖는 것은 아닙니다. 특히, 피질에서 가장 풍부한 유형의 뉴런 인 피라미드 뉴런은 분명히 다릅니다. 피라미드 뉴런은 두 개의 별개의 수상 돌기 세트를 갖는 트리 니와 같은 구조를 가지고 있습니다. 트렁크는 올라가서 정점 수상 돌기라고 불립니다. 뿌리는 아래로 닿아 기저 수상 돌기로 분사합니다.



2001 년 Kording에 의해 독립적으로 개발되었으며, 최근에는 McGill University와 Mila의 Blake Richards와 그의 동료들이 Pyramidal Neuron이 동시에 앞뒤 계산을 수행함으로써 딥 러닝 네트워크의 기본 단위를 형성 할 수 있음을 보여주었습니다. 열쇠는 전진하는 추론 및 후진 흐름 오류를 위해 뉴런으로 들어가는 신호를 분리하는 것입니다. 두 신호 모두에 대한 정보는 뉴런이 축삭을 출력으로 보내는 전기 활동의 스파이크에서 인코딩 될 수 있습니다.

Richards 팀의 최신 작품에서“우리는 뉴런의 상당히 현실적인 시뮬레이션을 사용하여 피라미드 뉴런 네트워크를 훈련하여 다양한 작업을 수행 할 수 있음을 보여줄 수 있습니다.”라고 Richards는 말했습니다. "그런 다음 이러한 모델의 약간 더 추상적 인 버전을 사용하면 피라미드 뉴런 네트워크가 사람들이 기계 학습에서하는 어려운 작업을 배울 수 있습니다."

.

주의의 역할

역전을 사용하는 깊은 그물에 대한 암시 적 요구 사항은“교사”의 존재입니다. 그러나 암스테르담의 네덜란드 신경 과학 연구소의 Pieter Roelfsema는“모터 피질의 모든 뉴런을 모터 피질의 모든 뉴런에게 알려주는 교사는 없습니다.

.

Roelfsema는 문제에 대한 뇌의 해결책이 관심 과정에 있다고 생각합니다. 1990 년대 후반, 그와 그의 동료들은 원숭이들이 물체에 대한 시선을 고치면 피질의 그 물체를 나타내는 뉴런이 더욱 활성화된다는 것을 보여 주었다. 관심을 집중시키는 원숭이의 행위는 책임있는 뉴런에 대한 피드백 신호를 만듭니다. Roelfsema는“이것은 매우 선택적인 피드백 신호입니다. “오류 신호가 아닙니다. 그것은 단지 모든 뉴런에게 말하는 것입니다.

Roelfsema의 통찰력은이 피드백 신호가 다른 특정 신경 과학 결과에서 드러난 프로세스와 결합 할 때 역전과 같은 학습을 가능하게 할 수 있다는 것이 었습니다. 예를 들어, 케임브리지 대학교의 Wolfram Schultz와 다른 사람들은 동물이 예상보다 더 나은 결과를 얻는 행동을 수행 할 때 뇌의 도파민 시스템이 활성화된다는 것을 보여주었습니다. Roelfsema는“이것은 신경 조절제로 뇌 전체를 침수시킵니다. 도파민 수치는 글로벌 강화 신호처럼 작용합니다.

이론적으로,주의 피드백 신호는 시냅스 가중치를 업데이트하여 글로벌 강화 신호에 반응하는 조치를 담당하는 뉴런만을 프라이밍 할 수 있다고 Roelfsema는 말했다. 그와 그의 동료들은이 아이디어를 사용하여 깊은 신경망을 구축하고 수학적 특성을 연구했습니다. “오류 역전이 발생한 것으로 나타났습니다. 당신은 기본적으로 동일한 방정식을 얻습니다.”라고 그는 말했다. "그러나 이제는 생물학적으로 그럴듯 해졌습니다."

이 팀은 12 월 신경 정보 처리 시스템 온라인 회의 에서이 작업을 발표했습니다. Roelfsema는“우리는 깊은 네트워크를 훈련시킬 수 있습니다. "이것은 역전보다 2 ~ 3의 속도 일뿐입니다." 따라서 그는“생물학적으로 그럴듯하다고 제안 된 다른 모든 알고리즘을 능가한다”고 말했다.

그럼에도 불구하고 살아있는 두뇌가 이러한 그럴듯한 메커니즘을 사용한다는 구체적인 경험적 증거는 여전히 애매 모호합니다. Bengio는“우리는 여전히 무언가를 놓치고 있다고 생각합니다. "내 경험에 따르면, 그것은 작은 일이 될 수 있습니다. 아마도 기존 방법 중 하나에 약간의 비틀어 질 수 있습니다. 그것은 실제로 차이를 만들 것입니다."

.

한편, Stanford의 Yamins와 그의 동료들은 제안 된 학습 규칙 중 어느 것이 있는지 결정하는 방법에 대한 제안이 있습니다. 다른 학습 모델을 구현하는 1,056 인공 신경망을 분석함으로써, 그들은 네트워크를 통치하는 학습 규칙의 유형이 시간이 지남에 따라 뉴런의 하위 집합의 활동에서 식별 될 수 있음을 발견했습니다. 이러한 정보는 원숭이 뇌에서 기록 될 수 있습니다. Yamins는“올바른 관측 가능성 모음이 있다면 학습 규칙을 식별 할 수있는 상당히 간단한 계획을 세울 수 있습니다.”라고 Yamins는 말했습니다.

그러한 발전을 감안할 때, 계산 신경 과학자들은 조용히 낙관적입니다. Kording은“뇌가 역전술을 할 수있는 방법에는 여러 가지가 있습니다. “그리고 진화는 꽤 굉장합니다. 역전이 유용합니다. 나는 진화가 우리를 거기에 데려다 준다고 가정합니다.”



  1. 기초와 반추 동물 소화 시스템의 차이
  2. 스폰지와 원생 동물의 차이점은 무엇입니까?
  3. 왜 뼈가 매우 단단합니까?
  4. 이진 핵분열과 유사 분열의 차이
  5. 세포를 함께 유지하십시오 - 우리 몸이 기계적 스트레스에 저항하는 방식
  6. DNA 폴리머 라제의 역할은 무엇입니까?