양자 컴퓨팅:고급 AI를 위해 우주 활용

물리학자들은 진동, 전압, 레이저를 이용해 신경망을 구축하고 있으며, 컴퓨팅의 미래는 우주의 복잡한 물리적 행동을 활용하는 데 있다고 주장합니다.

소개

방음 처리된 상자 안에는 세계 최악의 신경망 중 하나가 들어 있습니다. 숫자 6의 이미지가 제시된 후 숫자 0을 식별하기 전에 잠시 멈춥니다. 네트워크 개발을 주도한 코넬 대학의 물리학자이자 엔지니어인 피터 맥맨(Peter McMahon)은 수줍은 미소로 이를 옹호하며 손으로 쓴 숫자가 엉성해 보인다고 지적합니다. NTT Research의 McMahon 연구실을 방문한 Postdoc인 Logan Wright는 장치가 일반적으로 올바른 답을 얻는다고 확신하지만 실수가 흔하다는 점을 인정합니다. "이렇게 안 좋은 일이군요."라고 그는 말했습니다.

실망스러운 성능에도 불구하고 이 신경망은 획기적인 것입니다. 연구원들은 상자를 뒤집어 컴퓨터 칩이 아니라 스피커에 볼트로 고정된 티타늄 판을 향해 기울어진 마이크를 드러냈습니다. 다른 신경망은 0과 1의 디지털 세계에서 작동하지만 이 장치는 소리로 작동합니다. Wright가 숫자의 새로운 이미지에 신호를 보내면 해당 픽셀이 오디오로 변환되고 스피커가 플레이트를 흔들 때 희미한 재잘거림이 실험실을 가득 채웁니다. 금속 잔향은 실리콘에서 실행되는 소프트웨어가 아닌 "읽기"를 수행합니다. 이 장치는 종종 거지들의 믿음, 심지어 설계자에게도 성공한다는 것입니다.

"흔들리는 금속의 기능이 무엇이든, 손으로 쓴 숫자를 분류하는 것과는 아무런 관련이 없어야 합니다."라고 McMahon은 말했습니다.

코넬 연구팀이 Nature에 발표한 기기의 원시적 읽기 능력 1월에 McMahon과 다른 사람들은 먼 후손이 컴퓨팅에 혁명을 일으킬 수 있다는 희망을 갖게 되었습니다.

기존 기계 학습의 경우 컴퓨터 과학자들은 클수록 좋다는 사실을 발견했습니다. 더 많은 인공 뉴런(수치 값을 저장하는 노드)으로 신경망을 채우면 닥스훈트와 달마시안을 구분하는 능력이 향상되거나 기타 수많은 패턴 인식 작업에서 성공할 수 있는 능력이 향상됩니다. 정말 엄청난 신경망은 에세이 작성이나 일러스트레이션 제작과 같은 인간이 하는 일을 불안하게 해낼 수 있습니다. 더 많은 컴퓨팅 능력을 사용하면 더 큰 위업이 가능할 수도 있습니다. 이러한 잠재력은 더욱 강력하고 효율적인 계산 방법을 개발하려는 수많은 노력의 원동력이 되었습니다.

McMahon과 같은 생각을 가진 물리학자들은 비정통적인 접근 방식을 옹호합니다. 즉, 우주가 우리를 위해 숫자를 계산하도록 하는 것입니다. McMahon은 “많은 물리적 시스템은 자연스럽게 컴퓨터보다 더 효율적이거나 더 빠르게 계산을 수행할 수 있습니다.”라고 말했습니다. 그는 풍동을 인용합니다. 엔지니어가 비행기를 설계할 때 청사진을 디지털화하고 날개 주위의 공기 흐름을 시뮬레이션하는 슈퍼컴퓨터에서 몇 시간을 보낼 수도 있습니다. 아니면 차량을 풍동에 넣어서 날아가는지 확인할 수도 있습니다. 계산적 관점에서 풍동은 날개가 공기와 상호 작용하는 방식을 즉시 "계산"합니다.

풍동은 한마음의 기계입니다. 공기 역학을 시뮬레이션합니다. McMahon과 같은 연구자들은 무엇이든 할 수 있는 방법을 배울 수 있는 장치, 즉 손으로 쓴 숫자를 분류하거나 모음을 구별하는 것과 같은 새로운 능력을 얻기 위해 시행착오를 통해 동작을 조정할 수 있는 시스템을 추구합니다. 최근 연구에 따르면 빛의 파동, 초전도체 네트워크, 전자 분기 흐름과 같은 물리적 시스템이 모두 학습할 수 있는 것으로 나타났습니다.

새로운 물리적 학습 알고리즘을 설계하는 데 도움을 준 스위스 취리히 연방공과대학의 수학자 벤저민 스셀리에(Benjamin Scellier)는 "우리는 하드웨어뿐만 아니라 전체 컴퓨팅 패러다임도 재창조하고 있습니다"라고 말했습니다.

생각하는 법 배우기

학습은 이국적인 과정입니다. 약 10년 전까지만 해도 뇌는 이를 잘 수행하는 유일한 시스템이었습니다. 컴퓨터 과학자들이 현재 가장 인기 있는 인공 학습 모델인 심층 신경망을 설계하도록 막연하게 영감을 준 것은 바로 뇌의 구조였습니다.

심층 신경망은 연습을 통해 학습하는 컴퓨터 프로그램입니다. 네트워크는 그리드로 생각할 수 있습니다. 값을 저장하는 뉴런이라는 노드 레이어는 선 또는 "시냅스"를 통해 인접한 레이어의 뉴런에 연결됩니다. 처음에 이러한 시냅스는 "가중치"라고 알려진 난수일 뿐입니다.

네트워크가 숫자(예:4)를 읽도록 하려면 뉴런의 첫 번째 레이어가 4의 원시 이미지를 나타내도록 만들고 각 픽셀의 음영을 해당 뉴런의 값으로 저장할 수 있습니다. 그런 다음 네트워크는 계층별로 이동하면서 뉴런 값에 시냅스 가중치를 곱하여 다음 뉴런 계층을 채우면서 "생각"합니다. 마지막 레이어에서 가장 높은 값을 갖는 뉴런은 네트워크의 답을 나타냅니다. 예를 들어 두 번째 뉴런인 경우 네트워크는 2를 본 것으로 추측합니다.

더 똑똑한 추측을 하도록 네트워크를 가르치기 위해 학습 알고리즘이 역방향으로 작동합니다. 각 시도 후에 추측과 정답 간의 차이를 계산합니다(이 예에서는 마지막 레이어의 네 번째 뉴런에 대해 높은 값으로 표시되고 다른 곳에서는 낮은 값으로 표시됨). 그런 다음 알고리즘은 필요에 따라 최종 뉴런의 값을 높이거나 낮추기 위해 가중치를 조정하는 방법을 계산하여 네트워크 계층을 단계별로 다시 진행합니다. 역전파로 알려진 이 절차는 딥 러닝의 핵심입니다.

많은 추측과 조정 반복을 통해 역전파는 이미지에 의해 시작된 일련의 곱셈을 통해 거기에 적힌 숫자를 뱉어내는 숫자 구성으로 가중치를 안내합니다.

메릴 셔먼/Quanta 매거진

그러나 뇌에서 일어나는 모든 일과 비교할 때 인공 신경망에서 발생하는 디지털 버전의 학습은 극적으로 비효율적으로 보입니다. 하루 2,000칼로리 미만의 칼로리로 인간 어린이는 몇 년 안에 말하기, 읽기, 게임하기 등을 배웁니다. 이러한 제한된 에너지 식단에서 유창한 대화가 가능한 신경망인 획기적인 GPT-3가 채팅하는 방법을 배우는 데는 천년이 걸렸을 것입니다.

물리학자의 관점에서 볼 때 대규모 디지털 신경망은 단순히 너무 많은 수학을 수행하려고 하는 것입니다. 오늘날의 가장 큰 거대 기업은 5000억 개가 넘는 숫자를 기록하고 조작해야 합니다. 한편 우주는 컴퓨터의 빈약한 장부 관리 능력의 한계를 훨씬 넘어서는 작업을 끊임없이 수행합니다. 방에는 수조 개의 공기 분자가 튀고 있을 수 있습니다. 이는 본격적인 충돌 시뮬레이션에서 컴퓨터가 추적하기에는 불가능한 수의 움직이는 조각이지만, 공기 자체는 순간순간 어떻게 행동할지 결정하는 데 아무런 문제가 없습니다.

과제는 AI에 필요한 프로세스, 즉 이미지 분류에 관련된 "사고"와 그러한 이미지를 올바르게 분류하는 데 필요한 "학습"을 모두 자연스럽게 끌어낼 수 있는 물리적 시스템을 구축하는 것입니다. 두 가지 작업을 모두 마스터한 시스템은 실제로 수학을 수행하지 않고도 수학적으로 작동하는 우주의 능력을 활용할 수 있습니다.

Scellier는 "우리는 3.532 곱하기 1.567 같은 것을 계산하지 않습니다."라고 말했습니다. "그것은 암묵적으로 물리학 법칙에 의해 직접적으로 이루어졌습니다."

사고 부분

McMahon과 그의 협력자들은 퍼즐의 "사고" 부분에서 진전을 이루었습니다.

팬데믹 이전의 마지막 몇 달 동안 코넬에 연구실을 세우는 동안 McMahon은 흥미로운 사실을 곰곰이 생각해 보았습니다. 수년 동안 최고 성능의 이미지 인식 신경망은 점점 더 깊어졌습니다. 즉, 더 많은 레이어가 있는 네트워크는 여러 픽셀을 더 잘 받아들이고 "푸들"과 같은 레이블을 표시할 수 있습니다. 이 추세는 수학자들이 네트워크가 달성하는 변환(픽셀에서 "푸들"로)을 연구하도록 영감을 주었으며, 2017년에 여러 그룹은 네트워크가 부드러운 수학 함수의 대략적인 버전처럼 작동한다고 제안했습니다. 수학에서 함수는 입력(종종 x에 따른 위치)을 바꿉니다. -축)을 출력(y - 해당 위치에서 곡선의 값 또는 높이). 특정 유형의 신경망에서는 함수가 들쭉날쭉하지 않고 이상적인 곡선에 더 가까워지기 때문에 더 많은 레이어가 더 나은 성능을 발휘합니다.

이 연구를 통해 McMahon은 생각하게 되었습니다. 아마도 원활하게 변화하는 물리적 시스템을 통해 디지털 접근 방식에 내재된 블록성을 피할 수 있을 것입니다.

비결은 복잡한 시스템을 길들이는 방법, 즉 훈련을 통해 시스템의 행동을 적응시키는 방법을 찾는 것이었습니다. McMahon과 공동 작업자는 다양한 진동 패턴이 들어오는 사운드를 복잡한 방식으로 혼합하기 때문에 티타늄 플레이트를 그러한 시스템 중 하나로 선택했습니다. 플레이트가 신경망처럼 작동하도록 만들기 위해 그들은 입력 이미지(예:손으로 쓴 6)를 인코딩하는 하나의 사운드와 시냅스 가중치를 나타내는 다른 사운드를 입력했습니다. 장치가 소리를 병합하고 응답을 제공하기 위해 정확한 순간에 티타늄 플레이트를 치는 데 필요한 최고점과 최저점(예:분류 "6"을 나타내는 6밀리초에서 가장 큰 새로운 소리)

이 그룹은 또한 입력 이미지와 가중치가 크리스탈에 의해 뒤죽박죽되는 두 개의 광선으로 인코딩되는 광학 시스템과 유사하게 입력을 섞을 수 있는 전자 회로에서 계획을 구현했습니다. 원칙적으로는 비잔틴 방식의 모든 시스템이 가능하지만 연구원들은 광학 시스템이 특별한 가능성을 갖고 있다고 믿습니다. 크리스탈은 빛을 매우 빠르게 혼합할 수 있을 뿐만 아니라 빛은 세상에 대한 풍부한 데이터를 담고 있습니다. McMahon은 우리의 망막이 들어오는 빛에 대해 몇 가지 기본적인 시각 처리를 수행하는 것과 마찬가지로 자신의 광학 신경망의 소형화된 버전이 언젠가 자율 주행 자동차의 눈 역할을 하여 정지 신호와 보행자를 식별한 후 해당 정보를 차량의 컴퓨터 칩에 제공하는 것을 상상합니다.

그러나 이러한 시스템의 아킬레스건은 이를 교육하려면 디지털 세계로의 복귀가 필요하다는 것입니다. 역전파에는 신경망을 반대로 실행하는 것이 포함되지만 판과 결정은 소리와 빛을 쉽게 분리하지 않습니다. 그래서 그룹은 각 물리적 시스템의 디지털 모델을 구축했습니다. 노트북에서 이러한 모델을 역전파하면 역전파 알고리즘을 사용하여 가중치를 조정하여 정확한 답변을 제공하는 방법을 계산할 수 있습니다.

이 훈련을 통해 플레이트는 손으로 쓴 숫자를 87% 정확하게 분류하는 방법을 학습했습니다. 회로와 레이저의 정확도는 각각 93%와 97%에 달했습니다. 프랑스 국립과학연구센터(CNRS)의 물리학자인 Julie Grollier는 “이 결과는 표준 신경망만이 역전파를 통해 훈련될 수 있는 것이 아니라는 사실을 보여주었습니다.”라고 말했습니다. “정말 아름답네요.”

그룹의 떨리는 금속판은 아직 컴퓨팅을 뇌의 충격적인 효율성에 더 가깝게 가져오지 못했습니다. 디지털 신경망의 속도에도 미치지 못합니다. 그러나 McMahon은 그의 장치가 생각하는 데 뇌나 컴퓨터 칩이 필요하지 않다는 겸손하지만 놀라운 증거라고 생각합니다. “모든 물리적 시스템은 신경망이 될 수 있습니다.”라고 그는 말했습니다.

학습 부분

퍼즐의 나머지 절반인 시스템이 스스로 학습하도록 하는 아이디어가 풍부합니다.

독일 막스 플랑크 빛 과학 연구소의 물리학자인 플로리안 마르카르트(Florian Marquardt)는 한 가지 옵션은 뒤로 돌아가는 기계를 만드는 것이라고 믿습니다. 작년에 그와 동료는 이러한 시스템에서 실행될 수 있는 역전파 알고리즘의 물리적 유사체를 제안했습니다.

그것이 작동하는지 보여주기 위해 그들은 다른 입력 파동(예:이미지 인코딩)과 혼합되는 광파에 인코딩된 조정 가능한 가중치를 사용하여 McMahon과 유사한 레이저 설정을 디지털 방식으로 시뮬레이션했습니다. 그들은 정답에 더 가까워지도록 출력을 조금씩 움직이고 광학 구성 요소를 사용하여 파동을 풀어서 프로세스를 반대로 합니다. Marquardt는 "동일한 입력으로 장치를 다시 한 번 사용해 보면 [출력]이 원하는 위치에 더 가까워지는 경향이 있다는 것이 마법입니다"라고 말했습니다. 다음으로, 그들은 그러한 시스템을 구축하기 위해 실험자들과 협력하고 있습니다.

그러나 역방향으로 실행되는 시스템에 초점을 맞추면 옵션이 제한되므로 다른 연구자들은 역전파를 완전히 뒤로하고 있습니다. 그들은 뇌가 표준 역전파가 아닌 다른 방식으로 학습한다는 사실을 알고 격려를 받습니다. Scellier는 "뇌는 이렇게 작동하지 않습니다."라고 말했습니다. 뉴런 A는 뉴런 B와 통신하지만 “단방향일 뿐입니다.”

프랑스 국립 과학 연구 센터의 물리학자인 Julie Grollier는 역전파에 대한 유망한 대안으로 여겨지는 물리적 학습 알고리즘을 구현했습니다.

크리스토프 코드로이

2017년에 Scellier와 몬트리올 대학의 컴퓨터 과학자인 Yoshua Bengio는 평형 전파라는 단방향 학습 방법을 개발했습니다. 그것이 어떻게 작동하는지 이해하려면 뉴런처럼 작동하는 화살표 네트워크, 방향이 0 또는 1을 나타내고 시냅스 가중치 역할을 하는 스프링으로 그리드에 연결된 것을 상상해 보십시오. 스프링이 느슨할수록 연결된 화살표가 정렬되는 경향이 줄어듭니다.

먼저 가장 왼쪽 행의 화살표를 비틀어 손으로 쓴 숫자의 픽셀을 반영하고 교란이 스프링을 통해 파문을 일으키면서 다른 화살표를 뒤집는 동안 고정된 상태를 유지합니다. 뒤집기가 멈추면 가장 오른쪽 화살표가 답을 제공합니다.

결정적으로 화살표를 뒤집지 않고 이 시스템을 훈련할 필요가 없습니다. 대신 네트워크 하단을 따라 정답을 표시하는 또 다른 화살표 세트를 연결합니다. 위쪽 세트의 화살표가 뒤집히면 전체 그리드가 새로운 균형을 이루게 됩니다. 마지막으로 화살표의 새 방향을 이전 방향과 비교하고 그에 따라 각 스프링을 조이거나 느슨하게 합니다. 많은 시험을 통해 스프링은 Scellier와 Bengio가 보여준 역전파와 동일한 방식으로 더 스마트한 장력을 얻습니다.

Grollier는 “물리적 신경망과 역전파 사이에는 연관성이 없다고 생각되었습니다.”라고 말했습니다. "아주 최근에 달라진 점은 매우 흥미롭습니다."

평형 전파에 대한 초기 연구는 모두 이론적이었습니다. 그러나 다가오는 간행물에서 Grollier와 CNRS의 물리학자인 Jérémie Laydevant는 D-Wave 회사가 제작한 양자 어닐러라는 기계에서 알고리즘을 실행하는 방법을 설명합니다. 이 장치에는 스프링으로 연결된 화살표처럼 작동하고 "스프링"이 어떻게 업데이트되어야 하는지 자연스럽게 계산할 수 있는 수천 개의 상호 작용하는 초전도체 네트워크가 있습니다. 하지만 시스템은 이러한 시냅스 가중치를 자동으로 업데이트할 수 없습니다.

서클 닫기

적어도 하나의 팀이 모든 힘든 일(사고, 학습, 가중치 업데이트)을 물리학으로 수행하는 전자 회로를 구축하기 위해 조각을 모았습니다. 펜실베이니아 대학의 물리학자인 Sam Dillavou는 "우리는 소규모 시스템의 루프를 닫을 수 있었습니다."라고 말했습니다.

펜실베니아 대학의 물리학자인 샘 딜라보는 학습하면서 스스로 수정될 수 있는 회로를 고안하고 있습니다.

제이콥 F. 와이코프

Dillavou와 그의 동료들의 목표는 문자 그대로 스마트 물질인 뇌를 모방하는 것입니다. 즉, 단일 구조 없이 학습하는 비교적 균일한 시스템입니다. “모든 뉴런은 각자의 일을 하고 있습니다.”라고 그는 말했습니다.

이를 위해 그들은 가변 저항이 시냅스 가중치 역할을 하고 뉴런이 저항 사이에서 측정되는 전압이 되는 자가 학습 회로를 구축했습니다. 주어진 입력을 분류하기 위해 데이터를 몇 개의 노드에 적용되는 전압으로 변환합니다. 전류는 회로를 통해 흐르면서 최소한의 에너지를 소모하는 경로를 찾고 안정화되면 전압을 변경합니다. 답은 지정된 출력 노드의 전압입니다.

그들의 주요 혁신은 끊임없이 도전적인 학습 단계에서 이루어졌으며, 이를 위해 결합 학습이라는 평형 전파와 유사한 체계를 고안했습니다. 하나의 회로가 데이터를 받아 추측을 "생각"하면 동일한 두 번째 회로가 정답으로 시작하여 이를 동작에 통합합니다. 마지막으로 각 저항 쌍을 연결하는 전자 장치는 자동으로 해당 값을 비교하고 조정하여 "더 스마트한" 구성을 달성합니다.

이 그룹은 지난 여름 사전 인쇄에서 그들의 초보적인 회로를 설명하여 95%의 정확도로 세 가지 유형의 꽃을 구별하는 방법을 배울 수 있음을 보여주었습니다. 이제 그들은 더 빠르고 더 많은 기능을 갖춘 장치를 개발하고 있습니다.

그 업그레이드조차도 최첨단 실리콘 칩을 능가하는 데에는 미치지 못할 것입니다. 그러나 이러한 시스템을 구축하는 물리학자들은 오늘날 강력해 보이는 디지털 신경망이 결국 아날로그에 비해 느리고 부적절해 보일 것이라고 의심합니다. 디지털 신경망은 과도한 계산으로 인해 수렁에 빠지기 전까지만 확장할 수 있지만, 더 큰 물리적 네트워크는 그 자체가 되는 것 외에는 아무 것도 할 필요가 없습니다.

Dillavou는 "이 분야는 너무 크고 빠르게 변화하며 다양한 분야이므로 이러한 원리로 만들어진 매우 강력한 컴퓨터가 나오지 않을 것이라는 사실을 믿기 어렵습니다."라고 말했습니다.