당신은 책을 표지로 판단 할 수 없거나 사람들에 대해 배웁니다. 그러나 세포의 경우 놀랍게도 덜 사실입니다. 컴퓨터가 얼굴을 인식 할 수있는 기계 학습 방법을 사용하여 생물 학자들은 현미경 이미지 스택에 개별 세포를 특성화 할 수 있습니다. 태그가 지정된 단백질의 분포, 핵의 형태, 미토콘드리아의 수 등 수천 개의 시각화 가능한 세포 특성을 측정함으로써, 컴퓨터는 세포 유형 및 질병 관련 특성을 식별하는 패턴에 대해 세포의 이미지를 채굴 할 수 있습니다. 이러한 종류의 이미지 기반 프로파일 링
Massachusetts Institute of Technology and Harvard University의 Broad Institute의 이미징 플랫폼의 전산 생물 학자이자 수석 이사 인 Anne Carpenter는이 연구 접근 방식의 선구자입니다. 그녀는 셀 이미지에서 표현형 (관찰 가능한 특성 세트)을 측정하기 위해 널리 사용되는 오픈 소스 소프트웨어 인 CellProfiler를 개발했습니다. 2005 년 출시 이후 12,000 개가 넘는 출판물에서 인용되었습니다.
세포 생물 학자로서 훈련하는 동안 부수적 인 프로젝트로 시작했습니다. 목수는 그녀가 필요로하는“일을하기 위해 약간의 코드 스크랩”이라고 부릅니다. 시간이 지남에 따라 다른 연구자들도 유용한 도구 상자로 자랐습니다. 그녀는“박사후의 끝이 끝날 무렵, 나는 다른 사람들이 내 자신의 특정한 생물학적 질문을 추구하는 것보다 도구를 만들어 멋진 생물학을 달성하도록 도와주는 것을 많이 발견했다”고 말했다. "그래서 나는 컴퓨터 과학에 머무르는 이유입니다."
매사추세츠 과학 아카데미 아카데미 인 카펜터는 국립 과학 재단 (National Science Foundation)의 경력 상과 미국 세포 생물학 학회 (American Society for Cell Biology)의 Cell Biology Mid-Career Award의 2020 여성으로부터 경력 상을 수상했습니다.
.카펜터는 Quanta Magazine 과 대화했다 지저분한 생물학을 계산적으로 해결 가능한 문제로 번역하는 기쁨, 단일 우물에서 200 개의 질병에 대한 약물을 선별하기위한 야심 찬 노력, 겸손하고 호기심이 많으며 징계 외부의 사람들과 의사 소통 할 수있는 연구자들이 다양한 생물학 및 기계 학습의 다양성을 향상시키는 문화를 만들 수있는 방법. 인터뷰는 명확성을 위해 압축되고 편집되었습니다.

컴퓨터 과학자들은 생물학에 자신의 기술을 적용했지만 생물학에서 소프트웨어 엔지니어링으로 덜 일반적인 경로를 취했습니다. 무엇이 당신에게 동기를 부여 했습니까?
전환은 필요성에서 태어났습니다. 2000 년대 초반 일리노이 대학교 (University of Illinois)의 세포 생물학 박사 학위 작업 중에, 나는 진핵 생물 세포의 DNA 및 단백질의 복합체 인 크로마틴이 에스트로겐 수용체를 통과하는 신호에 어떻게 반응하는지 연구하고있었습니다. 이를 위해서는 수천 개의 현미경 이미지를 캡처해야했습니다. 수동으로하는 데 몇 달이 걸렸을 것입니다. 현미경을 자동화하는 방법을 알아낼 수 있다면 좋을 것이라고 결정했습니다.
나는 컴퓨터 과학에 대한 공식적인 훈련이 없었습니다. 현미경을 프로그래밍하는 방법을 알아내는 데 약 한 달이 걸렸지 만 실제로 지루한 방식으로 이미지를 수동으로 수집하는 2 개월을 절약했습니다.
그것은 또한 새로운 도전을 만들었습니다. 이제 나는 분석 할 거대한 이미지 더미를 가지고있었습니다. 나는 코드를 복사하고 붙여 넣는 데 몇 달과 몇 달을 보냈다.
그래도 이미지 분석을 가지고 놀았을 때 나는 푹 빠졌다. 지저분한 질적 생물학을 정확한 정량적 숫자로 바꿀 수 있다는 것은 매우 만족 스러웠습니다. 나는 고 처리량 이미징을 통해 생물학을 가속화 할 수있는 박사후 위치를 찾기로 결정했습니다.
최근 에세이에서는 생물학을“지저분한”뿐만 아니라“논리 퍼즐”이라고 묘사합니다. 그것에 대해 조금 더 이야기 할 수 있습니까?
생물학은 매우 지저분합니다. 아무것도 알아 내기가 어렵습니다. A가 활성화 된 B를 활성화 한 다음 C를 활성화 한 다음 C가 D 등을 억제하기를 바랍니다. 그러나 실제로, 피드백, 다중 입력, 대체 경로와 같은 이상하고 부정확 한 관계가 너무 많아서 세포에서 진행됩니다.
그러나 나는 또한 생물학이 논리 퍼즐이라고 믿는다. 우리가 할 수있는 최선은 우리가 테스트하는 모델 시스템을 제한하는 것입니다. 그런 다음 우리는 그것을 교란 시키거나 입력 및 출력 등을 측정 할 수 있습니다. 우리는 그것에 많은 제약을 부과함으로써 생물학을 덜 지저분한 것으로 바꿀 수 있습니다.
Whitehead Institute의 박사후에서, 당신은 결국 CellProfiler가 된 작업을 시작했습니다. 어떻게 그걸 갔습니까?
프로젝트에 대한 심각한 새로운 코드가 필요하다는 것을 깨달았으므로 시행 착오로 프로그래밍을 배웠습니다. 그러나 여전히 고전적인 이미지 처리 알고리즘을 구현하는 데 도움이 필요했습니다. 나는 종이를 읽고“이것이 바로 내가 필요로하는 것”이라고 말했지만 논문의 방정식을 코드로 변환하는 방법은 전혀 없었습니다.
.MIT의 컴퓨터 과학 및 인공 지능 실험실에서 대학원생 목록에 이메일을 보냈고 다음과 같이 물었습니다. 친교 돈이 있어요.” Thouis (Ray) Jones는 한 주말에 핵심 알고리즘을 구현했습니다. 그들은 매우 혁명적이었고 CellProfiler가 성공한 이유의 핵심을 형성했습니다.이 알고리즘은 최종 사용자가 이용할 수있게했습니다.
.다양한 세포에서 표현형 차이를 정량화하여 대규모로, CellProfiler는 "이미지 기반 프로파일 링"에 사용될 수 있습니다. 이것에 대한 아이디어를 어떻게 쳤습니까?
사람들은 우리에게 와서 다음과 같이 말할 것입니다.“여기 내 멋진 세포 유형이 있습니다. 다음은 세포에서 일부 단백질을 표시하는 특별한 항체입니다. 핵에 내 단백질이 얼마나 있는지 말해 줄 수 있습니까?” 물론 이미지 분석을 통해 우리는 그들이 요청한 것을 측정 할 수 있습니다.
그러나 이미지를 살펴보면 다음과 같이 말할 것입니다.“단백질의 질감이 변하고 있음을 알았습니까? 아니면 실제로 내부보다 핵의 가장자리에 더 많습니까? 그리고 우리는이 얼룩과 그 얼룩 사이의 공동-국소화를 봅니다. 그리고 세포의 전체 모양이 변하고 있습니다. 생물학적으로 의미가 있습니까?” 생물 학자들이 테이블에 떠나는 정보가 너무 많았습니다!
그때 나는 2004 과학에서 영감을 받았을 때 연구자들이 다양한 화합물 세트로 처리 된 세포에서 이미지 기반 프로파일 링을 수행 한 종이. 그들은 기능적으로 유사한 화합물로 처리 된 세포가 비슷하게 보이는 경향이 있음을 보여 주었다.이 화합물은 세포에 유사한 영향을 미쳤다. 전기가 발생했습니다. 세포의 겸손하고 아름다운 이미지는 세포가 어떤 약물을 처리했는지 알려주기에 충분한 정량적 정보를 가지고있을 수 있습니까? 이 논문은 실제로 이미지 기반 프로파일 링 분야를 시작했습니다.
이 프로파일 링은 무엇을 포함합니까?
우리는 셀의 외관에 대해 우리가 할 수있는 모든 것을 측정합니다. 우리는 세포의 구조와 전반적인 외관이 그 역사, 즉 환경에 의해 어떻게 대우받는지를 반영한다는 기본 관찰을 바탕으로하고 있습니다. 이미지가 셀의 상태를 반영하면, 우리가 이것들을 정량화하고 확장 할 수 있다면, 그 패턴을 찾는 것이 정말 유용해야합니다.
거기에서 어디서 가져 갔습니까?
우리는 생물 학자가 구체적으로 얼룩을 쓰기로 결정한 것에 의존하는 대신 가능한 많은 정보를 단일 분석으로 포장하는 데 도움이되도록 세포 회화를 고안했습니다. 세포 페인팅 분석은 6 개의 형광 염료를 사용하여 핵, 핵, 세포질 RNA, 소포체, 미토콘드리아, 혈장 (세포) 막, 골지 복합체 및 F- 악틴 시토 킬레톤을 나타냅니다. 이것은 약물이나 유전자 돌연변이와 같은 모든 종류의 스트레스 요인에 반응하는 세포의 일부를 보여주기 때문에 현미경 학자들이 가장 좋아하는 염료 목록과 같습니다.
.그럼에도 불구하고, 나는 이미지 기반 분석이 RNA 전 사체 나 단백질을 기반으로 프로파일 링만큼 강력 할 것으로 기대하지 않았다. 단일 실험에서는 수천 개의 전 사체 또는 수백 개의 단백질을 측정 할 수 있습니다. 그러나 우리는 주어진 이미지에 대한 소수의 얼룩 만 가지고 있습니다. 나는 얼마나 멀리 얻을 수 있다고 생각 했습니까?
나는 초기에 많은 수면을 잃었고, 인공물을 배제하고 방법을 개선하고 그것이 실제로 가치가 있는지 확인하려고 노력했습니다. 그러나 다음 10 년 정도는 이미지를 프로파일 링 방식으로 사용하는 데 기반한 발견 후 발견을 가져 왔습니다.
오늘날 머신 러닝은 이미지에서 많은 정보를 추출 할 수 있습니다. 이 알고리즘은 2005 년에 출시 된 CellProfiler의 원래 버전의 일부입니까?
별말씀을요. CellProfiler의 기능은 고전적인 이미지 처리 알고리즘이 이미지의 속성을 측정하도록하여 이미지를 숫자로 바꾸는 것이 었습니다. 나중에 머신 러닝이 세 가지 방법으로 진행될 때까지.
첫째, 기계 학습은 세포와 다른 세포 내 구조의 경계를 찾을 수 있습니다. 딥 러닝 알고리즘은 이제 더 정확하지만 생물 학자가 적용하기가 더 쉽습니다. 두 세계의 최고입니다.
둘째, CellProfiler가 셀당 수천 개의 특징을 추출한다고 가정 해 봅시다. 세포가 전이성인지 알고 싶고 표현형 인 경우 눈으로 인식 할 수 있다면 감독 된 기계 학습을 사용하여 컴퓨터에 전이성 세포와 비충마 세포가 해당 기능을 기반으로 어떻게 보이는지 가르 칠 수 있습니다.
.세 번째 방법은 매우 최근의 발전입니다. CellProfiler를 사용하여 세포를 식별 한 다음 특징을 추출하는 대신, 모든 원시 픽셀 영광의 전체 이미지를 딥 러닝 신경 네트워크에 제공하며, 세포 크기와 같은 관련 기능에 대한 생물학 자의 사전 구성된 아이디어에 반드시 잘 알려지지 않은 모든 종류의 기능을 추출합니다. 우리는 이런 종류의 기능 추출이 매우 강력하다고 생각합니다.

생물 학자들에게 꽤 외국인처럼 보일 수있는 분야 인 기계 학습에 어떻게 자신을 장비 했습니까?
대학생 Anne에게“22 년 후, AI에 중점을 둔 연구 그룹을 이끌 것”이라고 말한 적이 있다면 나는 당신이 미쳤다고 말했을 것입니다. 기계 학습 전문가, 특히 Jones와 친구를 사귀지 않고 머신 러닝으로 전환하는 것은 불가능했을 것입니다.
그와 나는 MIT에서 훈련을 마친 후 2007 년 Broad Institute에서 함께 실험실을 시작했으며 기계 학습이 생물 학자들을 어떻게 도울 수 있는지에 대해 많은 브레인 스토밍했습니다. 이러한 아이디어가 우리 둘 다 울타리를 뛰어 넘어 양측, 생물학 및 컴퓨터 과학의 용어와 힘에 익숙해졌습니다. 실제로 생산적인 파트너십입니다.
그리고 더 이상 존스만이 아닙니다. 우리 그룹은 생물학 측에서 오는 사람들과 계산 측면에서 약 50-50입니다.
학제 간 작업을 촉진하는 데 많은 성공을 거두었습니다.
나는 사람들을한데 모으는 것을 좋아합니다. 저의 실험실은 호기심이 많고 다른 아이디어를 가진 사람들을 환영합니다.“우리는 중요하고, 우리의 일을하고, 조롱하고 싶지 않으면 질문을하지 않는 독성 기술 형제 문화와 반대입니다. 컴퓨터 과학 분야에서 여성이되는 것이 어렵다는 것을 깨달았을 때, 나는 일반적으로 과학에서 인종적 소수 민족에있는 것이 훨씬 어렵다는 것을 즉시 깨달았습니다.
우리는 그 사람이 그룹을 보완하는 기술과 관심사를 가지고 있는지, 도메인 이외의 지역에 대해 궁금한 지, 동일한 훈련없이 사람들과 잘 의사 소통 할 수 있는지 여부에 중점을 둡니다. 그리고 명시 적으로 시도하지 않고, 내 실험실은 최상위 기관의 계산 실험실에서 평균보다 훨씬 다양했습니다. 그리고 내 동창들 중에서 시작된 독립 실험실의 대부분은 소수 그룹의 여성이나 사람들이 이끌고 있습니다.
나는 얼마나 많은 사람들이 인종 차별 주의자 나 성 차별 주의자라고 생각하지 않는지 궁금하지만, 고용 할 때“이 사람은 나처럼 말하고, 우리의 언어와 전문 용어를 이해하고, 우리의 영역을 이해합니다.”“그는 맥주를 마시고 싶은 사람입니다. 인구 통계에서 균질 한 그룹뿐만 아니라 도메인 전문 지식과 경험에서도 어떻게 될지 알 수 있습니다.
요즘 귀하의 그룹은 약물 발견을 가속화하기위한 이미지 기반 프로파일 링 도구를 개발하는 데 중점을 둡니다. 왜 그것을 선택 했습니까?
여러 줄의 증거가 그 임무를 강화하는 데 도움이되었습니다. 하나는 이미지 기반 프로파일이 전사 프로파일만큼 강력 할 수 있음을 보여주는 2014 년에 헤드 투 헤드 실험에서 나왔습니다.
다른 하나는 2017 년 elife 에 설명되었습니다 우리가 세포에서 수백 유전자를 과발현하고 절반이 세포 형태에 영향을 미친다는 것을 발견했습니다. 영상 데이터에 기초하여 유전자를 그룹화함으로써, 생물 학자들이 수십 년 동안 다양한 신호 전달 경로에 대해 함께 모은 한 아름다운 클러스터 분석에서 볼 수 있습니다. 여기서는 암에 관련된 RAS 경로와 관련된 모든 유전자; 그곳에서 조직 성장을 조절하는 하마 경로의 유전자.
그 시각화를보고, 우리는 단일 실험 에서이 유전자 세트에 대한 많은 생물학적 지식을 재구성했다. 이 연구 궤적을 개발하는 데 더 많은 시간과 에너지를 투자하기로 결정했습니다.
2018 세포 화학 생물학 Paper, Janssen Pharmaceutica 연구원들은 오래된 실험에서 앉아있는 이미지를 파헤 쳤다. 그들은 그들이 돌보는 것 중 하나만 측정 한 곳에서 회사가 수행 한 다른 분석법의 결과를 예측하기에 충분한 정보가 있음을 발견했다. 분석 결과의 약 37%가 머신 러닝에 의해 그들이 놓인 이미지를 사용하여 예측할 수 있습니다. 이것은 정말로 큰 제약의 관심을 끌었습니다! 대규모 약물 분석을 계산 쿼리로 교체하면 매번 수백만 달러가 절약됩니다.
컨소시엄에서 2019 년에 출시를 도왔습니다. 12 개의 회사와 비영리 파트너가 120,000 개 이상의 화합물로 처리 된 대규모 세포 페인팅 데이터 세트를 만들고 20,000 개의 유전자 섭동을 겪기 위해 노력하고 있습니다. 목표는 임상 시험에 들어가기 전에 잠재적 인 약물의 작용 메커니즘을 결정하여 약물 발견을 가속화하는 것입니다.
이미지 기반 프로파일 링이 새로운 약물을 찾는 데 어떻게 도움이 될 수 있습니까?
재귀 제약은 이미지 기반 프로파일 링을 사용하는 데 가장 먼 회사이며 4 개의 약물 화합물이 임상 시험에 들어갑니다. 나는 그들의 과학 자문위원회에서 봉사합니다. 그들의 기본적인 접근법은 인간 질병을 일으키는 것으로 알려진 유전자를 교란시키고 결과적으로 세포에 어떤 일이 일어나는지 보자. 그리고 세포가 측정 가능한 방식으로 변하면 건강에 해로운 세포가 건강하게 보이게하는 약물을 찾을 수 있습니까?
그들은 한 걸음 더 나아갔습니다. 세포의 약물을 테스트하지 않으면 서, 세포에 대한 화합물의 영향을 나타내는 이전 시험을 기반으로 어떤 질병 표현형이 완화 될 수 있는지를 계산할 수 있습니다. 나는이 전략이 효과가 있다는 것을 알고 있습니다. 우리 실험실은 비교적 원시적 인 계산 기술을 사용하더라도 우리가 방금 프리 인쇄 한 프로젝트에서 동일한 작업을 수행하고 있었기 때문에
.MIT 및 J.T.에서 Paul Blainey와 협력하고 있습니다. 이 유전자 바 코딩 기술에 대한 Broad Institute의 Neal은 세포에서 유전자 섭동을 혼합 한 다음 바 코딩을 사용하여 어떤 세포가 어떤 유전자 시약을 얻었는지 알아냅니다. 이를 통해 우리는 약물로 치료할 수있는 단일 우물로 200 개의 정상 및 200 개의 돌연변이 된 인간 단백질을 함께 혼합 할 수 있습니다. 각 우물에 대해, 우리는이 약물 이이 200 가지 질병 중 하나에 유용한 지 테스트하고 있습니다. 따라서 200 배의 개별 약물 스크린을 수행하는 것보다 200 배 저렴합니다.
우리는 80 개의 약물로 조종사를하기 위해 내부 자금을 확보했으며 약 6,800 개의 약물을 테스트하기위한 자금을 찾고 있습니다. 우리 가이 작업을 잘한다면, 지금부터 약 1 년 동안이 실험의 결과는 의사가 논문을 읽은 후 처방 할 수있는 이러한 장애에 대한 실제 약물을 제안합니다.
.생의학 연구에서 이미지 기반 프로파일 링의 미래에 대해, 그리고 아마도이 영역에서 AI의 미래에 대해 더 광범위하게 당신을 흥분 시키는가?
우리는 이미 기존 기계 학습 방법을 구현하면 약물 발견 프로세스가 향상되는 시점에 있습니다. 그러나 나는 이미지 기반 프로파일 링의 현재 기능을 넘어서 미래를 볼 수 있습니다. 여기서 도약과 경계에서 기하 급수적으로 얻기 시작합니다.
.우리가 사용하고있는 모든 기계 학습 알고리즘은 소셜 미디어를 위해 개발되어 얼굴을 식별하고 금융 기관이 비정상적인 거래를 식별 할 수 있도록 개발되었습니다. 생물학적 영역과 세포 이미지에 더주의를 기울이는 것이 특히 더 빨리 앞으로 나아갈 수 있다고 생각합니다.