>> HLK 자연과학 >  >> 생물학

게놈 진실에 대한 통계적 검색


"우리는 생물학에 대한 진실이 많지 않습니다." 프린스턴 대학교의 컴퓨터 과학자 인 바바라 엥겔 하르트 (Barbara Engelhardt)에 따르면, 이는 게놈 데이터를 분석하기 위해 전통적인 기계 학습 방법을 제시하려고 할 때 연구자들이 직면 한 많은 과제 중 하나 일뿐입니다. 인공 지능과 기계 학습의 기술은 생물학적 연구의 환경을 극적으로 바꾸고 있지만 Engelhardt는 이러한 "블랙 박스"접근 방식이 질병을 이해, 진단 및 치료에 필요한 통찰력을 제공하기에 충분하다고 생각하지 않습니다. 대신, 그녀는 게놈의 현실이지만 애매한 "지상 진실"을 파악하기 위해 예상되는 생물학적 패턴을 검색하는 새로운 통계 도구를 개발하고 있습니다.

.

Engelhardt는 유전자 변이의 별자리를 빗질하고 심지어 숨겨진 데이터를 숨겨진 보석에 대한 빗질하는 것과 관련이 있기 때문에 탐정 작업에 대한 노력을 비유합니다. 예를 들어, 지난 10 월에 발표 된 연구에서 그녀는 모델 중 하나를 사용하여 44 개의 인간 조직에서 다른 염색체 (원격 유전자라고 함)에서의 유전자 조절과 돌연변이가 어떻게 관련되는지 결정했습니다. 다른 발견 중에서, 결과는 갑상선 암 요법에 대한 잠재적 인 유전 적 표적을 지적했다. 그녀의 연구는 병리학 이미지에서 발견 된 특정 특징과 유사하게 돌연변이와 유전자 발현을 연결했습니다.

Engelhardt의 연구 적용은 게놈 연구를 넘어 확장됩니다. 그녀는 예를 들어, 다른 종류의 기계 학습 모델을 구축하여 의사에게 환자를 인공 호흡기에서 제거하고 스스로 숨을 쉴 수 있도록 권장합니다.

.

그녀는 통계적 접근 방식이 임상의가 특정 조건을 조기에 잡고 기본 메커니즘을 풀고 증상보다는 원인을 치료하는 데 도움이되기를 희망합니다. 그녀는“우리는 질병을 해결하는 것에 대해 이야기하고 있습니다

이를 위해, 그녀는 유전자 조절, 발현 및 변이가 건강한 표현형 및 질병 모두에 어떻게 기여하는지 연구하는 국제 연구 협력 인 유전자형 조직 발현 (GTEX) 컨소시엄을 가진 주요 연구자로 일하고 있습니다. 현재 그녀는 특히 신경 정신과 및 신경 퇴행성 질환에 관심이 있으며 진단하고 치료하기가 어렵습니다.

Quanta Magazine 최근 Engelhardt와 함께 Black-Box 머신 러닝의 단점, 생물학적 데이터에 적용될 때, 그녀가 그 단점을 해결하기 위해 개발 한 방법, 그리고 흥미로운 정보를 발견하기 위해 데이터의 "노이즈"를 체로 체결해야 할 필요성에 대해 이야기했습니다. 인터뷰는 명확성을 위해 압축되고 편집되었습니다.

생물학의 질문에 기계 학습 작업을 집중하게하는 동기가있는 이유는 무엇입니까?

나는 항상 통계와 기계 학습에 대해 흥분했습니다. 대학원에서 저의 고문 인 Michael Jordan [버클리 대학교의 University]은 다음과 같이 말했습니다.“진공 상태에서 이러한 방법을 개발할 수는 없습니다. 동기 부여 응용 프로그램에 대해 생각해야합니다.” 나는 생물학을 매우 빨리 바꾸었다. 그리고 그 이후로, 그 이후로, 나의 연구를 이끌어내는 대부분의 질문은 통계적이 아니라 오히려 생물학적이다 :유전학과 질병의 기본 메커니즘을 이해하고, 더 나은 진단과 치료제로 이어질 수 있기를 바랍니다. 그러나 내가있는 분야에 대해 생각할 때 - 내가 읽은 논문, 내가 참석하는 컨퍼런스, 내가 가르치는 수업 및 학생들은 멘토링 - 학업 중심은 기계 학습과 응용 통계에 중점을 둡니다.

우리는 게놈 마커와 질병 위험 사이의 많은 연관성을 발견했지만 몇 가지 경우를 제외하고 이러한 연관성은 예측이 아니며 질병을 진단, 표적 및 치료하는 방법을 이해할 수 없었습니다. 질병 위험과 관련된 유전자 마커는 종종 질병의 진정한 인과 적 마커가 아닙니다. 한 질병은 가능한 많은 유전 적 원인을 가질 수 있으며, 복잡한 질병은 환경과 상호 작용할 수있는 많은 유전자 마커로 인해 발생할 수 있습니다. 이는 습식 랩 과학자 및 의료 의사와 함께 일하는 통계 유전학 및 기계 학습에 대한 배경 지식을 가진 사람이 해결하고 해결하기 시작할 수있는 과제입니다. 그것은 우리가 실제로 증상뿐만 아니라 그들의 원인을 실제로 치료할 수 있음을 의미합니다.

유전체학 및 건강 관리에 적용하는 데 전통적인 통계적 접근 방식이 어떻게 충분하지 않은지에 대해 전에 이야기 한 적이 있습니다. 왜 그렇지 않습니까?

첫째, 해석 성이 부족하기 때문입니다. 머신 러닝에서는 종종 "블랙 박스"방법-[무작위 산림이라고 불리는 분류 알고리즘] 또는 더 깊은 학습 접근법을 사용합니다. 그러나 그들은 우리가 상자를“개방”할 수 없으며, 특정 세포 유형에서 어떤 유전자가 차별적으로 조절되는지 또는 어떤 돌연변이가 질병의 위험이 더 높은지 이해합니다. 생물학적으로 무슨 일이 일어나고 있는지 이해하는 데 관심이 있습니다. 이유를 설명하지 않고 답을 드리는 무언가를 가질 수 없습니다.

이러한 방법의 목표는 종종 예측이지만 사람의 유전자형을 감안할 때 제 2 형 당뇨병을 얻을 확률을 추정하는 것은 특히 유용하지 않습니다. 나는 그들이 어떻게 제 2 형 당뇨병을 얻는 지 알고 싶다. 어떤 돌연변이가 어떤 유전자의 조절도를 유발하여 상태의 발달로 이어진다. 내가 묻는 질문에는 예측이 충분하지 않습니다.

두 번째 이유는 샘플 크기와 관련이 있습니다. 통계의 대부분의 운전 응용 프로그램에서는 흥미로운 구조를 가진 제한된 수의 기능 또는 관찰을 통해 많은 수의 데이터 샘플 (예 :Netflix 사용자 또는받은 편지함의 수)을 사용한다고 가정합니다. 그러나 생물 의학 데이터와 관련하여 우리는 전혀 그것을 가지고 있지 않습니다. 대신, 우리는 병원에 제한된 수의 환자, 우리가 서열 할 수있는 제한된 수의 유전자형을 가지고 있지만, 게놈의 모든 돌연변이를 포함하여 한 사람에 대한 거대한 특징이나 관찰 세트. 결과적으로 통계에서 많은 이론적이고 적용된 접근 방식은 게놈 데이터에 사용할 수 없습니다.

게놈 데이터를 분석하기 어려운 이유

생물 의학 데이터에서 가장 중요한 신호는 종종 엄청나게 작으며 기술적 인 소음에 의해 완전히 늪입니다. 그것은 실제 생물학적 신호를 모델링하는 방법, 즉 데이터에 대해 묻고 자하는 질문뿐만 아니라, 당신이 신경 쓰지 않는 이들에 의해 주도되는이 엄청나게 무거운 소음이 있으면 개인이 어떤 인구에서 왔는지, 어떤 기술자가 실험실에서 샘플을 운영했는지를 모델링하는 방법에 관한 것입니다. 그 소음을주의 깊게 제거해야합니다. 그리고 우리는 종종 데이터를 사용하여 답변하고 싶은 많은 질문이 있으며, 대답을 파악하기 위해서는 많은 수의 통계 테스트 (문자 그대로 수조)를 실행해야합니다. 예를 들어, 게놈에서의 돌연변이와 관심있는 특성 사이의 연관성을 확인하기 위해, 그 특성은 조직에서 특정 유전자의 발현 수준 일 수있다. 그렇다면 신호가 실제로 작고 때로는 소음과 구별하기가 매우 어렵다는 엄격하고 강력한 테스트 메커니즘을 어떻게 개발할 수 있습니까? 우리가 알고있는이 모든 구조와 노이즈가 존재한다는 것을 어떻게 바로 잡을 수 있습니까?

그래서 우리는 대신 어떤 접근 방식을 취해야합니까?

내 그룹은 우리가 드문 잠재적 인 요소 모델이라고 부르는 것에 크게 의존하며, 이는 수학적으로 복잡하게 들릴 수 있습니다. 근본적인 아이디어는이 모델들이 매우 적은 수의 기능에 대해서만 샘플에서 관찰 한 모든 변형을 분할한다는 것입니다. 이들 분할 중 하나는 예를 들어 10 개의 유전자 또는 20 개의 돌연변이를 포함 할 수있다. 그리고 과학자로서, 나는 그 10 개의 유전자를보고 그들이 공통적으로 무엇을 가지고 있는지 알아낼 수 있습니다. 샘플 분산에 영향을 미치는 생물학적 신호 측면 에서이 주어진 파티션이 무엇을 나타내는 지 결정합니다.

.

따라서 2 단계 프로세스라고 생각합니다. 첫째, 모든 변형 소스를 가능한 한 신중하게 분리하는 모델을 구축하십시오. 그런 다음 과학자로서 모든 파티션이 생물학적 신호 측면에서 무엇을 나타내는 지 이해합니다. 그 후, 우리는 다른 데이터 세트에서 이러한 결론을 검증하고 이러한 샘플에 대해 우리가 알고있는 다른 것에 대해 생각할 수 있습니다 (예 :같은 나이의 모든 사람 이이 파티션 중 하나에 포함되어 있는지)

.

“과학자로 들어가서”말할 때 무슨 뜻입니까?

나는 특정한 생물학적 패턴을 찾으려고 노력하고 있기 때문에 많은 구조 로이 모델을 구축하고 내가 기대하는 신호의 종류에 대해 많은 것을 포함하고 있습니다. 나는 스캐 폴드, 데이터의 말과 어떤 패턴이 있는지 알려주는 매개 변수 세트를 설정합니다. 모델 자체에는 일정량의 표현력 만 있으므로 특정 유형의 패턴 만 찾을 수 있습니다. 내가 본 것에서, 기존 일반 모델은 우리가 생물학적으로 해석 할 수있는 신호를 찾는 데 큰 도움이되지 않습니다. 그들은 종종 생물학적으로 가장 큰 영향력있는 분산 원과는 달리 데이터에 가장 큰 영향을 미치는 사람을 결정합니다. 대신에 제작 된 스캐 폴드는 데이터를 설명하기 위해 매우 구조적이고 매우 복잡한 패턴 제품군을 나타냅니다. 그런 다음 데이터는 해당 스캐 폴드를 채우고 해당 구조의 어느 부분이 표시되고 있는지 알려줍니다.

따라서 일반 모델을 사용하는 대신 내 그룹과 데이터를주의 깊게 살펴보고 생물학적 관점에서 무슨 일이 일어나고 있는지 이해하고, 우리가 보는 패턴 유형에 따라 모델을 조정하십시오.

.

잠재 요인 모델은 실제로 어떻게 작동합니까?

우리는 이러한 잠재 요인 모델 중 하나를 병리학 이미지 [현미경으로 조직 슬라이스의 그림]에 적용했으며, 이는 종종 암 진단에 사용됩니다. 모든 이미지에 대해, 우리는 또한 그 조직에서 발현 된 유전자 세트에 대한 데이터를 가졌다. 우리는 이미지와 해당 유전자 발현 수준이 어떻게 조정되었는지보고 싶었습니다.

우리는 픽셀 레벨 값뿐만 아니라 이미지의 패턴을 식별하기 위해 깊은 학습 방법을 사용하여 각 이미지를 설명하는 일련의 기능을 개발했습니다. 우리는 각 이미지에서 수천 가지 이상의 기능을 꺼내고 주거나 가져간 다음 잠재 요인 모델을 적용하여 꽤 흥미로운 것을 발견했습니다.

예를 들어, 우리는 뇌에서 면역 세포의 존재를 설명하는 이들 파티션 중 하나에서 일련의 유전자와 특징을 발견했습니다. 병리학 이미지에서 이러한 세포를 반드시 볼 필요는 없지만 모델을 보았을 때 뇌 세포가 아닌 면역 세포와 관련된 유전자와 특징만을 나타내는 성분을 보았습니다. 내가 아는 한, 아무도 이런 종류의 신호를 보지 못했습니다. 그러나 우리가 이러한 잠재 요인 구성 요소를 볼 때 엄청나게 분명해집니다.



수십 개의 인간 조직 유형으로 작업하여 특정 유전자 변이가 복잡한 특성을 형성하는 데 어떻게 도움이되는지 포장을 풀었습니다. 방법이 제공되는 통찰력은 무엇입니까?

우리는 449 개의 인간 시체와 그들의 유전자형 (전체 게놈의 서열)에서 기증 된 44 개의 조직을 가졌다. 우리는 이러한 유전자형이 모든 조직에서 유전자를 발현하는 방식의 차이에 대해 더 많이 이해하고 싶었으므로, 게놈의 모든 돌연변이를 각 조직에서 발현 된 모든 유전자와 비교하여 3 조 이상의 시험을 하나씩 수행했습니다. (우리가 사용하는 컴퓨팅 클러스터에서 많은 테스트를 실행하는 데 약 2 주가 걸립니다. 계획 대로이 GTEX 반복을 클라우드로 이동할 때 약 2 시간이 걸릴 것으로 예상됩니다.) 우리는 [돌연변이] 유전자형이 원위 유전자 발현을 주도하고 있는지 알아 내려고 노력했습니다. 다시 말해, 우리는 그들이 조절하는 유전자와 같은 염색체에 위치하지 않은 돌연변이를 찾고있었습니다. 우리는 그다지 많이 찾지 못했습니다.이 원위 협회 중 600 개가 넘는 것입니다. 그들의 신호는 매우 낮았습니다.

그러나 신호 중 하나는 강력했습니다. 흥미 진진한 갑상선 연관성, 돌연변이가 두 가지 다른 유전자를 원위적으로 조절하는 것처럼 보였다. 우리는 스스로에게 물었습니다.이 돌연변이는 게놈의 완전히 다른 부분에서 발현 수준에 어떤 영향을 미칩니 까? Johns Hopkins University의 Alexis Battle의 실험실과 협력하여 우리는 게놈의 돌연변이 근처를보고 foxe1 라는 유전자를 발견했습니다. , 게놈 전체에 유전자의 전사를 조절하는 전사 인자에 대해. foxe1 유전자는 갑상선 조직에서만 발현되며 흥미 롭습니다. 그러나 우리는 돌연변이 유전자형과 foxe1 의 발현 수준 사이의 연관성이 없었다. . 그래서 우리는 우리가 이전에 제거한 원래 신호의 구성 요소 (기술적 인 유물 인 것처럼 보였던 모든 것)를 살펴보고 Genome에 대한 Foxe1 단백질의 영향을 크게 감지 할 수 있는지 확인했습니다.

.

우리는 우리가 제거한 기술 인공물에서 FoxE1의 큰 영향을 발견했습니다. Foxe1은 갑상선에서만 많은 수의 유전자를 조절하는 것 같습니다. 그것의 변화는 우리가 찾은 돌연변이 유전자형에 의해 주도된다. 그리고 그 유전자형은 또한 갑상선 암 위험과 관련이 있습니다. 우리는 갑상선 암 샘플로 돌아갔습니다 (암 게놈 아틀라스에서 약 500 개를 가지고 있었고 원위 연관 신호를 복제했습니다. 이런 것들은 설득력있는 이야기를 들려 주지만, 우리가 제거했다는 신호를 이해하려고 시도하지 않으면 우리는 그것을 배우지 않았을 것입니다.

그러한 협회의 의미는 무엇입니까?

이제 우리는 갑상선 암 발병 및 갑상선 세포의 조절 기능을위한 특정 메커니즘을 가지고 있습니다. Foxe1이 약물 대상이라면 - 우리가 돌아가서 foxe1 의 발현을 향상 시키거나 억제하기 위해 약물 설계에 대해 생각할 수 있다면 - 그러면 갑상선 암 위험이 높은 사람들이 그것을 얻지 못하거나 갑상선 암 환자를보다 효과적으로 치료하기를 희망 할 수 있습니다.

FOXE1과 같은 광범위한 전사 인자의 신호는 실제로 우리가 일반적으로 소음의 일부로 제거하는 효과와 비슷해 보입니다 :모집단 구조 또는 샘플이 실행 된 배치 또는 연령 또는 성별의 영향. 이러한 기술적 영향 중 많은 사람들이 비슷한 방식으로 대략 유사한 수의 유전자 (약 10 %)에 영향을 미칩니다. 그렇기 때문에 우리는 일반적으로 패턴이있는 신호를 제거합니다. 그러나이 경우, 우리는 우리가 일하고있는 영역을 이해해야했습니다. 과학자로서 우리는 우리가 제거한 모든 신호를 살펴 보았으므로 foxe1 의 효과를 찾을 수있었습니다. 거기에 너무 강하게 나타납니다. 여기에는 생물학적 배경의 수동 노동과 통찰력이 포함되었지만보다 자동화 된 방식으로 수행하는 방법을 개발하는 방법에 대해 생각하고 있습니다.

.

그래서 전통적인 모델링 기술을 사용하면 소음과 너무 비슷해 보이기 때문에 실제 생물학적 효과가 많이 빠져 있습니까?

예. 흥미로운 패턴과 소음이 비슷해 보이는 많은 경우가 있습니다. 이러한 원위 효과를 취하십시오. 거의 모든 효과가 넓은 효과라면 우리가 체계적으로 제거하는 소음 신호처럼 보일 것입니다. 방법 론적으로 도전적입니다. 신호가 생물학적으로 관련이 있거나 소음이 적합 할 때 특성화하는 방법과 두 가지를 구별하는 방법에 대해 신중하게 생각해야합니다. 우리 그룹은 그것을 알아 내기 위해 상당히 적극적으로 일하고 있습니다.

왜 그 관계가 매핑하기 어려우며 왜 그들을 찾는가?

우리가해야 할 테스트가 너무 많습니다. 발견의 통계적 유의성에 대한 임계 값은 실제로, 실제로 높아야합니다. 그것은 종종이 신호를 찾는 데 문제를 일으 킵니다. 우리의 임계 ​​값이 그렇게 높으면 많은 것을 놓칠 것입니다. 그리고 생물학적으로, 이러한 실제로 광범위한 원위 신호가 많이 있다는 것은 분명하지 않습니다. 자연 선택은 유전자의 10 %에 영향을 미치는 돌연변이의 종류를 제거 할 것이라고 상상할 수 있습니다. 우리는 많은 유전자에 대한 집단의 변동성을 원하지 않을 것입니다.

그러나 나는 이러한 원위 연관성이 질병에서 엄청난 역할을하며 약물 대상으로 간주 될 수 있다는 것은 의심의 여지가 없다고 생각합니다. 그들의 역할을 광범위하게 이해하는 것은 인간 건강에 매우 중요합니다.

이 기사는 Wired.com에서 재 인쇄되었습니다.



  1. 상이한 줄기 세포에서 유래 한 세포 :동일하거나 다른?
  2. 연동성과 세분화의 차이점은 무엇입니까?
  3. 단백질 폴딩 뒤에있는 기계적 힘이 전이성 암에 대해 알려줄 수있는 것
  4. 공격 아래 ​​:연구원들은 라임 병이 몸을 감염시키는 방법에 대해 빛을 비췄다.
  5. 어둠 속에서 사자를 사냥하는 방법
  6. 하나의 zygote가 10 조 10 조의 세포를 가진 유기체에서 성장하는 데 얼마나 많은 유사 분열 세포 분열이 필요합니까?