신체의 모든 세포는 단백질을 구축하는 동일한 게놈, DNA 코딩 된 지시 세트를 읽습니다. 그러나 세포는 더 다를 수 없었습니다. 뉴런은 전기 메시지를 보내고 간 세포는 화학 물질을 분해하고 근육 세포가 신체를 움직입니다. 세포는 어떻게 자신의 특수 작업을 수행하기 위해 동일한 기본 유전자 지침 세트를 사용합니까? 대답은 단백질이 만드는 방법을 제어하는 복잡한 다층 시스템에 있습니다.
현재까지 대부분의 유전자 연구는 게놈의 1 %, 즉 단백질을 코딩하는 영역에 중점을 두었습니다. 그러나 오늘날 과학에 발표 된 새로운 연구는이 단백질 구축 과정을 조율하는 게놈 섹션에 대한 초기지도를 제공합니다. 토론토 대학교의 전산 생물 학자 인 브렌든 프레이 (Brendan Frey)는“책을 갖는 것이 한 가지입니다. 큰 문제는 책을 읽는 방법입니다.
Frey는 게놈을 베이커가 사용할 수있는 레시피와 비교합니다. 모든 레시피에는 성분 목록 (밀가루, 계란 및 버터 등)이 포함됩니다. 세포 내부에서, 성분은 단백질에 대한 코딩하는 게놈의 일부입니다. 주변은 그 성분을 결합하는 방법에 대한 게놈의 지침입니다.
밀가루, 계란과 버터를 수백 가지의 다른 구운 제품으로 변형 될 수있는 것처럼, 유전자 구성 요소는 여러 다른 구성으로 조립 될 수 있습니다. 이 과정은 대체 스 플라이 싱이라고하며, 세포는 단일 유전자 코드에서 그러한 다양성을 만드는 방법입니다. Frey와 그의 동료들은 정교한 형태의 기계 학습을 사용 하여이 지시 세트에서 돌연변이를 식별하고 그 돌연변이가 어떤 영향을 미치는지 예측합니다.
연구자들은 이미 자폐증에 대한 가능한 위험 유전자를 확인했으며 암 연결 유전자의 돌연변이가 유해한 지 여부를 예측하기 위해 시스템을 연구하고 있습니다. “ 이 논문은 유전 학자들이 관심있는 변형을 식별하는 데 사용할 수있는 도구를 제공함으로써 인간 유전학 분야에 큰 영향을 미치기를 바랍니다.”라고이 연구에 관여하지 않은 매사추세츠 기술 연구소의 계산 생물 학자 Chris Burge는 말했습니다.
.그러나 연구의 진정한 중요성은 지금까지 해석하기가 매우 어려운 방대한 DNA 섹션을 탐색하기 위해 제공하는 새로운 도구에서 나올 수 있습니다. 많은 인간 유전학 연구는 단백질을 생산하는 게놈의 작은 부분 만 시퀀싱했습니다. 텍사스 휴스턴에있는 Baylor College of Medicine의 생물 학자 인 Tom Cooper는“이것은 전체 게놈의 순서도 중요하다는 주장을한다.
레시피 읽기
스 플라이 싱 코드는 단백질을 생산하지 않는 영역 인 비 코딩 게놈의 한 부분에 불과합니다. 그러나 그것은 매우 중요한 것입니다. 유전자의 약 90 %가 대안 적 스 플라이 싱을 겪고, 과학자들은 스 플라이 싱 코드의 변화가 모든 질병 연결 돌연변이의 10 ~ 50 % 사이에서 구성되는 것으로 추정합니다. . Frey는“규제 코드에 돌연변이가있는 경우 상황이 매우 잘못 될 수 있습니다.
Yale University의 생물 정보 학자 인 Mark Gerstein은“사람들은 역사적으로 단백질 코딩 영역의 돌연변이에 중점을 두었습니다. "우리는 단백질 코딩 영역 외부의 [DNA 서열]에 대한 이해를 높이면 질병 측면에서 그들이 얼마나 중요한지 더 잘 이해할 것입니다."
.과학자들은 세포가 특정 단백질 구성을 어떻게 선택하는지 이해하는 데 약간의 진전을 이루었지만,이 과정을 지배하는 코드의 대부분은 수수께끼로 남아 있습니다. Frey의 팀은 2010 년에 출판 된 논문에서 이러한 규제 지역 중 일부를 해독하여 접합을 조절하는 마우스 게놈 내에서 거친 코드를 식별했습니다. 지난 4 년 동안 유전학 데이터의 품질, 특히 인간 데이터의 품질이 극적으로 향상되었으며 기계 학습 기술이 훨씬 더 정교 해져서 Frey와 그의 공동 작업자가 인간 게놈의 많은 부위에서 스 플라이 싱이 어떻게 영향을 미치는지 예측할 수 있습니다. MIT의 계산 생물 학자 인 Manolis Kellis는“게놈 전체 데이터 세트는 마침내 이와 같은 예측을 가능하게 할 수 있습니다.
Frey의 팀은 딥 러닝이라는 접근 방식을 사용했습니다. 모든 종류의 기계 학습 기술과 마찬가지로이 모델은 두 세트의 데이터 사이의 관계를 찾으려고합니다. 이 경우, Frey의 팀은 인간 참조 게놈을 풍부한 데이터 세트와 연결하여 다른 조직에서 다른 단백질 성분의 양을 카탈로그로 연결했습니다. (두 개의 다른 케이크 레시피가 밀가루와 설탕의 비율이 다르면, 뇌 세포와 간 세포가 각 단백질의 양이 다양합니다.) 본질적으로 알고리즘은 DNA에 내장 된 지침을 읽기 위해 계산 모델을 훈련 시켰습니다.
.과학자들은 이미 스 플라이 싱 코드의 일부 측면을 읽는 방법을 알고 있었지만 새 모델은 독특합니다. 이를 통해 과학자들은 다양한 유전자 구성 요소가 어떻게 상호 작용하는지 예측할 수 있습니다. Burge는“이 그룹은 우리가 스 플라이 싱에 대해 알고있는 것을 가져 와서 모든 변수를 가중시킬 수있는 계산 프레임 워크에 넣었습니다.
예를 들어, 연구원들은이 모델을 사용하여 규제 코드의 일부에 실수가있을 때 단백질에 어떤 일이 일어날 지 예측할 수 있습니다. 스 플라이 싱 지시의 돌연변이는 이미 척추 근육 위축, 유아 사망의 주요 원인 및 일부 형태의 대장 암과 같은 질병과 관련이 있습니다. 새로운 연구에서 연구원들은 훈련 된 모델을 사용하여 이러한 질병 중 일부를 괴롭히는 사람들의 유전자 데이터를 분석했습니다. 과학자들은이 질병과 관련된 알려진 돌연변이를 확인하여 모델이 작동하는지 확인했습니다. 그들은 자폐증을 위해 새로운 후보 돌연변이도 골라 냈습니다.
Frey는이 모델의 이점 중 하나는 질병 데이터를 사용하여 훈련되지 않았으므로 모든 질병이나 관심의 특성에 작용해야한다는 것입니다. 연구원들은 시스템을 공개적으로 이용할 수 있도록 계획합니다. 즉, 과학자들은 더 많은 질병에이를 적용 할 수 있음을 의미합니다.
더 넓은 맥락
이 모델은 또한 게놈과 관련하여“영어와 마찬가지로 문맥은 중요하다”고 밝혔다. " '고양이'는 애완 동물이나 건축 장비에 대해 이야기하든 다른 것을 의미합니다." 마찬가지로, 세포가 스 플라이 싱 지침 세트를 해석하는 방법은 다른 근처의 지시에 따라 다릅니다. “많은 구성 요소 x 을 의미하는 DNA의 문자열 ""구성 요소 x 을 만들지 마십시오 ”두 번째 지시에 근접 할 때. Frey는“시퀀스가 효과가 있는지 여부는 다른 시퀀스가 효과가 있는지 여부에 달려 있습니다. "이해하지 않고 패턴이 스 플라이 싱에 어떤 영향을 미치는지 예측하기는 어렵습니다."
또한이 모델은 과학자들이 알려진 돌연변이를 재고하는 데 도움이 될 수 있다고 Burge는 말했다. 연구원들은 이미 단백질 코딩 영역 내에서 일부 스 플라이 싱 지침이 발견된다는 것을 알고있었습니다. 이 경우, 동일한 유전자 서열은 성분과 함께 무엇을 해야하는지에 대한 지시에 대해 코딩 할 수있다. (휘핑 크림을 고려하십시오-성분이지만 어떤면에서는 지시이기도합니다.)이 단백질 코딩 영역의 돌연변이는 해당 단백질을 변경하기 위해 거의 또는 전혀하지 않는 경우 중요하지 않은 것으로 기각 될 수 있습니다. 그러나 스 플라이 싱 코드를 사용하여 해석 될 때, 그 돌연변이는 스 플라이 싱 지침을 방해함으로써 심오한 영향을 미치는 것으로 밝혀 질 수있다. Frey의 그룹은 게놈에서 이러한 오류의 많은 예를 발견했습니다.
Frey는이 모델이 궁극적으로 개인화 된 의약품에 유용하기를 희망합니다. 예를 들어, 의사는 새로운 돌연변이를 가진 건강한 사람이 암과 같은 질병에 걸리는 지 여부를 아직 결정할 수 없습니다. 추가 검증을 통해 Frey의 모델은이 질문에 답하는 데 도움이 될 수 있습니다. Frey는“우리는 아직 확인되지 않은 돌연변이조차도 분석 할 수 있습니다. 이를 통해 연구원들은 새로운 돌연변이가 위험하거나 무해 할 수 있는지 예측할 수 있으며 본질적으로 스크리닝 테스트를 수행합니다. "나는 그것이 약에 큰 영향을 미치는 것을보고 싶다"고 말했다. “이것을 실제로 번역하고 싶습니다.”