>> HLK 자연과학 >  >> 생물학

기계 인텔리전스는 유전자 조절이 크랙합니다


신체의 모든 세포는 단백질을 구축하는 동일한 게놈, DNA 코딩 된 지시 세트를 읽습니다. 그러나 세포는 더 다를 수 없었습니다. 뉴런은 전기 메시지를 보내고 간 세포는 화학 물질을 분해하고 근육 세포가 신체를 움직입니다. 세포는 어떻게 자신의 특수 작업을 수행하기 위해 동일한 기본 유전자 지침 세트를 사용합니까? 대답은 단백질이 만드는 방법을 제어하는 ​​복잡한 다층 시스템에 있습니다.

현재까지 대부분의 유전자 연구는 게놈의 1 %, 즉 단백질을 코딩하는 영역에 중점을 두었습니다. 그러나 오늘날 과학에 발표 된 새로운 연구는이 단백질 구축 과정을 조율하는 게놈 섹션에 대한 초기지도를 제공합니다. 토론토 대학교의 전산 생물 학자 인 브렌든 프레이 (Brendan Frey)는“책을 갖는 것이 한 가지입니다. 큰 문제는 책을 읽는 방법입니다.

Frey는 게놈을 베이커가 사용할 수있는 레시피와 비교합니다. 모든 레시피에는 성분 목록 (밀가루, 계란 및 버터 등)이 포함됩니다. 세포 내부에서, 성분은 단백질에 대한 코딩하는 게놈의 일부입니다. 주변은 그 성분을 결합하는 방법에 대한 게놈의 지침입니다.

밀가루, 계란과 버터를 수백 가지의 다른 구운 제품으로 변형 될 수있는 것처럼, 유전자 구성 요소는 여러 다른 구성으로 조립 될 수 있습니다. 이 과정은 대체 스 플라이 싱이라고하며, 세포는 단일 유전자 코드에서 그러한 다양성을 만드는 방법입니다. Frey와 그의 동료들은 정교한 형태의 기계 학습을 사용 하여이 지시 세트에서 돌연변이를 식별하고 그 돌연변이가 어떤 영향을 미치는지 예측합니다.

연구자들은 이미 자폐증에 대한 가능한 위험 유전자를 확인했으며 암 연결 유전자의 돌연변이가 유해한 지 여부를 예측하기 위해 시스템을 연구하고 있습니다. 이 논문은 유전 학자들이 관심있는 변형을 식별하는 데 사용할 수있는 도구를 제공함으로써 인간 유전학 분야에 큰 영향을 미치기를 바랍니다.”라고이 연구에 관여하지 않은 매사추세츠 기술 연구소의 계산 생물 학자 Chris Burge는 말했습니다.

.

그러나 연구의 진정한 중요성은 지금까지 해석하기가 매우 어려운 방대한 DNA 섹션을 탐색하기 위해 제공하는 새로운 도구에서 나올 수 있습니다. 많은 인간 유전학 연구는 단백질을 생산하는 게놈의 작은 부분 만 시퀀싱했습니다. 텍사스 휴스턴에있는 Baylor College of Medicine의 생물 학자 인 Tom Cooper는“이것은 전체 게놈의 순서도 중요하다는 주장을한다.

레시피 읽기

스 플라이 싱 코드는 단백질을 생산하지 않는 영역 인 비 코딩 게놈의 한 부분에 불과합니다. 그러나 그것은 매우 중요한 것입니다. 유전자의 약 90 %가 대안 적 스 플라이 싱을 겪고, 과학자들은 스 플라이 싱 코드의 변화가 모든 질병 연결 돌연변이의 10 ~ 50 % 사이에서 구성되는 것으로 추정합니다. . Frey는“규제 코드에 돌연변이가있는 경우 상황이 매우 잘못 될 수 있습니다.

Yale University의 생물 정보 학자 인 Mark Gerstein은“사람들은 역사적으로 단백질 코딩 영역의 돌연변이에 중점을 두었습니다. "우리는 단백질 코딩 영역 외부의 [DNA 서열]에 대한 이해를 높이면 질병 측면에서 그들이 얼마나 중요한지 더 잘 이해할 것입니다."

.

과학자들은 세포가 특정 단백질 구성을 어떻게 선택하는지 이해하는 데 약간의 진전을 이루었지만,이 과정을 지배하는 코드의 대부분은 수수께끼로 남아 있습니다. Frey의 팀은 2010 년에 출판 된 논문에서 이러한 규제 지역 중 일부를 해독하여 접합을 조절하는 마우스 게놈 내에서 거친 코드를 식별했습니다. 지난 4 년 동안 유전학 데이터의 품질, 특히 인간 데이터의 품질이 극적으로 향상되었으며 기계 학습 기술이 훨씬 더 정교 해져서 Frey와 그의 공동 작업자가 인간 게놈의 많은 부위에서 스 플라이 싱이 어떻게 영향을 미치는지 예측할 수 있습니다. MIT의 계산 생물 학자 인 Manolis Kellis는“게놈 전체 데이터 세트는 마침내 이와 같은 예측을 가능하게 할 수 있습니다.

Frey의 팀은 딥 러닝이라는 접근 방식을 사용했습니다. 모든 종류의 기계 학습 기술과 마찬가지로이 모델은 두 세트의 데이터 사이의 관계를 찾으려고합니다. 이 경우, Frey의 팀은 인간 참조 게놈을 풍부한 데이터 세트와 연결하여 다른 조직에서 다른 단백질 성분의 양을 카탈로그로 연결했습니다. (두 개의 다른 케이크 레시피가 밀가루와 설탕의 비율이 다르면, 뇌 세포와 간 세포가 각 단백질의 양이 다양합니다.) 본질적으로 알고리즘은 DNA에 내장 된 지침을 읽기 위해 계산 모델을 훈련 시켰습니다.

.

과학자들은 이미 스 플라이 싱 코드의 일부 측면을 읽는 방법을 알고 있었지만 새 모델은 독특합니다. 이를 통해 과학자들은 다양한 유전자 구성 요소가 어떻게 상호 작용하는지 예측할 수 있습니다. Burge는“이 그룹은 우리가 스 플라이 싱에 대해 알고있는 것을 가져 와서 모든 변수를 가중시킬 수있는 계산 프레임 워크에 넣었습니다.

예를 들어, 연구원들은이 모델을 사용하여 규제 코드의 일부에 실수가있을 때 단백질에 어떤 일이 일어날 지 예측할 수 있습니다. 스 플라이 싱 지시의 돌연변이는 이미 척추 근육 위축, 유아 사망의 주요 원인 및 일부 형태의 대장 암과 같은 질병과 관련이 있습니다. 새로운 연구에서 연구원들은 훈련 된 모델을 사용하여 이러한 질병 중 일부를 괴롭히는 사람들의 유전자 데이터를 분석했습니다. 과학자들은이 질병과 관련된 알려진 돌연변이를 확인하여 모델이 작동하는지 확인했습니다. 그들은 자폐증을 위해 새로운 후보 돌연변이도 골라 냈습니다.

Frey는이 모델의 이점 중 하나는 질병 데이터를 사용하여 훈련되지 않았으므로 모든 질병이나 관심의 특성에 작용해야한다는 것입니다. 연구원들은 시스템을 공개적으로 이용할 수 있도록 계획합니다. 즉, 과학자들은 더 많은 질병에이를 적용 할 수 있음을 의미합니다.

더 넓은 맥락

이 모델은 또한 게놈과 관련하여“영어와 마찬가지로 문맥은 중요하다”고 밝혔다. " '고양이'는 애완 동물이나 건축 장비에 대해 이야기하든 다른 것을 의미합니다." 마찬가지로, 세포가 스 플라이 싱 지침 세트를 해석하는 방법은 다른 근처의 지시에 따라 다릅니다. “많은 구성 요소 x 을 의미하는 DNA의 문자열 ""구성 요소 x 을 만들지 마십시오 ”두 번째 지시에 근접 할 때. Frey는“시퀀스가 효과가 있는지 여부는 다른 시퀀스가 ​​효과가 있는지 여부에 달려 있습니다. "이해하지 않고 패턴이 스 플라이 싱에 어떤 영향을 미치는지 예측하기는 어렵습니다."

또한이 모델은 과학자들이 알려진 돌연변이를 재고하는 데 도움이 될 수 있다고 Burge는 말했다. 연구원들은 이미 단백질 코딩 영역 내에서 일부 스 플라이 싱 지침이 발견된다는 것을 알고있었습니다. 이 경우, 동일한 유전자 서열은 성분과 함께 무엇을 해야하는지에 대한 지시에 대해 코딩 할 수있다. (휘핑 크림을 고려하십시오-성분이지만 어떤면에서는 지시이기도합니다.)이 단백질 코딩 영역의 돌연변이는 해당 단백질을 변경하기 위해 거의 또는 전혀하지 않는 경우 중요하지 않은 것으로 기각 될 수 있습니다. 그러나 스 플라이 싱 코드를 사용하여 해석 될 때, 그 돌연변이는 스 플라이 싱 지침을 방해함으로써 심오한 영향을 미치는 것으로 밝혀 질 수있다. Frey의 그룹은 게놈에서 이러한 오류의 많은 예를 발견했습니다.

Frey는이 모델이 궁극적으로 개인화 된 의약품에 유용하기를 희망합니다. 예를 들어, 의사는 새로운 돌연변이를 가진 건강한 사람이 암과 같은 질병에 걸리는 지 여부를 아직 결정할 수 없습니다. 추가 검증을 통해 Frey의 모델은이 질문에 답하는 데 도움이 될 수 있습니다. Frey는“우리는 아직 확인되지 않은 돌연변이조차도 분석 할 수 있습니다. 이를 통해 연구원들은 새로운 돌연변이가 위험하거나 무해 할 수 있는지 예측할 수 있으며 본질적으로 스크리닝 테스트를 수행합니다. "나는 그것이 약에 큰 영향을 미치는 것을보고 싶다"고 말했다. “이것을 실제로 번역하고 싶습니다.”



  1. 연구원들은 식물이 어떻게 유해한 미생물과 유익한지를 구별하는 방법을 발견합니다
  2. 사람들은 왜 지금 이렇게 보입니까?
  3. 일단 DNA가 진화되면 왜 그것이 유전자 정보를 전달하는 주요 수단이 되었습니까?
  4. 간이 인체의 화학 공장 인 이유는 무엇입니까?
  5. 특정 세포 유형은 무엇입니까?
  6. 식물은 왜 위로 자라고 있습니까?