>> HLK 자연과학 >  >> 생물학

우리 몸, 데이터


20 년 전, 인간 게놈을 시퀀싱하는 것은 지금까지 가장 야심 찬 과학 프로젝트 중 하나였습니다. 오늘날, 우리 몸에 사는 미생물의 게놈 수집과 비교하여, 바다, 토양 및 다른 곳, DVD에 쉽게 맞는 각 인간 게놈은 비교적 간단합니다. 30 억 개의 DNA 염기 쌍과 약 20,000 개의 유전자가 인체에서 발견되는 미생물을 구성하는 약 1,000 억 개의 염기와 수백만 유전자 옆에있는 것처럼 보입니다.

그리고 다른 많은 변수들이 미생물 숙주의 연령 및 건강 상태를 포함하여 미생물 DNA, 시료가 수집 된시기 및 수집 및 처리 방법을 포함하여 미생물 DNA를 동반합니다. 수백 종의 미생물로 채워진 입을 가져 가며, 각 치아에 수만 개의 유기체가 살고 있습니다. 이 모든 것을 분석 해야하는 과제를 넘어서, 과학자들은 데이터를 수집하는 환경을 안정적이고 재현 적으로 특성화하는 방법을 알아 내야합니다.

Stanford University의 의사이자 미생물 학자 인 David Relman은“인간 미생물 군집을 연구 한 Stanford University의 의사이자 미생물학자인 David Relman은“치주가 껌 포켓, 화학적 측정, 포켓의 유체 조성, 면역 학적 측정을 설명하는 데 사용하는 임상 측정이 있습니다. "정말 빠르게 복잡해집니다."

인간 마이크로 바이 옴 Biology가 빅 데이터 세계에 도착하는 것과 같은 복잡한 시스템을 연구하려는 야심 찬 시도. 생명 과학은 오랫동안 설명적인 과학으로 여겨져 왔습니다. 10 년 전이 분야는 비교적 데이터가 좋지 않았으며 과학자들은 그들이 생성 한 데이터를 쉽게 따라 잡을 수있었습니다. 그러나 유전체학, 이미징 및 기타 기술의 발전으로 생물 학자들은 이제 분쇄 속도로 데이터를 생성하고 있습니다.

한 범인은 DNA 시퀀싱으로, 약 5 년 전에 비용이 급락하기 시작하여 컴퓨터 칩 비용보다 훨씬 빠르게 떨어집니다. 그 이후로, 식물, 동물 및 미생물을 포함한 수천 개의 다른 유기체와 함께 수천 개의 인간 게놈이 해독되었습니다. 국립 생명 공학 정보 센터 (National Center for Biotechnology Information for Biotechnology Information)에서 관리하는 것과 같은 공개 게놈 리포지토리, 또는 이미 수백만 기가 바이트 (수백만 기가 바이트)의 데이터를 수용하고 있으며, 전 세계의 생물 학자들은 매년 15 개의 Petabase (기초가 DNA의 편지입니다)를 휘젓고 있습니다. 이것들이 일반 DVD에 저장된 경우, 결과 스택의 키는 2.2 마일입니다.

메릴랜드 베데스다에있는 National Human Genome Research Institute의 이사 인 에릭 그린 (Eric Green)은“생명 과학은 빅 데이터 기업이되고있다”고 말했다.

병목 현상은 인간 건강과 환경에 막대한 영향을 미칩니다. 우리 몸에 거주하는 미생물 Menagerie에 대한 더 깊은 이해와 질병으로 인구가 어떻게 변하는 지 크론 병, 알레르기, 비만 및 기타 장애에 대한 새로운 통찰력을 제공하고 치료를위한 새로운 길을 제안 할 수 있습니다. 토양 미생물은 항생제와 같은 풍부한 천연 제품 공급원이며 더 단단하고 효율적인 작물 개발에 중요한 역할을 할 수 있습니다.

인생 과학자들은 많은 암의 게놈을 분석하고, 인간의 뇌를 매핑하고, 더 나은 바이오 연료 및 다른 작물을 개발하려는 노력을 포함하여 수많은 다른 빅 데이터 프로젝트를 시작하고 있습니다. (밀 게놈은 인간 게놈보다 5 배 이상 더 크며, 모든 염색체의 6 개 사본이 우리 2에 있습니다.)

.

그러나 이러한 노력은 인간 게놈 프로젝트를 둘러싼 동일한 비판 중 일부를 만나고 있습니다. 일부는 더 작은 개별 보조금으로부터 약간의 자금을 빼앗는 대규모 프로젝트가 트레이드 오프의 가치가 있는지 의문을 제기했습니다. 빅 데이터 노력은 과학자들이 예상했던 것보다 더 복잡한 데이터를 거의 항상 생성하여 이미 존재하는 데이터가 올바르게 이해되기 전에 더 많은 데이터를 만들기 위해 자금 조달 프로젝트의 지혜에 의문을 제기했습니다. Pennsylvania State University의 생물학자인 Kenneth Weiss는“Pennsylvania State University의 생물학자인 Kenneth Weiss는“비판적으로 생각하고 더 깊은 질문을하는 것보다 우리가하고있는 일을 계속해서 더 대규모로하는 것이 더 쉽습니다.

수십 년 동안 대규모 데이터 세트의 과제를 다루는 물리, 천문학 및 컴퓨터 과학과 같은 분야와 비교할 때 생물학의 빅 데이터 혁명도 빠르면서 적응할 시간이 거의 없었습니다.

뉴저지의 Rutgers University의 컴퓨터 엔지니어 인 Jaroslaw Zola는“차세대 시퀀싱 및 생명 공학에서 일어난 혁명은 전례가 없습니다.

생물 학자들은 데이터 저장 및 이동에서 데이터를 통합 및 분석에 이르기까지 여러 장애물을 극복해야하며, 이는 상당한 문화적 변화가 필요합니다. Green은“학문을 아는 대부분의 사람들은 반드시 빅 데이터를 처리하는 방법을 알 필요는 없습니다. 그들이 데이터의 눈사태를 효율적으로 사용하려면 변화가 필요합니다.

큰 복잡성

과학자들이 처음으로 인간 게놈을 시퀀싱하기 시작했을 때, 대부분의 작업은 소수의 대규모 시퀀싱 센터에 의해 수행되었습니다. 그러나 게놈 시퀀싱의 급락 비용은이 분야를 민주화하는 데 도움이되었습니다. 많은 실험실은 이제 게놈 시퀀서를 구입하여 분석 할 수있는 게놈 정보의 산에 추가 할 수 있습니다. 게놈 데이터의 분산 특성은 집계 및 분석하기 어려운 데이터 패치 워크를 포함하여 고유 한 과제를 만들었습니다. 뉴욕의 Cold Spring Harbour Laboratory의 계산 생물 학자 인 Michael Schatz는“물리학에서는 몇몇 큰 콜라이드 주위에 많은 노력이 조직되었습니다. “생물학에는 전 세계 1,000 개의 시퀀싱 센터가 있습니다. 일부는 하나의 악기가 있고 일부는 수백 명을 가지고 있습니다.”

문제의 범위의 예로서, 전 세계의 과학자들은 이제 수천 개의 인간 게놈을 시퀀싱했습니다. 그러나 그들 모두를 분석하고자하는 사람은 먼저 데이터를 수집하고 구성해야합니다. Green은“이것은 일관된 방식으로 구성되지 않고 공부할 수있는 도구를 사용할 수 없습니다.

연구원들은 더 많은 컴퓨팅 능력과 데이터를 이동할 수있는보다 효율적인 방법이 필요합니다. 우편 메일을 통해 종종 전송되는 하드 드라이브는 종종 데이터 전송에 가장 쉬운 솔루션이며, 일부는 시퀀싱하고 결과 데이터를 저장하는 것보다 생물 샘플을 저장하는 것이 저렴하다고 주장합니다. 시퀀싱 기술의 비용이 개별 실험실이 자체 기계를 소유 할 수있을 정도로 빠르게 떨어졌지만, 가공 전력 및 스토리지의 수반되는 가격은 소송을 따르지 않았습니다. 일리노이 주 Argonne National Laboratory의 계산 생물 학자 인 Folker Meyer는“컴퓨팅 비용은 생물학적 연구에서 제한 요인이 될 것을 위협하고있다. "이것은 예전의 완전한 반전입니다."

생물 학자들은 생물학적 데이터의 복잡성이 물리학 및 기타 분야의 빅 데이터와 차별화된다고 말합니다. Zola는“고 에너지 물리학에서는 데이터가 잘 구조화되고 주석이 달성되었으며 인프라는 잘 설계되고 자금이 지원되는 협업을 통해 수년간 완성되었습니다. 생물학적 데이터는 기술적으로 작지만 구성하기가 훨씬 어렵다고 그는 말했다. 간단한 게놈 시퀀싱 외에도 생물 학자들은 다른 많은 세포 및 분자 성분을 추적 할 수 있으며, 그 중 다수는 잘 이해되지 않았습니다. 유전자의 상태를 측정하기 위해 유사한 기술이 이용 가능합니다. 유전자가 켜거나 끄 든 상관없이 RNA 및 단백질이 생산하는 것입니다. 임상 증상, 화학 또는 기타 노출 및 인구 통계에 대한 데이터를 추가하면 매우 복잡한 분석 문제가 있습니다.

Green은“이러한 연구 중 일부의 실제 힘은 다른 데이터 유형을 통합 할 수 있습니다. 그러나 필드를 가로 질러 절단 할 수있는 소프트웨어 도구는 개선해야합니다. 예를 들어, 전자 의료 기록의 상승은 점점 더 많은 환자 정보가 분석 할 수 있다는 것을 의미하지만 과학자들은 아직 게놈 데이터와 결혼하는 효율적인 방법을 가지고 있지 않다고 그는 말했다.

상황을 악화시키기 위해 과학자들은 이러한 서로 다른 변수 중 몇 개가 상호 작용하는지 잘 이해하지 못합니다. 대조적으로 소셜 미디어 네트워크를 연구하는 연구원들은 그들이 수집하는 데이터가 무엇을 수집하고 있는지 정확히 알고 있습니다. 네트워크의 각 노드는 예를 들어 링크가 친구를 묘사하는 페이스 북 계정을 나타냅니다. 다른 유전자가 다른 유전자의 발현을 어떻게 제어하는지 매핑하려는 유전자 조절 네트워크는 수백만 개의 노드보다는 수천 개의 노드가있는 소셜 네트워크보다 작습니다. 그러나 데이터는 정의하기가 더 어렵습니다. Zola는“우리가 네트워크를 구성하는 데이터는 시끄럽고 부정확합니다. "생물학적 데이터를 볼 때, 우리는 아직보고있는 것을 정확히 알지 못합니다."

새로운 분석 도구가 필요함에도 불구하고, 많은 생물 학자들은 계산 인프라가 계속해서 부족하다고 말했다. 시애틀의 시스템 생물학 연구소 (Institute for Systems Biology) 부국장 인 Nathan Price는“생물학에서는 종종 많은 돈이 데이터를 생성하지만 훨씬 적은 금액은이를 분석하는 데 훨씬 적은 금액이 다가옵니다. 물리학 자들은 대학이 후원하는 슈퍼 컴퓨터에 자유롭게 접근 할 수 있지만 대부분의 생물 학자들은이를 사용할 수있는 올바른 훈련을받지 않습니다. 그랬더라도 기존 컴퓨터는 생물학적 문제에 최적화되지 않습니다. 콜로라도 대학교 (University of Colorado Boulder)와 하워드 휴즈 의료 연구소 (Howard Hughes Medical Institute)의 미생물학자인 Rob Knight는“매우 자주, 전국 규모의 슈퍼 컴퓨터, 특히 물리 워크 플로우를 위해 설립 된 사람들은 생명 과학에 유용하지 않습니다. "인프라에 대한 자금이 증가하는 것은이 분야에 큰 이점이 될 것입니다."

이러한 과제 중 일부를 다루기 위해 2012 년에 국립 보건원 (National Institutes of Health)은 데이터 공유 표준을 만들고 쉽게 배포 할 수있는 데이터 분석 도구를 개발하기 위해 빅 데이터에 대한 지식 이니셔티브 (BD2K)를 시작했습니다. 이 프로그램의 세부 사항은 여전히 ​​논의 중이지만 목표 중 하나는 데이터 과학 분야에서 생물 학자를 훈련시키는 것입니다.

“모두 박사 학위를받습니다. 미국에서는 현재보다 데이터에 대한 역량이 더 필요합니다.”라고 Green은 말했습니다. 생물 정보학 전문가들은 현재 암 게놈 프로젝트 및 기타 빅 데이터 노력에서 중요한 역할을하고 있지만 Green과 다른 사람들은 그 과정을 민주화하기를 원합니다. 그린은“오늘날 슈퍼 엑스 퍼트가 묻고 답변해야 할 질문의 종류는 일상적인 조사관이 지금부터 10 년 후에 요청하기를 원합니다. “이것은 일시적인 문제가 아닙니다. 새로운 현실입니다.”

모든 사람이 이것이 생물학이 따라야 할 길이라는 데 동의하지는 않습니다. 일부 과학자들은보다 전통적인 가설 중심의 접근법을 희생하여 빅 데이터 프로젝트에 많은 자금을 집중시키는 것이 과학에 해로울 수 있다고 말합니다. Weiss는“대규모 데이터 수집에는 많은 약점이 있습니다. "인과를 이해하는 데 강력하지 않을 수 있습니다." Weiss는 과학자들이 질병이 있거나없는 사람의 비교적 일반적인 유전자 변이체의 빈도를 측정함으로써 당뇨병과 같은 다른 질병을 담당하는 유전자를 찾으려고하는 대중적인 유전자 접근법 인 게놈 전체 연관 연구의 예를 지적합니다. 지금까지 이러한 연구에 의해 확인 된 변종은 질병의 위험을 약간 제기하지만 이러한 연구의 더 크고 비싼 버전은 여전히 ​​제안되고 자금을 지원하고 있습니다.

Weiss는“대부분의 경우 질병을 설명하지 않는 사소한 효과를 발견합니다. "우리가 발견 한 것을 가져 가서 자원을 전환시키고 그것이 어떻게 작동하는지 이해하고 그것에 대해 무언가를해야합니까?" 과학자들은 이미 당뇨병과 관련이있는 많은 유전자를 확인 했으므로 장애에서 자신의 역할을 더 잘 이해하려고 노력하지 않으려는 것은 어두운 역할을 가진 추가 유전자를 밝히기 위해 제한된 자금을 소비하지 않고?

많은 과학자들은 생명 과학 연구의 복잡성이 대규모 및 소규모 과학 프로젝트를 필요로하며 대규모 데이터 노력으로보다 전통적인 실험을위한 새로운 사료를 제공한다고 생각합니다. Knight는“빅 데이터 프로젝트의 역할은지도의 윤곽선을 스케치 한 다음 소규모 프로젝트의 연구원들이 갈 수있는 곳으로 갈 수있게하는 것입니다.

작고 다양한

우리 몸과 다른 서식지에 살고있는 미생물을 특성화하려는 노력은 빅 데이터의 약속과 도전을 표피합니다. 실험실에서는 대부분의 미생물을 자랄 수 없기 때문에 두 가지 주요 미생물 군집 (지구 미생물 군과 인간 미생물 군)은 DNA 시퀀싱에 의해 크게 가능해졌습니다. 과학자들은 주로 유전자를 통해 이러한 미생물을 연구하고 토양, 피부 또는 기타 환경에 살고있는 미생물 수집의 DNA를 분석하고 어떤 유형의 미생물이 존재하는지, 환경의 변화에 ​​어떻게 반응하는지와 같은 기본 질문에 대답하기 시작할 수 있습니다.

.

인간 미생물을 매핑하기위한 다수의 프로젝트 중 하나 인 인간 미생물 프로젝트의 목표는 300 명의 건강한 사람들로부터 채취 한 샘플을 사용하여 신체의 여러 부분에서 미생물을 특성화하는 것입니다. Relman은 잊혀진 기관 시스템을 이해하는 데 비유합니다. "이것은 인간 생물학에서 멀리 떨어져 있기 때문에 다소 외국 기관입니다." 과학자들은 수천 종의 미생물로부터 DNA 서열을 생성하며, 그 중 다수는 힘들게 재구성되어야한다. 그것은 개별 문장보다 짧은 조각들로부터 책을 재현하는 것과 같습니다.

Relman은“우리는 이제이 모든 빅 데이터의 관점에서 시스템을 이해하려는 어려운 도전에 직면 해 있으며,이를 해석 할 생물학은 거의 없습니다. "우리는 심장이나 신장을 이해하는 것과 같은 생리학이 없습니다."

.

현재까지 프로젝트의 가장 흥미로운 발견 중 하나는 인간 미생물 군의 고도로 개별화 된 특성입니다. 실제로 약 200 명에 대한 한 연구에 따르면 개인의 손가락 끝에 의해 키보드에 남은 미생물 잔류 물을 시퀀싱함으로써 과학자들은 정확한 키보드와 95 %의 정확도를 가진 개인과 일치 할 수 있습니다. "최근까지, 우리는 미생물 군집이 얼마나 다양했는지, 또는 사람 안에서 얼마나 안정적인지 전혀 몰랐습니다."라고 Knight는 말했습니다.

연구원들은 이제식이 요법, 여행 또는 민족과 같은 다양한 환경 적 요인이 개인의 미생물 군집에 어떤 영향을 미치는지 알아 내려고합니다. 최근의 연구에 따르면 단순히 장내 미생물을 한 동물에서 다른 동물로 전달하는 것이 건강에 크게 영향을 미치거나 감염을 개선하거나 체중 감량을 유발할 수 있습니다.  미생물 군집에 대한 더 많은 데이터가 있으면 어떤 미생물이 변화에 책임이 있고 그 주변의 의학적 치료를 설계 할 수 있기를 희망합니다.

Relman은 주요 과제 중 일부는 거의 관리 할 수없는 변수 중 어느 것이 중요하다는 것을 결정하고, 미생물 군집의 가장 중요한 기능을 정의하는 방법을 알아내는 것입니다. 예를 들어, 과학자들은 우리의 미생물이 면역 체계를 형성하는 데 필수적인 역할을하고 일부 사람들의 미생물 공동체가 다른 사람들보다 더 탄력적이라는 것을 알고 있습니다. 같은 항생제는 한 개인의 미생물 프로파일에 장기적인 영향을 미치지 않을 수 있으며 다른 사람을 완전히 버릴 수 있습니다. Relman은 면역 체계 및 기타 기능을 형성하는 미생물의 역할을 언급하면서“우리는 이러한 서비스를 측정하는 방법에 대한 큰 감각이 없습니다.

Earth Microbiome Project는 훨씬 더 큰 데이터 분석 문제를 제시합니다. 과학자들은 우리 장에 살고있는 미생물 종의 약 50 %를 시퀀싱하여 새로운 데이터를 훨씬 쉽게 해석 할 수 있습니다. 그러나 토양 미생물 군집의 약 1 %만이 서열화되어 전체 게놈으로 조립하는 것이 불가능한 게놈 단편을 가진 연구자들을 남겨 둔다.

.

뇌의 데이터

유전체학이 생명 과학에서 빅 데이터 분석의 얼리 어답터라면 신경 과학이 빠르게 시작되고 있습니다. 활동을 기록하기위한 새로운 이미징 방법과 기술과 많은 뉴런의 구조는 과학자들이 다량의 데이터를 포착 할 수있게 해줍니다.

하버드의 신경 과학자 인 제프 리히트 만 (Jeff Lichtman)은 뇌의 얇은 조각의 스냅 샷을 차례로 가져 와서 전례없는 양의 데이터로부터 신경 배선 맵을 구축하기위한 프로젝트와 협력하고있다. Lichtman은 Scanning Electron Microscopy라는 기술을 사용하는 그의 팀은 현재 단일 샘플에서 하루에 테라 바이트의 이미지 데이터를 생성하고 있다고 말했다. "1 년 정도 안에 우리는 시간에 여러 테라 바이트를하고 있기를 희망한다"고 그는 말했다. "이것은 컴퓨터 알고리즘으로 처리 해야하는 여전히 많은 원시 데이터입니다." 입방 밀리미터의 뇌 조직은 약 2,000 테라 바이트의 데이터를 생성합니다. 생명 과학의 다른 영역과 마찬가지로 데이터를 저장하고 관리하는 것이 문제가되는 것으로 입증되었습니다. 클라우드 컴퓨팅은 유전체학의 일부 측면에서 작동하지만 신경 과학에 덜 유용 할 수 있습니다. 실제로 Lichtman은 클라우드에 대한 데이터가 너무 많아서 하드 드라이브를 전달하기에는 너무 많다고 말했습니다.

Lichtman은 신경 과학자들이 직면 한 도전이 유전체학의 도전보다 훨씬 클 것이라고 믿는다. "신경계는 게놈보다 훨씬 더 복잡한 실체"라고 그는 말했다. "전체 게놈은 CD에 맞을 수 있지만 뇌는 세계의 디지털 함량과 비슷합니다."

.

Lichtman의 연구는 뇌를 차트하기위한 많은 노력 중 하나 일뿐입니다. 1 월에 유럽 연합은 인간의 뇌 전체를 모델링하기위한 노력을 시작했습니다. 그리고 미국은 현재 자체 대규모 프로젝트를 진행하고 있습니다. 세부 사항은 여전히 ​​논의 중이지만 신경 배선 자체가 아닌 뇌 활동을 매핑하는 데 중점을 둘 것입니다.

.

Lichtman은 Genomics에서와 같이 신경 과학자들은 데이터를 공유하는 개념에 익숙해 져야한다고 말했다. “이 데이터는 누구나 자유롭고 쉽게 액세스 할 수 있어야합니다. 우리는 이와 같은 문제에 대한 답을 아직 모릅니다.”

하드웨어, 소프트웨어 및 분석 방법의 자금 조달 및 필요한 발전에 대한 의문은 여전히 ​​남아 있습니다. Lichtman은“이와 같은 아이디어는 거의 확실히 비용이 많이 들고 아직 근본적인 결과를 얻지 못했습니다. “무의미한 연결 데이터로 끝날 것인가? 이것은 항상 빅 데이터의 도전입니다.”

그럼에도 불구하고 Lichtman은 주요 결과가 시간이 지남에 따라 올 것이라고 확신합니다. "나는 당신이 어떤 질문을 해야하는지 미리 알 필요가 없다고 확신합니다." “데이터가 있으면 아이디어가있는 사람은 답을 위해 광산에 사용할 수있는 데이터 세트가 있습니다.

“빅 데이터는 신경 과학의 미래이지만 신경 과학의 현재는 아닙니다.”

.

  1. 과학자들은 주요 암 표적이 어떻게 확산을 중단 할 수 있는지를 밝힙니다
  2. 친구들의 약간의 도움으로 진화합니다
  3. 펀가리움 혁명 - 게놈 보물 창고?
  4. 동물 세포에는 얼마나 많은 미토콘드리아가 있습니까?
  5. Zhang Daqian이 "No. 1 현대 화가"로 알려진 이유는 무엇입니까?
  6. 우리 지구가 실제로 '유인원의 행성'이 될 수 있습니까?