>> HLK 자연과학 >  >> 생물학

분할없이 데이터를 상상합니다


7 년 전, David Schimel이 National Ecological Observatory Network라는 야심 찬 데이터 프로젝트를 설계하라는 요청을 받았을 때, 그것은 National Science Foundation 보조금에 지나지 않았습니다. 공식적인 조직, 직원, 상세한 과학 계획도 없었습니다. 원격 감지, 데이터 저장 및 컴퓨팅 능력의 발전으로 인해 생태학에서 가장 큰 질문에 대한 답변을 찾았습니다. 전 세계 기후 변화, 토지 이용 및 생물 다양성이 어떻게 자연 및 관리 생태계와 생물권에 영향을 미치는가?

Schimel은“우리는 그것을 잘 이해하지 못합니다

Schimel은 새로운 프로젝트와 국립 대기 연구 센터 (National Center for Atmospheric Research)의 선임 과학자로서의 역할 사이에서 처음에 시간을 나누면서 "주요 과학 문제를 해결하는 데 필요한 다양한 측정 값에 의해 도전의 규모에 놀랐다고 말했다. 관측소를 세우거나 직원을 고용하기 전에 측정 장소, 측정 방법, 측정 방법 및 의미있는 데이터를 생성하는 방법에 대한 결정을 내려야했습니다.

Schimel은 전국의 사이트 옵션을 탐색하고 엄격한 과학적 방법론 및 데이터 처리 요구 사항을 개발할 수있는 NASA에서 영감을 얻은 "Tiger Teams"를 조립하기 시작했습니다. 마지막 계획은 이질적인 배경을 가진 수십 명의 과학자를 고용 할 것을 요구했다. 미국 대륙, 알래스카, 하와이 및 푸에르토 리코 전역에서 100 개가 넘는 데이터 수집 사이트를 구축합니다. 30 년 동안 매년 약 6 천억 건의 원시 측정을 기록합니다. 원시 데이터를보다 사용자 친화적 인 "데이터 제품"으로 변환하여 과학자와 대중이 자유롭게 이용할 수 있도록합니다. 전망대 네트워크 구축은 4 년이 더 걸릴 것으로 예상되며 4 억 4,400 만 달러가 소요되며 연간 운영 비용을 충당하려면 수백만 명이 더 필요할 것입니다.

2007 년 Schimel은 Neon의 최고 과학자이자 최초의 정규직 직원이되었습니다. "저는 대륙 규모의 프로세스에 오랫동안 관심이 있었으며 항상 데이터 기타 활동이었습니다."라고 그는 말했습니다. "실제로 그 규모로 올바른 데이터를 수집하기 위해 시스템을 설계 할 수있는 기회는 참을 수 없었습니다."

.

과학 전반에 걸쳐, "큰 과학"이라는 대규모 관찰 또는 실험 데이터에 대한 유사한 분석은 많은 미스터리에 대한 통찰력을 제공합니다. 암흑 물질이란 무엇이며 우주 전체에 어떻게 분포됩니까? 삶이 존재합니까, 아니면 다른 행성에 존재할 수 있습니까? 유전자 마커와 질병 사이의 연결은 무엇입니까? 지구의 기후는 다음 세기와 그 이상으로 어떻게 변화 할 것인가? 신경망은 어떻게 생각, 기억 및 의식을 형성합니까?

최근의 데이터 광란 (물리 및 생명 과학에서 Google, Facebook 및 Twitter가 집계 한 사용자 생성 컨텐츠에 이르기까지 대부분의 유연한 데이터베이스, 대규모 컴퓨팅 능력 및 정교한 알고리즘이 필요한 디지털 포포리 스트림의 형태로 제공되었습니다. 약간.

그러나“빅 데이터는 마술이 아닙니다.”그는 이번 여름 로어 맨해튼에서 데이터베이스 워크숍을 가르치면서 경고했다. 이해할 수없는 경우 얼마나 많은 데이터가 있는지는 중요하지 않습니다.

네온과 같은 프로젝트의 경우 데이터 해석은 복잡한 비즈니스입니다. 초기에 팀은 데이터가 가장 큰 물리 및 생물학 프로젝트와 비교하여 중간 크기가 복잡 할 것이라는 것을 깨달았습니다. 프로젝트의 Data Products 부사장 인 Steve Berukoff는“빅 데이터에 대한 Neon의 기여는 그 책이 아닙니다. "이것은 데이터의 이질성과 공간적, 시간적 분포에 있습니다."

.

기후 과학 또는 입자 물리학의 광대하지만 비교적 구조화 된 데이터의 약 20 가지 중요한 측정과 달리 Neon은 온도, 토양 및 물 측정에서 곤충, 조류, 포유류 및 미생물 샘플, 원격 감지 및 공중 영상에 이르기까지 500 개 이상의 양을 추적 할 수 있습니다. 대부분의 데이터는 구조화되지 않았고 구문 분석하기가 어렵습니다. 예를 들어, 분류 학적 이름과 행동 관찰은 때때로 토론과 개정의 대상이됩니다.

그리고 어렴풋한 데이터 호감이 기술적 인 관점에서 나타나는 것처럼, 가장 큰 과제 중 일부는 전적으로 비 기술적입니다. 많은 연구자들은 미래의 큰 과학 프로젝트와 분석 도구가 과학, 통계, 컴퓨터 과학, 순수한 수학 및 DEFT 리더십의 올바른 조합으로 만 성공할 수 있다고 말합니다. 분산 컴퓨팅의 빅 데이터 시대에서 (컴퓨터 네트워크에 엄청나게 복잡한 작업이 나뉘어져있는 경우 - 의문은 여전히 ​​남아 있습니다.

버클리 캘리포니아 대학교 (University of California)의 통계 학자 인 Bin Yu는“기계는 데이터 과학 연구를 조직하지 않을 것”이라고 말했다. "인간은 길을 이끌어야합니다." 그러나 그녀는“현재 데이터 과학을 이끌고있는 사람은 아무도 모른다”고 말했다.

Yu는 대학을“매우 사일로”라고 묘사하면서 목표는 학제 간 연구 일뿐 만 아니라 벽이나 분열이없는“학제 간 연구”상태에 도달하는 것이라고 말했다.

Argonne National Laboratory의 환경 미생물학자인 Jack Gilbert는“한 사람이 다룰 수 없다”고 Neon이 토양 샘플 분석을위한 표준을 개발하고 온라인에서 데이터를 활용할 계획을 세웠습니다. “우리는 함께 일해야합니다. 너무 큰 문제입니다.”

큰 '나쁜'과학

생태학은 전통적으로 유기체가 주변 환경과 어떻게 상호 작용하는지 조사하는 소규모의 현지화 된 연구와 관련이 있습니다. 그러나 지역 또는 전세계 규모의 기본적인 질문에 맞서면서, Microsystems 접근법은 6 명의 맹인이 코끼리의 다른 부분을 느끼는 오래된 인도의 비유를 염두에두고 있습니다. John Godfrey Saxe의 인기있는 이야기에서, 남자들은 코끼리가 벽, 창, 뱀, 나무, 팬 또는 밧줄과 같습니다.

.

“우리는 주요 정보를 놓치고 큰 그림을 얻지 못했습니다.

소규모 연구는 지역 차원에서 필요한 깊이와 세부 사항을 제공하지만, 특정 질문 세트로 제한되는 경향이 있으며 조사자의 특정 방법론을 반영하여 결과가 더 넓은 모델과 재생산하거나 화해하기가 더 어려워 질 수 있습니다.

.

Thorpe는“단기적이고 소규모 연구로 연구 할 수없는 생태계에 큰 영향을 미친다는 사실을 피할 수는 없습니다.

Schimel이 부르는대로 거대 시스템 또는 "큰"생태학은 표준화 된 광범위한 데이터로 가능해집니다. 그는 크고 풍부한 데이터 세트를 갖추면 과학자들이 현실 세계의 복잡성과 가변성을 단순화 된 모델로“땅콩 버터”보다는 대규모 현상 모델에 통합 할 수 있다고 말합니다.

.

생태 학자들은 처음으로 50 년 전 국제 생물학적 프로그램을 통해 빅 데이터의 세계를 처음으로 탐구했는데, 이는 과학 분야를 삭감하고 대규모 시스템을 모델링하기 위해 수십 개국을 참여시켰다. 그것은 국제 파트너십의 개척자와 지지자들에게 사랑을 받고 있지만 당시 빅 데이터 모델링과 타이타닉 협력에 회의적인 전통적인 생물 학자들에 의해 그 당시 비난을 받았다. 이 프로젝트는 네온과 같은 새로운 협력 노력의 길을 열었지만 비판 중 일부는 남아 있습니다.

1969 년 Thomas Rosswall은 28 세의 미생물 생태 학자로 IBP의 스웨덴 툰드라 바이오 옴 섹션에 합류했습니다. 그는 생물학에 거의 조정 된 연구가 존재하지 않았을 때, 미생물 학자들이 식물 학자 및 수 문학자와 협력하여 기상 학자들과 협력하도록하는 것이 도전이라고 말했다. 냉전은 외부 과학자들이 러시아 유적지를 방문 할 수 없다는 것을 의미했습니다. 대신 러시아인들은 그들의 작품 사진을 공유했다.

현재 은퇴 한 국제 과학 협의회 전무 이사 인 로스 월 (Rosswall)은 IBP 작업이 국제 과학자로서의 경력을 형성했다고 말했다. 툰드라 프로젝트는 특히 긴밀한 커뮤니티라고 그는 말했다. "우리는 또한 젊고 순진했고 아마도 좋았을 것"이라고 그는 말했다. "우리는 일이 어떻게 해야하는지에 대한 선입견이 없었습니다."

이상 주의적 비전은 날카로운 비판으로 만났다. 일부 생물 학자들은 아직 확실한 이론적 기초가없는 새로운 생태계 과학 프로젝트에 돈이 낭비되고 있다고 생각했습니다. 로스 왈 (Rosswall)은 부분적으로 비평가들은 자신과 그의 동료들이“너무 어리고 돈이 너무 많았다”고 생각했다.

.

오클라호마 대학교 (University of Oklahoma)의 식물 생태 학자이자 연구 캐비닛 의장 인 폴 리저 (Paul Risser)는 초원 생태계를 공부하기 위해 IBP 노력을 기울인“이것은 생태 연구에 소비 한 것보다 훨씬 더 많은 돈이었습니다. "사람들은 5 만 달러에서 60,000 달러의 보조금을받는 데 익숙했고, 여기에 수백만 달러가 IBP로 이동했습니다."

.

비평가들은 또한 대규모 데이터 중심 모델이 작동하지 않을 것이라고 말했다. 그리고 많은 사람들은 그렇지 않았습니다. 그러나 이러한 실패는 미래의 프로젝트를 형성하여 과학자들이 더 큰 데이터베이스를 구축하고 메타 데이터 (IBP 동안 노트북을 채운 필기 데이터에 대한 데이터에 대한 데이터)를 프로젝트에 통합 할 필요성을 보여주었습니다.

IBP에는 오늘날의 컴퓨팅 성능, 데이터베이스, 디지털 스토리지, 통신 및 인터넷은 말할 것도없이 최신 원격 감지 기술이 부족했습니다. Risser는“IBP는 도구를 실제로 갖기 전에 빅 데이터를 사용했습니다.

그리고 일부 전통적이고 자유로운 생태 학자들은 자신의 연구 주제를 선택하거나 자신의 방법론을 사용할 수없는 구조화 된 프로그램에 가입한다는 아이디어를 쫓아 냈습니다. Risser는“이 연구는 매우 조율되었으며 대부분의 생태 학자들은 연대 환경에서 일하는 데 익숙하지 않았습니다. 그러나 Risser는이 프로젝트가“학문과 수학적 모델링을 통해 일하는 데 익숙한 전체 세대의 대학원생들을 낳았다”고 지적했다.

.

IBP의 단점에도 불구하고 일부 데이터 세트와 모델은 오늘날에도 여전히 사용되고 있습니다. 그리고 그 유산은 1980 년 이래로 실행 된 장기 생태 연구 네트워크 인 Neon, Global Ecological Data의 공유 및 보관을위한 플랫폼을 제공하는 Data Observation Network를 포함한 오늘날의 큰 생태학 프로젝트의 공개 협력 및 방법론에서 살고 있습니다.

그리고 50 년 후, 비판은 부드러워졌습니다. Rosswall은“이 과정의 일부입니다. 그는 북극 연구소 간의 협력이 증가하는 것을 보게되어 기쁘다. "우리는 현장 연구를 수행 할 수있는 방법과해야 할 방법의 개발의 기초를 실제로 형성했습니다."

이제 Rosswall은 새로운 Big Ecology Project :Swedish 버전의 Neon.

함께 모이

Schimel의 Neon에 대한 철학은 30 년 전 IBP의 초원 프로그램에서 시작된 팀의 연구 조교로서의 경험으로 부분적으로 형성되었습니다. 그의 경력은 막 시작되었고 이미 화학자, 식물 과학자 및 미생물 학자들과 실험실 공간과 자원을 공유하고있었습니다. "나에게 충격은 모든 곳에서 그런 식으로 작동하지 않았다는 것이었다"고 그는 말했다. "IBP는 과학을위한 방법과 같은 개인의 통찰력과는 반대로 데이터와 모델에 대한 데이터와 모델에 대한 태도로 시간보다 앞서있었습니다."

Berukoff는 Neon 직원의 66 명의 연구원 중“같은 일을하는 두 사람이 없다”고 말했다. 36 세의 Berukoff는 컴퓨팅, 소프트웨어 엔지니어링, 엔지니어링, 천체 물리학 및“다른 분야의 데이터를 함께 스티칭하는 것”에 대한 배경 지식을 가진 그는“자연스럽게 적합하다”고 느꼈다.

.

그러나 다양한 팀에서 일한다는 것은 연구자들이 기꺼이 듣고 배우고 있어야한다는 것을 의미합니다. Berukoff는“사람들은 종종 자신이 그렇지 않을 때도 같은 것에 대해 이야기하고 있다고 생각합니다. "또는 그들은 같은 것에 대해 이야기하고 있으며 두 가지 방법으로 그것에 대해 이야기하고 있습니다."

.

이러한 차이는 다른 분야에 대해 배울 수있는 기회를 제시하지만,“말하고 들리는 것 사이의 임피던스 불일치로 인해 실망 스러울 수도 있습니다. "그 격차를 해소하는 것은 프로젝트의 성공의 핵심입니다."

전 세계에서 수집 한 미생물 샘플을 매핑하고 연구하려는 국제적인 노력 인 Earth Microbiome Project는 수백 명의 주요 조사관과 함께 일합니다. "때때로 우리는 데이터를 공유하고 싶지 않은 사람들을 만나거나 그 자료가 무엇인지 궁금해합니다. 비슷한 생각이 아닌 사람들은 분명한 경향이 있습니다.”

Gilbert는 같은 생각을 가진 많은 사람들은 젊은 연구자들이며,“이것을하는 기술을 가진 사람들”이라고 말했다. "과학계의 대다수는 데이터에 완전히 압도 당하고있다"고 그는 말했다. "조력 파를 앞두기 위해 적응해야합니다."

이 조정의 일부는 오픈 소스 플랫폼 및 데이터 분석 도구, 데이터 공유 및 과학 간행물에 대한 공개 액세스를 포함한 "오픈 과학"관행을 수용하는 것이 포함되어 있다고 Hadoop의 선구자를 개발하는 데 도움을 준 Chris Mattmann (32 세)은 Yahoo, Amazon 및 Apple 및 Neon과 같은 기술 자이언트가 사용하는 인기있는 오픈 소스 데이터 분석 프레임 워크를 개발했습니다. Mattmann은 크고 지저분한 데이터 세트를 분석하기위한 공유 도구를 개발하지 않고도 각각의 새로운 프로젝트 또는 실험실은 귀중한 시간과 자원을 동일한 도구를 재창조 할 것이라고 말했다. 마찬가지로, 데이터를 공유하고 게시 된 결과는 중복 연구가 제거 될 것입니다.

이를 위해 새로 형성된 연구 데이터 동맹국의 국제 대표들은 이번 달 워싱턴에서 만난 글로벌 오픈 데이터 인프라에 대한 계획을 세분화했습니다.

젊은 과학자들은 개방형 데이터 및 오픈 소스 도구를 생산하고 사용하는 데 익숙해졌으며“단일 PI가 통제 할 수있는 자원으로 그럴듯하게 대답 할 수없는 질문에 많은 질문에 참여하고 있습니다.”

.

Schimel은 Neon이 실시한 전문 조사에서“20 년 미만의 학위를 가진 응답자의 80 %가 Neon의 오픈 데이터를 사용할 가능성이 높거나 매우 가능성이 높았습니다. “가장 오래된 그룹은 훨씬 적고 지지력이 떨어졌습니다. 따라서 Neon의 봉사 활동 전략은 선임 연구원들의 참여에 훨씬 덜 집중했으며 'UNS'(비정규직)에게 알리고 참여하는 데 훨씬 더 집중했습니다.”

.

버클리 통계 학자 인 Yu는 수학자와 통계 학자가 큰 ​​과학 프로젝트에서 지적 리더가되기를 희망합니다. 그러나 "수학은 기술 작업에 더 집중하고 사람들이 리더십 기술을 개발하도록 장려하지 않습니다."라고 그녀는 말했습니다. "우리가 문화를 바꾸지 않으면, 그것이 당신을 필요로하는 곳, 당신은 중요한 결정을 내리지 않을 것입니다."

.

엔지니어들은 문제 해결에 중점을 둔 팀에서 일하는 데 익숙하지만 50 세의 엔지니어는“수학은 사람들이 선형 적으로 순위를 매기는 경향이있다”고 말했다. “문화는 젊은이들이 보람있는 경력을 갖도록 격려하고 육성하기 위해 변화해야합니다. 그렇게하는 것은 노인들에게 달려 있습니다.”

Yu는 수학 학생들에게 더 많은 컴퓨팅 기술을 배우도록 조언합니다. 그녀의 학생들은 Lawrence Berkeley National Laboratory의 Supercomputer에 접근 할 수 있지만, 그 중 일부는“아직 사용하는 기술이 없다”고 그녀는 말했다. "그들은 배우고 있습니다."

Neon이 작년에 건설 단계에 들어간 후, 건설 및 구현보다는 연구 및 과학 계획에 관심이있는 Schimel은 다음 큰 프로젝트를 추구하기 위해 떠났습니다. 그는 캘리포니아 주 패서 디나에있는 NASA의 제트 추진 연구소에서 탄소 및 기후의 주요 과학자가되었으며, 전 세계적으로 탄소 예산과 생태계를 연구하기 위해 우주 기반 관찰을 사용하려고 노력하고 있습니다.

.

Mattmann은“Schimel과 같은 민첩한 과학자들은이 프로젝트에 중요합니다. "그는 새로운 클래스의 데이터 과학자들이 실제로 필요한 것임을 알고 있습니다."

.

Jet Propulsion Laboratory에서 Schimel과 함께 일하는 선임 컴퓨터 과학자 인 Mattmann은 데이터 관리인과 과학자 사이에 종종 존재하는 벽을 설명했습니다. "CS 학위가 있다면 IT 인으로 분류됩니다."라고 그는 말했습니다. “그러나 CS에서는 종종 동일한 수학을 공부했을 것입니다. 다른 모델에만 적용합니다.

.

Mattmann은“저는 IT 사람이 아니라고 생각합니다. "가장 큰 문제는 우리가 훈련 된 컴퓨터 과학자들을 데려 가서 실습 벤치 과학을 가르쳐야하는지 또는 물리 및 자연 과학자들을 데리고 CS를 가르쳐야하는지 여부입니다." 몇 년 전, 그는 대부분 컴퓨터 과학자를 고용했지만 현재 과학자들을 데려와 프로그램 방법을 가르치고 있습니다.

Mattmann은 과학자, 수학자 및 컴퓨터 과학자를 하이브리드 데이터 과학자로 변형시킬 것이라고 말했다. “우리가 세계의 Facebook과 경쟁 해야하는 것은 전부입니다. Facebook에서 많은 돈을받을 수 있도록 누가 찌르는 사람을 파악하거나, 데이터 과학을 사용하여 물 예산을 이해하여 지속 가능한 행성을 만들 수 있습니다.”

.

Yu는 학업 홍보 시스템은 또한“학제 간 연구를 가치있게 바꿔야한다”고 말했다. "경계에서 사람들을 평가하기는 어렵지만 지금은 과학에서 가장 흥미로운 부분입니다."



  1. 식물이 재해에 저항하고 피해를 제거 할 수있는 이유는 무엇입니까?
  2. 외계 생명체가 완전히 외계인처럼 보이지 않는 이유
  3. 일부 외국인은 왜 어두운 피부를 가지고 있습니까?
  4. 과학자는 왜 SI를 사용합니까?
  5. 맹인 동굴은 어떻게 낮은 산소 환경에서 살아남을 수 있습니까?
  6. xerophyte와 phreatophyte는 무엇이 다릅니 까?