해양 생태 학자들이 2012 년에 처음으로 OHI (Ocean Health Index)를 석방했을 때, 그것은 웅장한 야심 찬 업적이었습니다. 캘리포니아 대학교, 산타 바바라 (Santa Barbara)의 국립 생태 분석 및 합성 센터 (NCEAS)의 수십 명의 과학자, 경제학자 및 환경 관리자들 사이에서 공동 작업으로 태어난 지수는 세계와 지역 모두와 지역 모두의 해양 생태계의 건강을 과학적으로 평가하기위한 포괄적 인 프레임 워크로 설계되었습니다. 100 개가 넘는 데이터베이스를 바탕으로, 지수는 생물 다양성 및 생태 생산성의 지역 측정을 낚시, 산업 사용, 탄소 저장, 관광 및 기타 요인에 대한 정보를 통합하여 0에서 100 사이의 개방형 해양 및 해안 지역의 건강을 기록했습니다 (전세계 해양은 36에서 86 사이의 지역 등급으로 60 점을 얻었습니다.) 해양 보호 및 더 나은 결정에 대한 정책 입안자와 함께하는 가장 효과적인 조치를 전달합니다.
그러나 그러한 지수의 가치는 한 번만하는 것이 아니라 반복해서 할 수있는 것입니다. OHI 팀이 2013 년에 다시 일을 시작했을 때, 그들은 빠르게 SNAG를 쳤다. 그들의 데이터 세트, 문서 및 모델링 절차는 여전히 못생긴 엉망이었다. OHI 팀은 2012 년 결과를 위해 Motley 데이터를 모양으로 만들었지 만 업데이트를 위해 재검토하면서 자신의 작업을 재현하는 데 어려움을 겪고있었습니다.
.재현성은 최근 몇 년 동안 생의학과 심리학의 핫 버튼 주제가되었지만 그 분야는 혼자가 아닙니다. 환경 과학자들은 재현성과 투명성 문제에 대한 문제가 지역에서 대륙에서 대륙에 이르기까지 생태계의 역학을 이해하기 위해 빅 데이터 접근법을 받아 들여서 점점 더 심각해질 수 있다고 반복적으로 경고했다.
이번 주 Julia S. Stewart Lowndes of NCEAS와 그녀의 동료들이 이번 주에 발표 한 에세이는 OHI 팀이 미숙 한 데이터 문제를 조용히 극복하는 방법에 대한 매크로 시스템 생태학 프로젝트와 더욱 중점을 둔 연구를 제공하는 방법에 대한 흥미로운 사례 연구를 제공하는 방법에 대한 에세이를 공개 액세스 형성으로부터 혜택을받을 수있는 방법에 대한 흥미로운 사례 연구를 제공합니다. 그들의 이야기는 또한 자신의 모범을 따르고 싶어하는 연구원들에게 방법을 제공합니다.
Lowndes는“다른 사람들이 이것을 자신의 미래로보고 힘을 얻는 느낌을 갖기를 원합니다.
환경 과학의 빅 데이터 프로젝트는 1960 년대 중반과 70 년대의 국제 생물학적 프로그램으로 반세기 이상으로 거슬러 올라갑니다. 그들은 종종 생태 학자들과 다른 생물 학자들의 회의론을 만났다. 희귀 종과 섬세한 환경을 연구하는 생물 학자들은 민감한 또는 독점 정보로 간주되는 것에 대한 통제력 상실에 반대했습니다.
워싱턴 주립 대학의 환경 연구, 교육 및 봉사 활동 센터의 이사 인 해양 생물 학자이자 전 NCEAS 부국장 인 Stephanie E. Hampton은 생태 학자들이 사용하는 이질적인 데이터 유형도 도전 할 수 있다고 말했다. 유전자 서열, 계통 발생 수, 토지 이용 데이터, 원격 감지 및 이미지 데이터, 인구 수 및 종 행동의 로그 - 매크로 시스템 생태 프로젝트에서 표준화되고 결합되어야합니다. 그녀는“우리는 4 글자 만 관리하려고 노력하고 있기 때문에 유전체학에서 일하는 사람들이 모두 질투심이 많다”고 웃으며 말했다. "생태학은 이질성 문제의 실제 포스터 아이라고 생각합니다."
.갈등의 적어도 일부는 생태 학자들의 훈련과 문화에도 부여되었습니다. 연구원들은 스스로 또는 가까운 동료들의 비교적 아늑한 서클에서 일하는 데 익숙해졌습니다. Hampton은 생태 학자들 사이의 전통적인“견고한 개인 주의자”감성으로 인해 연구자들은 종종 종이나 서식지를 연구하는 자신의 방법을 개발했다고 말했다. "일반적으로 우리가하는 일은 Frankenstein과 함께 무언가입니다." 그들은 자신의 절차 나 기록 유지가 다른 서식지에서 사용하는 과학자들이 사용한 것과 완벽하게 일치하는지에 대해 크게 걱정하지 않았습니다. 실제로 연구자들은 종종 자신의 주제의 독특한 특징에 의해 특유의 접근이 정당하다고 느꼈습니다.
Lowndes는“우리는 생태 학자와 환경 과학자로서 훈련을 받았지만 실제로 데이터를 다루는 법을 배우지 못했기 때문에 모든 사람이 자신의 길을 찾아냅니다.
그러나 환경 데이터를 공유하고 심사하는 것이 현대 생태학의 더 큰 부분이되면서, OHI의 노력이 무너지면서 이러한 특유성이 덜 방어 할 수 없게되었습니다. Lowndes와 그녀의 공동 저자에 주목하는 아이러니 한 가지 아이러니는 2012 년 지수를 작업하는 동안 재현성 문제를 예견하여 130 페이지의 보충 자료에서 이종 데이터를 처리하는 방법을 문서화했다는 것입니다.
그럼에도 불구하고 2013 년에 다시 시작했을 때 워크 플로우가 근본적으로 비효율적이기 때문에 알림조차도 충분하지 않았습니다. 그들은 여전히 모든 기여 데이터베이스에서 데이터를 Excel 워크 시트로 복사하고 붙여 넣었습니다. 모델의 개별 데이터 처리 선택의 논리는 종종 이메일 및 기타 문서에 흩어져 있습니다. Lowndes는“이것이 우리가 모든 단계를 다시 걸어야한다는 의미뿐만 아니라 우리가 정확히 같은 방식으로하고 있는지 확인해야 할 것입니다. "오류의 여지가 너무 많았습니다."
이 실망스러운 결과가 다른 연구자들이 의도 한대로 OHI와 그 방법을 자신의 작업에 적용 할 수 없을 것이라고 제안한 것은 충분히 나빴습니다. 그러나 OHI 팀은 또한 그들이 중단 한 곳에서 쉽게 픽업 할 수 없다는 것을 깨달았습니다. 그들은 미래의 자아와의 공동 작업자로 실패했습니다.
.
Lowndes와 OHI 팀은 2013 OHI 및 향후 할부를 다시 시작하기 위해 프로젝트 참가자가 워크 플로우를 더 신속하고 균일하게 만들고 데이터 처리 선택을보다 투명하게 만드는 데 사용할 수있는 무료 공개 액세스 소프트웨어의 "OHI Toolbox"를 조립하는 다년간의 프로젝트를 시작했습니다. Lowndes는이 결정은 처음에“자가 보존에서 벗어 났고 더 효율적이어야했기 때문에 자체 보존에서 벗어났다”고 말했다. 배경 정보가 시스템에 내장되기 때문에 광범위한 보충 문서는 불필요합니다. 이 도구는 OHI 데이터를 사용하고 세계의 일부 지역에서 자신의 로컬 측정을 개발하려는 과학자들이 더 비싼 솔루션을 감당할 수 없었기 때문에 도구는 자유 로워 야했습니다.
.따라서 OHI 팀은 프로그래밍 언어 R에 모든 코드를 작성하는 데 정착했으며 모든 코드가 데이터 준비의 모든 측면을 직접 문서화했는지 확인했습니다. OHI 내에서 특정 평가 점수를 생성하는 데 사용 된 모델은 원래 기본 데이터의 차이로 인해 여러 언어로 작성되었습니다. 이 팀은 모든 프로그램을 R의 새로운 프로그램으로 교체했습니다. 이러한 소프트웨어 도구에 Github 저장소를 사용하여 내장 버전 제어 시스템을 활용하여 더 나은 구성 및 파일 이름 지정을 보장했습니다.
.“코딩은 일어난 일에 대한 역사적 기록을 제공 할뿐만 아니라. 재사용 할 수 있습니다.”라고 Lowndes는 말했습니다. "URL에서 데이터를 다운로드 한 다음 전년도에 수행 한 작업을 정확하게 수행 할 스크립트가 있습니다." 또한 모델에서 동일한 도구를 사용하면 수행 방식을 전달하는 데 도움이 될 수 있습니다. OHI의 설정은 연구원들이 공식적으로 훈련을 받았는지 여부에 관계없이 데이터 과학에서 선한 일관된 관행을 배우고 따르도록 강요합니다.
이러한 절차 적 개선의 결과로 OHI 팀은 2013 년 업데이트를 일정에 따라 발표하고 연간 세 가지 추가 업데이트를 추가로 진행할 수있었습니다. 다섯 번째 OHI의 결과는 지난 12 월에 발표되었습니다. 절차에서 반복과 개선 할 때, 연구원들은 더 적은 시간 안에 더 나은 과학을 할 수 있다는 것을 알았습니다.
OHI에 대한 Open Data Science 접근법의 성공에 대한 조용한 징후는 2016 년 세계 해양 건강 평가 점수 71이 2013 년 이후로 변경되지 않았다는 프로젝트 웹 사이트의 메모입니다. (2012 년 점수는 71으로 재평가되었습니다.) OHI 절차에서의 투명한 코딩 덕분에 연구원들은 2016 년에 사용 된 이전의 방법을 쉽게 재평가 할 수있었습니다. 연구를위한 데이터 처리는 다음과 같습니다.