불법적 인 유전체학 데이터 더미에서 명확한 메시지를 증류하기 위해 연구자들은 종종 메타 분석으로 전환합니다. 그러나 메타 분석이 답을 위해 광산 할 수 있다는 연구는 끝없이 분기 될 수 있습니다. 일부는 남성 만 등록하고 다른 일부는 자녀 만 등록합니다. 일부는 한 나라에서, 다른 일부는 유럽과 같은 지역에서 이루어집니다. 일부는 가벼운 형태의 질병에 중점을두고, 다른 일부는 더 진보 된 사례에 중점을 둡니다. 통계적 방법이 이러한 종류의 변형을 보상 할 수 있더라도 연구는 동일한 프로토콜과 계측기를 사용하여 데이터를 수집하거나 동일한 소프트웨어를 분석하여 분석합니다. 메타 분석을 수행하는 연구원들은 이러한 혼란스러운 요인을 제어하기 위해 데이터의 Hodgepodge를 정리하려고 노력하지 않는 길이로갑니다.
Stanford University의 전산 면역 학자 인 Purvesh Khatri는 그들이 잘못하고 있다고 생각합니다. 게놈 발견에 대한 그의 접근 방식은 다른 방법을 가진 다른 인구의 다른 병원에서 수집 된 데이터에 대한 공공 저장소를 수집 할 것을 요구합니다. "우리는 더러운 데이터로 시작합니다."라고 그는 말합니다. "샘플의 이질성에도 불구하고 신호가 튀어 나오면 실제로 무언가를 발견했을 수 있습니다."
.이 전략은 너무 쉬운 것처럼 보이지만 Khatri의 손에는 효과가 있습니다. Khatri와 동료들은 공개 데이터의 트로브를 분석하는 대상 유전자를 발견 할 수있는 시그니처 유전자를 발견하여 임상의가 패혈증을 유발하는 생명을 위협하는 감염을 감지하고 감염을 박테리아 또는 바이러스로 분류하고 결핵, 뎅기열 또는 말라리아와 같은 특정 질병이 있는지 여부를 알 수 있습니다. 작년 Khatri와 두 명의 다른 과학자들은 환자의 침대 옆에서 이러한 유전자 시그니처를 측정하기위한 장치를 개발하기 위해 회사를 시작했습니다. 요컨대, 그들은 숙주 면역 반응을 해독하고 주요 유전자를 진단으로 전환하고 있습니다.
지난 1 년 동안 Khatri는 Quanta Magazine 와 그의 아이디어를 논의했습니다. 전화, 이메일 및 화이트 보드 라이닝 스탠포드 사무실에서. 대화의 편집 및 응축 버전은 다음과 같습니다.
무엇이 당신을 생물학으로 켜 냈습니까?
나는 인도를 떠나 컴퓨터 과학 석사를 얻고 소프트웨어 엔지니어가 될 계획으로“Y2K 버그 수정”러쉬로 미국에 왔습니다. 디트로이트에있는 웨인 주립 대학에 도착한 지 몇 달 후, 나는 남은 생애 동안 소프트웨어를 쓰는 것이 정말로 지루할 것이라는 것을 깨달았습니다. 신경망에서 일하는 실험실에 합류했습니다.
그러나 고문은 생물 정보학으로 전환하여 내가 그와 함께 전환하면 수업료를 지불 할 것이라고 말했다. 나는 가난한 인도 대학원생이었다. “당신은 내 월급을 지불 할 것입니까? 당신이하는 일을 할게요.” 그것이 내가 생물학으로 이사 한 방법입니다.
당신은 꽤 빨리 스플래시를 만들었습니다. 어떻게 일어 났습니까?
고문이 2000-2001 년에 안식일에 떨어진 동안, 나는 남성 생식력과 관련된 유전자를 연구하는 산부인과 전문의 인 협력자 실험실에서 박사 우편과 함께 생물 정보학 분석을 실험실에서 일했습니다. 많은 수의 유전자에 대한 분석을위한 마이크로 어레이는 한 번에 새로운 것이 었습니다. 최근 실험에서 그는 약 3,000 개의 관심 유전자 목록을 얻었고 그들이하고있는 일을 알아 내려고 노력했습니다.
.어느 날 나는 그가 한 웹 사이트에서 다른 웹 사이트로가는 것을 보았습니다. 텍스트를 Excel 스프레드 시트에 복사하고 붙여 넣었습니다. 나는 그에게 말했다.“당신은 알다시피, 나는 당신을 위해 모든 것을 자동으로 수행 할 소프트웨어를 쓸 수 있습니다. 당신이 무엇을하고 있는지 말 해주세요.” 그래서 나는 그를 위해 대본을 썼습니다. 3 일이 걸렸습니다. 결과와 함께 우리는 lancet 종이.
우리는 소프트웨어를 웹에 올려 놓았습니다. 큰 관심이있었습니다. 그들은 일부 회의에서 그것을 발표했으며 화이자는 그것을 사고 싶어했습니다. 와우, 이것은 그렇게 낮은 매달린 과일이라고 생각했습니다. 나는 곧 백만장자가 될 수있다.
소프트웨어는 무엇을합니까?
유전자가 지정하고 검색하여 유전자가 관여하는 생물학적 과정 및 분자 경로를 알려주는 유전자 세트를 필요로합니다. 100 유전자 목록이 있다면 15 개가 면역 반응에 관여하고, 또 다른 15 개는 혈관 신생에 관여하고 50은 포도당 대사에 역할을한다는 것을 알 수 있습니다. 제 1 형 당뇨병을 공부하고 있다고 가정 해 봅시다. 이 결과를보고“올바른 길을 가고 있습니다.”
15 년 전, 나는 석사 학위를 받았을 때였습니다. 더 많은 도구를 개발하고 박사 학위로 작업을 확장했습니다. 이제는 개방형 웹 기반 도구 제품군이 있습니다. 마지막으로 몇 년 전에 확인한 것은 많은 국가에서 15,000 명의 사용자가 있었으며 하루에 평균 100 개의 데이터 세트를 분석했습니다.
도구가 매우 인기가 있었지만 결과가 어떻게 사용되는지, 사람들을 돕는 방법을 알려주지 않았습니다. 생물 정보학 분석에서 실험실 실험, 궁극적으로 환자를 도울 수있는 것에서 연구가 진행되는지보고 싶었습니다.
어떻게 스위치를 만들었습니까?
2008 년에 박사 우편으로 스탠포드에 왔을 때, 저의 조건 중 하나는 습식 실험실을 가진 사람 (실리코에서 데이터를 분석하는 것이 아니라 마우스 나 실제 환자의 샘플에 대한 실험을 실행하는 사람이 게임에서 피부를 원했기 때문에 절반의 급여를 지불 할 것이라는 점이었습니다. 한 실험실에서 개발하는 방법을 사용하여 예측을하고 다른 실험실과 협력하여 이러한 예측을 검증하고 임상 적으로 중요한 것을 말해주고 싶었습니다. 그것이 제가 생물 정보 학자 인 Atul Butte와 신장 이식 의사 인 Minnie Sarwal과 함께 일하는 방식입니다. [편집자 주 :Butte와 Sarwal은 스탠포드에서 샌프란시스코 캘리포니아 대학으로 이사했습니다.]
면역학에주의를 기울인 것은 무엇입니까?
장기 이식 거부의 기본 생물학을 배우기위한 논문을 읽고, 나는“aha!”를 가졌다. 순간. 나는 심장 이식 외과 의사, 신장 이식 외과 의사 및 폐 이식 외과 의사가 실제로 서로 대화하지 않는다는 것을 깨달았습니다!
내가 어떤 기관에 대해 읽었 든, 나는 이식 수신자의 면역 체계의 B 세포와 T 세포가 이식을 공격하고있었습니다. 그러나 거부에 대한 진단 기준은 달랐습니다. 신장 사람들은 신장 이식 거부에 대한 밴프 기준을 따릅니다. 심장과 폐수는 ISHLT [국제 심장 및 폐 이식을위한 사회] 기준을 따릅니다. 생물학적 메커니즘이 일반적이라면 왜 다른 진단 기준이 있습니까? 그것은 컴퓨터 과학자로서 나에게 의미가 없었습니다.
나는 공통 메커니즘이 있어야한다는 가설을 형성하기 시작했다. 이것에 대해 생각하면서 나는“면역 학적 상수의 거부”라는 제목의 환상적인 논문을 발견했습니다. 저자들은 기본적으로 내 가설을 제시했다. 그들은 장기 거부에 대한 트리거가 다를 수 있지만 공통 경로를 공유한다고 제안했다. 그리고 그들은 누군가 이것을 테스트해야한다고 말하고있었습니다.
그 시점에서 무엇을 했습니까?
나는 동료들에게“다양한 기관 이식 코호트에서 샘플을 수집하기 시작하지 않고 관련된 일반적인 유전자를 찾기 위해 분석을 수행하지 않습니까?” 그들은 다른 기관, 다른 마이크로 어레이 기술, 다른 치료 프로토콜과 같은 모든 이질성을 설명해야하기 때문에 할 수 없다고 말했다. 그 모든 것을 통제하는 데 비용이 많이들 것입니다.
또한 모든 사람이 모든 샘플을 기여하게하는 데 몇 년이 걸릴 것입니다. 나는 서두르고 있었다. 따라서 ATUL은 대신 기존 공개 데이터를 얻는 것을 제안했습니다. 그러나이 데이터는 여러 생물학적 및 기술적 요인에 의해 혼란스러워서 "더러운"것입니다.
나는 우리가 실제로 이질성을 통제 해야하는지 궁금했다. 이“더러운”데이터가 모두 존재한다면 어쩌면 우리는 어떻게 든 결합 할 수 있습니다. 그리고 우리가 이질성에도 불구하고 신호를 발견했다면, 당신이 말하지 않겠습니까?
나는 그것에 대해 작업하기 시작했다.
첫 번째 시도에서 무슨 일이 있었습니까?
나는 Gene Expression Omnibus 웹 사이트에 가서 심장, 신장, 폐, 간 (심장, 신장, 폐, 간)의 여러 장기 이식 연구에서 데이터를 다운로드했습니다. 이 데이터는 5 개의 병원에서 나왔으며 최소 2 개의 다른 진단 기준을 사용했습니다. 우리는 "호환되지 않는"데이터를 버리지 않았기 때문에 평소보다 [허용 가능한] 허위 발견 률을 높이 설정했습니다 (평소 5 % 대신 20 %). 우리는 모든 고체 조직 이식 거부에서 공통 메커니즘을 찾을 수 있다면 더 많은 잘못된 긍정을 기꺼이 얻었습니다. 우리는 하나의 데이터 세트가 모든 결과를 주도하지 않도록하는 것과 같은 다른 것들을 확인했으며, 유전자가 많은 유전자를 바꾸는 것이 아니라는 것을 확인하기 위해 몇 가지 추가 단계를 수행했습니다. 그리고 그것은 효과가있었습니다.
“Work”라는 의미는 무엇입니까?
많은 이종 데이터를 사용하여, 우리는 이식을 거부 한 환자에서 과발현 된 11 개의 유전자 세트를 발견했으며, 다른 국가의 다른 병원의 다른 병원에서 유전자 서명을 검증 할 수 있음을 보여주었습니다. 또한,이 유전자 세트를 사용하여, 우리는 이식 수술 후 6 개월 후 생검에서 환자가 18 개월 후의 상당한 임상 이식 손상 (급성 거부보다 더 어려운 상태)을 경험할 것으로 예측할 수 있습니다. 그래서 그것은 또한 예후 마커였습니다.
우리는이 결과를 생쥐에서 확인했습니다. 우리는 하나의 마우스에서 마음을 가져다가 다른 동물에 넣고 물었습니다. 이식 거부를 볼 때이 유전자가 변합니까? 대답은 그렇습니다.
그런 다음 Google 검색을 수행하여 우리가 찾은 유전자의 생물학적 과정을 조절하는 메커니즘을 찾는 약물을 찾았습니다. 우리는 마우스에서 시험해 볼 FDA 승인 약물 2 개를 선택했습니다. Lo와 보라, 그들은 일했다. 두 약물 모두 이식편 감기 면역 세포를 감소시켰다 [거부 마커]. 그들은 우리가 현재 이식 환자에게 제공하는 약물만큼 좋아 보였습니다.
이 두 약물 중 하나는 심장병을 예방하기 위해 널리 처방 된 약물 인 스타틴입니다. 나는 현재 벨기에에서 일하고 1989 년으로 거슬러 올라가는 전자 의료 기록을 이용할 수있는 전직 동료의 도움을 구했습니다. 나는 그에게 신장 이식을받은 환자들을 위해 데이터베이스를 검색하고 그라프트가 실패했을 때 어떤 약을 먹었는지 확인했습니다. 그는 분석을 실행했고 일주일 후 나에게“무엇을 추측합니까? 환자가 스타틴을 받으면 이식 실패율이 30 % 감소했습니다.”
전자 의료 기록에 대한 결과의 진단, 예후, 치료 및 검증 - 모두 한 논문으로.

귀하의 접근 방식이 기존 메타 분석과 어떻게 다른지는 잘 모르겠습니다. 근본적으로 다른 점은 무엇입니까?
가장 큰 차이점은 우리 그룹이 데이터 세트에 대한 이질성을 무시하는 반면 전통적인 메타 분석에서는 이질성을 줄이는 법을 배웁니다.
예를 들어 사람들은“환자가 다른 약물 치료를 받았기 때문에이 샘플을 사용하지 않을 것입니다. 또는이 환자는 이식 후 조기에 있었을 수도있는 반면이 다른 데이터 세트는 이식 후 5 년 후 늦었으므로 해당 데이터를 사용하지 않을 것입니다.” 생물 정보학에서는 데이터 세트를 가져 와서 소음이없고 혼란스러운 요인이 없는지 확인하는 샘플을 선택하는 법을 배웠습니다.
그러나 우리가 이것을 할 때, 그것은 질병의 이질성을 포착하지 않습니다. 우리는 그것을 알고 있습니다. 그렇기 때문에 우리는 다른 코호트에서 결과를 복제해야합니다.
내가 말하는 것은 이질성에 대해 걱정하지 마십시오. 더러운 데이터를 사용하면 임상 적 이질성을 설명 할 수 있습니다.
그러나 이질성이 내 결과를 망치지 않을 것이라는 점을 확신하기 위해 유전자와 의학적 상태 사이에서 찾은 통계적 연관성이 유체가 아니라는 것을 확인하기위한 엄격한 기준을 설정했습니다. 검증은 발견 세트의 일부가 아닌 독립 코호트에서 수행해야했습니다. 다시 말해, 실험실에 둘 이상의 데이터 세트가 게시 된 경우 각 데이터 세트를 검색 또는 검증 코호트로 선험적으로 만들었습니다. [편집자 주 : 전통적으로, 연구자들은 종종 참가자 그룹을 두 개의 하위 그룹으로 나눕니다. 특정 조건과 관련된 유전자에 대해 채굴 할“발견”그룹과“검증”그룹은 별도로 분석하여 발견 그룹에서 확인 된 유전자를 검증합니다.] .
이 접근법은 효과가있었습니다. 우리가 찾을 수있는 모든 생물학적, 기술적 이질성을 모두 가져 갔던 많은 더러운 데이터를 사용하여 확인한 유전자.
지난 가을 우리는 누구나이를 수행 할 수 있도록 일련의 지침을 발표했습니다. 몇 가지 방법을 비교하고 매우 기술적이지만 여기에는 펀치 라인이 있습니다. 총 200-250 개의 샘플이있는 3 ~ 5 개의 데이터 세트를 사용하면 재현성이 양호합니다 (85 % 이상). 선택한 메타 분석 방법은 중요하지 않습니다. 실제로 중요한 것은 크고 균질 한 데이터 세트가 아니라 다중 이종 데이터 세트를 가지고 있다는 것입니다.
우리의 방법 인 Metaintegrator는 r.
로 작성된 프로그램을위한 오픈 액세스 저장소 인 Cran에서 사용할 수 있습니다.최근에, 우리는 문학의 연구 편견 때문에 더러운 데이터를 사용하는 것이 좋을뿐만 아니라 필요하다는 것을 보여주는 분석을 수행했습니다. 우리는 방금 biorxiv.org에서 Preprint를 발표했습니다. 요점은 출판 된 내용을 기반으로 가설을 형성하는 것이 임의의 가로등 아래에서 열쇠를 찾는 것과 유사하다는 것입니다.
이식 거부 외에 다른 시나리오에서 접근 방식이 작동합니까?
우리는이 프레임 워크를 암과 전염성 및자가 면역 질환에 적용했습니다. 예를 들어, 내 친구는 kras 라는 유전자의 돌연변이에 의해 구동되는 암에서 일합니다. . 그는 나에게 와서“내가 관심있는이 다섯 가지 유전자를 가지고 있습니다. 분석을 실행하고 내가 어떤 유전자에 집중 해야하는지 말해 줄 수 있습니까?”
13 개의 데이터 세트 에서이 방법을 실행했습니다. 췌장암 6 개, 폐암 7 개. 내가 한 일에 관계없이 한 유전자는 항상 가장 변화하는 것으로 나타났습니다. 그는 그 결과로 달려 가서 메커니즘을 알아 냈고, 그것은 자연이되었습니다 종이.
는 2014 년에 지역 10 학년이 여름 연구 프로젝트를하기 위해 도착하기 직전에있었습니다. 그에게 무엇을 제안 했습니까?
장기 이식 작업의 11 가지 유전자에 대해 더 많이 생각하면서, 나는 그 유전자 세트가 얼마나 구체적입니까? 감염이있을 때 동일한 11 개의 유전자가 증가합니까? 암은 어떻습니까? 자가 면역 질환?
나는 여름을 나와 함께 일하면서 저와 함께 일하는 학생 에게이 모든 질병에 대한 데이터를 수집하기 시작합시다. 데이터를 다운로드하고 파이프 라인을 실행하고 각 조건에 대한 발현이 변하는 유전자 목록 인 유전자 시그니처를 보여주십시오. 그는 173 개의 마이크로 어레이 데이터 세트를 사용했으며 42 개 질병에서 8,000 개 이상의 인간 샘플이 발생했습니다. 박테리아 감염, 바이러스 감염,자가 면역 및 신경 퇴행성 장애, 정신 상태, 암.
그는 여름을 다운로드하여 데이터를 다운로드하여 데이터베이스에 넣고 케이스 나 통제, 질병, 어떤 조직이든 주석을 달았습니다. 각 질병에 대해, 그는 유전자 시그니처를 확인했습니다. 이러한 서명을 바탕으로 그는 모든 질병과 다른 모든 질병과 관련이있었습니다. 간단한 상관 관계 :이 질병에 하나의 유전자가 증가한다면이 다른 질병에도 있습니까? 그런 다음 그는 계층 적 클러스터링을했습니다. 상상할 수있는 가장 간단한 가능한 것.
그는이 모든 결과를 요약 한 매트릭스 인 그림과 함께 나에게 왔으며,이를 다루기위한 새로운 질문의 원천으로 사용하고 있습니다. 고등학생의 여름 프로젝트가 실험실에서 핵심 연구 방향을 설정했습니다!
최근의 결과는 무엇입니까?
스탠포드 수술 거주자 인 Tim Sweeney는 실험실에서 생물 의학 정보학 석사 학위를 취득한이 접근법을 사용하여 흐름도와 같은 면역 반응의 원인을 체계적으로 파악했습니다. 그는 먼저 패혈증을 비 감염성 염증과 구별하기위한 유전자 시그니처를 찾은 다음 박테리아 또는 바이러스 감염 여부를 구별하기 위해 유전자 시그니처를 찾았습니다. 바이러스 성이라면 인플루엔자입니까 아니면 다른 것입니까? 박테리아라면 결핵입니까? 박테리아 및 바이러스 외에도 기생충으로 인해 감염이 발생할 수 있습니다. 최근에 우리는 말라리아에 대한 사람의 반응에 대한 유전자 서명을 확인했습니다. 우리는 이제 숙주 면역 반응에서 유전자 발현을 측정하여 이러한 모든 질문에 대답 할 수 있습니다.
지난 5 월 Tim과 저는 "더러운 데이터"기반 진단을 상용화하기 위해 회사 인 Inflammatix를 찾도록 도왔습니다. 이 회사는 스탠포드에서 이러한 서명을 라이센스를 부여했으며 더러운 데이터를 진정한 잠재력으로 활용하는 방법을 개발할 것입니다. 나는 우리가 사용 가능한 데이터로 우리가 할 수있는 일의 표면을 긁지 않았다고 생각합니다.
한 가지 더. 2014 년 암 연구 종이, 우리는 효소 PTK7이 폐암에서 중요한 역할을한다는 것을 보여 주었다. 수준을 낮추면 종양이 줄어들 기 시작합니다. 당시 PTK7은 "고아 수용체 티로신 키나제"라고 불 렸습니다. 신체의 어디에서 결합하는지 알 수 없었습니다. 그러나 올해 초 화이자는 비소 세포 폐암에 대한 PTK7을 대상으로하는 약물에 대한 보고서를 발표했습니다.
이 모든 것은 다른 연구자들이 당신의 접근 방식을 취하도록 설득하는 것처럼 보입니다. 그들은?
내 걱정은 우리가 이것을 출판 한 순간, 우리와 경쟁하는 많은 사람들이있을 것이라는 것이 었습니다. 그러나 지금은 공개 도메인에 있고 거의 누구나 사용하지 않습니다!
이 접근법에 대해 제시하면 개종자가됩니다. 그러나 그때까지 나는 다른 날 트위터에 게시 한 것과 같은 보조금 리뷰를받습니다. 1 차 수사관은“한 반짝이는 프로젝트에서 다른 프로젝트에서 초점이없는 다른 프로젝트와 전리를 좋아하는 것 같습니다.”
.이것이 제 도전입니다. 우리는 그들을 어떻게 설득합니까?