통계에서 추상 수학은 실제 생활을 만난다. Donald Richards와 같은 통계 학자들은 먼저 원시 숫자 세트에서 의미를 찾기 위해 먼저 연관성을 찾습니다. 그런 다음 추가 연구는 한 현상이 다른 현상을 유발하는지 또는 둘 다 일반적인 원인이 있는지 여부를 조사 할 수 있습니다.
Richards는 1 월에 펜실베이니아 주 펜실베니아에있는 그의 집에서 Skype를 통해“통계는 데이터를 분석하고 데이터에 숨겨져있는 내부 숨겨진 비밀을 발견하는 방법입니다. “기후 변화가 진행되고 있음을 알려주는 패턴을 찾을 수 있습니까? 비트 코인이 차지했다는 것을 암시하는 패턴을 찾을 수 있습니까? 그것이 우리가 끊임없이 패턴을 찾고있는 것입니다.”
패턴은 미묘 할 수 있습니다. 그러나, 그들에 대한 탐색은 그의 견해에서,“뇌를 가진 사람이 자신의 삶에 따라해야 할 유일한 일”입니다.
.63 세의 자메이카 자메이카의 라일트에서 현상 사이의 숨겨진 연관성을 찾기위한 새로운 수학적 도구를 찾아서 고대의 원인과 효과를 더욱 발전시키기위한 새로운 수학적 도구를 찾아 통계 학자라고 묘사합니다. 예를 들어, 사람들은 먼저 자신이 무엇을 먹을 수 있는지 알아 냈습니까? "자메이카에는 Ackee Tree라는 나무가 있습니다." "Ackee 과일이 익지 않을 때는 매우 독성이 있지만 [상관 관계에 대한 치명적인 검색으로서, 잘 익은 경우] 잘 익히면 요리하고 먹을 수 있습니다."
.Richards는 현재 교수 인 State College의 West Indies, Wyoming, Virginia 및 Pennsylvania State University의 서인도 제도 대학으로 데려 간 경력을 통해 통계에 사용하기 위해 많은 새로운 수학 공식을 도출했습니다. 그는 또한 갤럭시 설문 조사, 금융 파생 상품, 농업 데이터 및 Affordable Care Act Insurance Market과 같은 실제 데이터의 상관 관계를 삭감하기 위해 적용했습니다. 1980 년대에 멘토이자 오랜 공동 작업자 인 케네스 그로스 (Kenneth Gross)와 함께 증명 한 공식은 통계적으로 덜 떨어질 가능성이 적은 휴대폰 데이터 전송 프로토콜 개발을 도왔습니다. "핸드폰을 사용하는 사람을 볼 때마다 1 센트 이상을 포크 할 수 있는지 궁금합니다."그는 농담을했습니다.
최근 Richards는 상관 관계를 감지하기위한 강력한 새로운 도구 인 "거리 상관 관계"방법을 취했습니다. 2014 년에 그와 그의 아내, 자메이카 계 미국인 천체 물리학 자 메르세데스 리차드 (Mercedes Richards)와 세 번째 공동 저자는 거리 상관 방법을 적용하여 63,500 개의 은하들 사이에서 이전에 알려지지 않은 연관성을 감지했습니다.
실생활은 또한 환영받지 못한 방식으로 침입하는 방법이 있습니다. 메르세데스는 2016 년 60 세의 나이로 사망했으며, 그로스는 작년 78 세에 사망했습니다. 리차즈는 통계의 기쁨에 대해 이야기하더라도 슬리브에 슬픔을 겪습니다. 1 월 인터뷰 후, Quanta 3 월에 Richards와 함께 전화로 이어졌습니다. 명확성을 위해 다음 질문과 답변이 편집되고 응축되었습니다.
자메이카에서 자라면서 항상 수학을 즐겼습니까?
어머니는 수학에 매우 능숙했습니다. 그녀는 교사 였기 때문에 학교가 나왔기 때문에 학습이 멈추지 않았습니다. 여름 동안 그녀의 세 아들과 이웃 집에서 온 친구들조차도 우리와 놀고 싶다면 9 시부 터 12 시까 지 우리 집에서 학업을해야했습니다. 점심 식사 후에는 하루의 나머지는 우리였습니다.
어느 여름, 내가 10 살 때, 그녀는 그녀의 오래된 대수 책 중 하나의 장을 통해 일하게했는데, 더 높은 대수 홀과 기사. 나는 그것을 이해하지 못했습니다. 바보 대수였습니다. 나는 그것이 무엇이든 유용하다고 생각할 이유가 없었다. 그러나 다음 여름에 그녀는“홀과 나이트로 다시 시작하지 않겠습니까?”라고 말했습니다. 그리고 두 번째 로이 장들은 처리하기가 훨씬 쉬웠습니다.
고등학교에서 Kingston College에서 저는 3 번째 형태의 훌륭한 수학 교사와 함께 대박을 쳤습니다. 네 번째 형태로, 나는 또 다른 훌륭한 수학 교사를 가졌을 때 잭팟을 다시 쳤다. 그런 다음 다섯 번째 형태로 파워 볼을 쳤다. 나는 3 년 동안 저를 가르쳐 준 훌륭한 수학 교사가있었습니다. 그래서 고등학교에서 나왔을 때 나는 자메이카의 수학 학생에게 가능한 최고의 준비 중 하나를 가졌으며 영국 영연방의 어느 곳에서나 대영 제국의 어느 곳에서나 감히 말할 것입니다.
.그러나 당신은 학업을 추구하기 위해 수학 코호트에서 유일한 학생이었습니다. 그 이유는 무엇입니까?
자메이카에서는 사람들이 경제적 고려로 인해 수학을 피하는 경향이있었습니다. 소득은 의사, 변호사 또는 엔지니어가되는 것보다 실질적으로 작습니다.

통계로가는 길을 어떻게 찾았습니까?
서인도 대학교에 갔을 때 수학은 전부였습니다. 물리학이나 화학, 생물학, 법률 또는 의약품을 공부하려고한다면 완전히 실패했을 것입니다. 나는 Rameshwar Gupta로부터 2 년째에 확률과 통계에 관한 과정을 밟았는데, 그는 결국 논문 고문이되었습니다. 그는 다변량 분석 전문가였으며 [많은 변수 간의 관계와 관련하여] 내 분야가되었습니다. 나는 내가 좋아하는 사람들과 함께 일하는 것을 믿는 사람입니다. 그리고 나는 또한 그와 함께 일하는 흥미로운 수학 문제가 많이 있다는 것을 알 수 있었기 때문에 두 세계의 최고였습니다.
그것이 제가 통계에 들어간 방법이지만 노스 캐롤라이나 대학교에서 임기를 얻는 데 상당히 가까워 질 때까지 실제로 통계 학자가되지 않았습니다. 나는 모든 공식을 알고 있었지만 데이터 분석의 예술과 기쁨은 그때까지 실제로 집에 닿지 않았습니다. 그 전에는 기본적으로 통계 학자 인 척하는 수학자였습니다.
수학자와 통계 학자의 차이점은 무엇입니까?
경계가 어디에 있는지 결정하기는 어렵지만 수학은 연역적 논리를 전문으로하는 분야라고 말합니다. 그들은 많은 공리를 내려 놓은 다음 해당 공리의 논리적 결과를 추론하려고합니다. 두 지점은 선을 정의하는 등을 정의합니다. 통계는 더 유도 된 논리의 기술이지만, 우리는 최종 결과를보고 그러한 최종 결과를 일으킬 수있는 원인을 이해하려고 노력합니다.
.우리는“수학적 통계 학자”는 데이터 분석의 귀납적 측면에 도움이되는 공식을 제시합니다. 내가 당신에게 간단한 예를 들어 보겠습니다. 내 손에 동전이 있고 묻습니다. 동전이 공정한 동전입니까, 아니면 머리 나 꼬리를 향해 편향되어 있습니까? 우리가 할 일은 동전을 100 번 던지는 것입니다. 머리의 비율이 어느 방향으로나 절반에서 너무 멀다면 우리는 동전이 불공평하다고 말하는 경향이 있습니다. 그러나 문제는 얼마나 멀리 떨어져 있습니까? 우리가 48 %의 머리를 얻었다고 가정 해 봅시다. 40 % 헤드는 어떻습니까? 절반에서 얼마나 멀리 떨어져 있는지에 대한 질문은 다양한 수학적 공식과 확률 론적 계산을 사용하여 대답합니다.
그래서 얼마나 멀리 떨어져 있습니까? 나는 40을 추측한다.
당신은 아주 좋은 추측을했습니다! 나는 매우 감동 받았다! 이 질문은 수세기 동안 사람들의 관심을 소비했습니다. 내 추기경 규칙은 다음과 같습니다. 동전이 100 회 던지고 헤드 수가 0에서 40 또는 60 ~ 100이면 동전이 편향되어 있다는 강력한 통계적 증거가 있습니다. 또한, 돈이 얼마나 위험에 처해 있는지에 따라 41 또는 59의 머리를 얻으면 즉시 카지노를 떠나는 것이 좋습니다. 42 또는 58 개의 머리에서도 던지기에 대해 긴장해야합니다.
사람들이 조언을 구하면 대부분의 노력에서 중간 도로를 고수하라고 말합니다. 그게 무슨 뜻입니까?
당신은 중간 과정에서 가장 안전합니다. 중간 과정과 함께 가야 할 조언 , acolytes가 일반적으로 금융 시장에서 매우 잘하는 책. 사람들이 재정 문제에 대해 아무것도 모른다면, 널리 다양하고 거래를 거의하지 않는 대형 뮤추얼 펀드를 가지고가는 것이 나의 조언 일 것입니다. 밤새 많은 돈을 벌려고하지 않습니다. 비트 코인을 사지 마십시오. 그건 그렇고, 새로운 것을 사지 마십시오. 새로운 돈을 사는 많은 돈을 버는 사람들이 있지만, 그렇게하는 많은 사람들이 결국 파산했습니다.
일부 통계 학자조차도 통계적 관계를 찾기위한 획기적인 새로운 수학적 도구 - 거리 상관 방법을 알고 있다는 사실에 놀랄 것입니다.
.의심 할 여지없이 혁신이있었습니다. 상관 관계의 개념에 관한 상황을 설명하겠습니다. 1800 년대 후반에 Karl Pearson과 Francis Galton과 같은 사람들은 우리가 현재 Pearson 상관 계수라고 부르는 개념을 개척했습니다. 널리 사용되는 상관 관계 측정
Galton은 아버지의 높이와 아들의 높이 사이의 상관 관계를 연구했습니다.
예. Galton은 더 크고 키가 크고, 더 강하고, 더 빠르고, 더 지능적 인 멋진 인체를 키우는 방법을 이해하려고 노력했습니다. 그래서 그는 많은 아버지와 아들 모음을 가져 와서 데이터를 플로팅했습니다. 실제로 인터넷에서 산란 플롯을 찾을 수 있습니다. 실제로 데이터를 통해 직선을 맞이하여 아버지가 키가 크면 키가 크다는 것을 알게됩니다. Karl Pearson이 현재 Pearson 상관 계수로 알려진이 방법은 장점이 있습니다. 그러나 그것은 또한 결함이 있습니다. 예를 들어, 높이와 체중, 아버지의 높이와 아들 키 사이의 1 차원 변수 사이의 관계를 연구하려고 할 때만 적용 할 수 있습니다. 한 배치의 변수와 다른 배치 사이의 상관 관계를 연구하려면 연관의 강도를 측정하기위한 단일 Pearson 상관 관계가 없습니다. 사람들이 일상적인 응용 프로그램에서 종종 간과하는 두 번째 문제는 Pearson 상관 계수가 두 변수 사이에 합리적으로 선형 관계가있을 때만 사용해야한다는 것입니다. 관계가 매우 비선형 인 경우이 방법은 적용 할 수 없습니다.
변수 간의 비선형 관계의 예는 무엇입니까?
키와 나이. 내가 인간을 데려 가서 출생에서 성인으로 키를 측정한다고 상상해보십시오. S 자형 곡선입니다. 선형 관계는 적용되지 않습니다.
선형 관계보다 더 많은 사례가있을 수 있습니다.
Pearson 상관 계수의 대량 적용이 유효하지 않다는 것을 보장합니다. 종종 도움이되지 않는 경우에 사용되며 데이터가 지원하지 않는 결론으로 이어집니다. 건강 데이터, 재무 데이터, 천체 물리학 데이터, 기상 데이터 :사람들은 변수 사이에 그럴듯한 선형 관계가 있는지 여부에 대한 생각없이 바로 뛰어 들어 피어슨의 상관 관계를 사용하기 시작합니다.
우리는 선형 또는 비선형 관계가 있는지 여부에 관계없이 적용 할 수있는 상관 계수가 필요하고 양쪽에 변수 배치가있을 때 적용 할 수있는 상관 계수가 필요하다는 것을 알고있었습니다. 2007 년경, Gábor Székely, Maria Rizzo 및 Nail Bakirov는 거리 상관의 개념을 정의하고 데이터에 적용한 논문을 썼습니다. 그리고 그 논문을 보았을 때 나는“아하! 나는 이것을 천체 물리학 데이터에 적용하는 방법을 알고 있습니다.” 그리고 멕시코 자율 기술 연구소의 엘리자베스 마르티네즈 고무 (Elizabeth Martínez-Gómez)의 아내 인 엘리자베스 마르티네즈-고무 (Elizabeth Martínez-Gómez)와 나는 생각했다.
.천체 물리학 데이터에 대한 연구를 계속하고 있습니까?
메르세데스와 나는 다른 천체 물리학 데이터에 대한 거리 상관 관계에 관한 세 번째 논문을 작성하려고했다. 나는 그것에 대한 메모가 있고 그것을해야합니다. 그러나 당신이 상상할 수 있듯이, 내가 그것을 볼 때마다 나는 조금 느낍니다 ... 음, 떠오르는 단어는“우울합니다”입니다. 그러나 그것은 내가 정말로 끝내야 할 것입니다. Ken Gross와 저는 매트릭스 인수의 과게 게오 메트릭 기능에 대한 또 다른 논문을 쓰려고했습니다. 우리는 20 년 동안 일했습니다. 수백 페이지의 메모가 있습니다. 그 종이는 길이가 100 페이지가 넘는데 앉아서해야합니다.
이 순간, 두 공동 저자와 저는 제조 공정과 거리 상관 관계의 응용을 제공 할 원고를 수정하고 있습니다. 프로세스가 제어되는지 여부를 결정하기 위해 방법을 적용하는 방법을 찾았습니다. 즉, 제품 당 평균 결함 수가 특정 임계 값 미만입니다.
거리 상관 관계는 어떻게 작동합니까?
푸리에 변환의 개념이 나오는 곳입니다. 푸리에 변환은 음악 화음이 구성 요소로 분해되는 방식과 유사하게 수학적 기능을 구성 요소 주파수로 나누는 방법입니다. 모든 기능은 푸리에 변환으로 독특하게 특징 지어 질 수 있으므로 사람들은 푸리에 변환을 사용하여 상관 관계 측정의 개념을 정의하려고 시도했습니다. 두 가지 확률 분포 (변수가 취한 값의 통계적 스프레드)를 제공하고 두 분포가 동일인지 테스트하려면 푸리에 변환을 계산하는 것입니다. 이것들이 동일하다면 나는 두 가지 확률 분포가 처음부터 같아야한다는 것을 알고 있습니다. 평신도의 관점에서 거리 상관 계수는이 푸리에 변환이 얼마나 멀리 떨어져 있는지를 측정 한 것입니다.
작년에 Pearson의 방법에 대한 거리 상관 관계가 향상되는 예를 제시하는 논문을 작성했습니다. 살인 율 및 주 총법의 경우에 대해 이야기하십시오.
이것은 Washington Post 의 의견에 의해 유발되었습니다. 2015 년 UCLA의 법학 교수 인 Eugene Volokh에 의해. 이 기사의 제목은“주 살인율과 주 총기 법 사이의 제로 상관 관계”입니다. 그가 한 일은 - 당신은 알다시피, 내 눈은 버려졌습니다. 나는 믿을 수 없었습니다-그는 총법의 강인성에 따라 등급 인 미국의 Brady 점수에 대한 데이터를 발견했으며, x-y 에서 Brady 점수를 그렸습니다. 각 주에서 살인 율에 대한 음모. 줄거리를 보면 패턴이없는 것 같습니다. 그는이 데이터 세트에 직선을 맞추기 위해 Excel 또는 무언가를 사용 했으며이 데이터 세트의 Pearson 상관 계수를 계산했으며 거의 0이되었습니다. 그리고 그는“AHA, 주 살인 율과 주 총기 법 사이의 제로 상관 관계.”
는 말했습니다.코셔가 아니야?
나는 끔찍했다. 이 분석에는 너무 많은 것이 있습니다. 산점 플롯에서 가장 먼저 눈에 띄는 것은 브래디 점수가 높고 살인 률이 높은 다른 방법으로는 하나의 점이 있다는 것입니다. 그것은 국가가 아닌 컬럼비아 특별구로 밝혀졌다. 실제로 도시이므로 분석에 포함 시키면 다른 사람들과 멀지 않기 때문에 회귀선의 경사면에 큰 영향을 미칩니다. 이것이 첫 번째 불만입니다. 그는 해당 데이터 포인트를 제거해야합니다. STAT 100에서 배운다는 사실을 알게됩니다. 제거하고 선형 회귀선을 다시 설정하면 Pearson 상관 관계는 실제로 0이 아닙니다.
.그러나이 데이터 세트에 선형 회귀선을 맞춰야합니까? 나머지 데이터를 보면 관계에 대한 선형성이 보이지 않으며 이유를 쉽게 이해하기 쉽습니다. 지리적, 문화적으로 유사한 지역에 해당하는 포인트가 많이 있습니다. 지역별로 주를 분해하면 산란 플롯에 합리적으로 선형 관계가 나타나기 시작합니다. 그리고 각 경우에, 당신은 Brady 점수가 높을수록 살인 율이 낮다는 것을 알게됩니다.
거리 상관 관계는 물건을 나누지 않고도 더 나은 일을합니까?
정확히. 아내와 나는 우리가 의견을 보았을 때 15 년 가을 에이 계산을했다. 그녀는 컴퓨터 프로그래밍에서 whiz였습니다 - 나는 그녀를 위해 그녀를 그리워합니다! 그녀를 그리워하는 것은 어리석은 이유입니다. 그녀는 거리 상관 계수를 계산했습니다. 그리고 컬럼비아 특별구가 포함되어 있어도 Brady 점수와 살인 율 사이에 통계적으로 유의 한 관계가 있음을 알 수있었습니다.
공개 담론에서 오용되는 통계와 같은 많은 사례가 있습니다. Nonexperts의 통계 사용을 개선하는 방법에 대해 생각하는 데 시간을 소비하는지 궁금합니다.
.그렇습니다. 이러한 끔찍한 통계의 오해가 있습니다. 그리고 나는 진실을 말해야합니다. 때로는 포기합니다. 그것은 결코 멈추지 않고, 오해의 수를 멈추지 않습니다. 교육자로서 저는 세상을 지속적으로 교육 할 의무가 있다는 것을 알고 있습니다. 하지만 나는 단지 한 사람이 아닙니다. 어느 시점에서, 당신은 무엇을 알고 있습니다. 나는 멋진 저녁 식사를하고 와인 한 잔을 마시고 세상이 원하는대로하게 할 것입니다.
거리 상관 관계와 같은 더 나은 도구를 개발함으로써 결국 이러한 방법이 더 일반적인 용도로 스며 들기를 바랍니다.
네, 그렇게 희망합니다. 사실, 나는 대형 제약 회사 중 하나가 이제 거리 상관 방법을 사용하기 시작했다고 들었습니다. 그리고 나는 학계의 사람들이 그것을 더 많이 사용하고 있다는 것을 알고 있습니다. 나는 거리 상관 관계가 Excel의 표준 풀다운 탭이거나 엑셀이 아닌 경우 Wolfram Alpha에서 충분히 오래 살기를 희망합니다. 당신은 당신의 x-y 를 입력합니다 데이터 및 붐 :거리 상관 관계를 제공합니다. 나는 그 날을 위해 산다!