20191005_통계적 실험과 유의성 검정

2019. 10. 13. 16:50통계 + R

분포를 배우는 이유는 무엇인가?

데이터 경향 파악, 모집단의 예측

실제적으로 쓰이는 것은 통계적 실험과 유의성 검정이다.

우리가 가격을 내리면 손님이 올 것 인가? 

실제로 가격때문에 손님이 온 것인지? 어떻게 검정함?

 

 

실험설계는 사실상 모든 응용 연구 분야에서 통계분석의 토대가 된다. 실험설계는 어떤 가설을 확인하거나 기각하기 위한 목표를 갖고 있다. 특히나 데이터 과학자들은 사용자 인터페이스나 제품 마케팅 실험과 같이 지속적으로 어떤 실험을 수행해야 하는 상황에 있다. 이 장에서는 전통적인 실험설계에 대해 알아보고 데이터 과학에도 적용되는 몇몇 어려움에 대해 논의한다. 또한 통계적 추론에서 자주 인용되는 일부 개념들을 다루고 데이터 과학에서의 의미와 관련성 (또는 무관련성)을 설명한다. 통계적 유의성, t검정, p값 등에 대한 자료를 찾아보면, 전형적인 통계적 추론이라는 '파이프 라인' 속에 있음을 알 수 있다. 이 과정은 '약품 A가 기존의 표준 약품보다 낫다', '가격 A가 기존 가격 B보다 수익성이 높다' 라는 식의 가설을 세우는 것에서 출발한다. (A/B 검정과 같은) 실험은 가설을 검정하기 위해 설계되고, 원하는 최종적인 결론을 도출할 수 있도록 설계된다. 그리고 데이터를 수집하고 분석한 다음 마침내 결론을 도출한다. 추론 interference이라는 용어는 제한된 데이터로 주어진 실험 결과를 더 큰 과정 또는 모집단에 적용하려는 의도를 반영한다. (출처 : 데이터 과학을 위한 통계 )

 

 

 

 

 

통계적 실험과 유의성 검정

실험설계 : 통계 분석의 토대

로널드 피셔 : 1935년 실험계획법

가설을 검정하기 위해 설계되어 결론 도출

https://ko.wikipedia.org/wiki/가설_연역_방법

 

https://prezi.com/zvas34_20-yf/t-/


A/B 검정 - 두 방법/제품/절차 중 나은 것을 입증하기 위한 실험

처리(treatment) : 특별한 환경/조건 (약, 가격, 기사 제목 등)

처리군(treatment group) : 특정 처리에 노출된 집단

대조군(control group) : 어떤 처리에도 노출되지 않은 집단

임의화(Randomization) : 처리대상을 임의로 결정하는 과정

대상(Subject) : 처리를 적용할 대상(예: 피실험자)

검정통계량(test statistic) : 처리 효과를 측정하기 위한 지표

> 처리 조건을 제외한 나머지 조건은 정확히 동일

> 이상적으로 대상은 그룹에 무작위 배정

 


[참고] A/B 테스트 예제

  • 스타버즈 커피의 부진 > 매출 정상화 방안은?

     스타버즈 고객에 대한 설문 분석 > 평균적으로  Valeu(가성비) 하락 확인 > 불황에 따른 수입 감소 영향?

     소호점 매니저의 반대 의견(가치 하락은 없다) > 지역별로 나누어 설문 분석 > 소호점외에는 모두 하락

     >> 대처 방안은?

     두가지 주장     1) 가격 인하(CFO)     2)브랜드 이미지 강화(마케팅)

 

  • 1차 실험 > 한달간 전사적인 가격 인하

     매출은 전달 대비 다소 상승 > 가격 인하를 하지 않았을 경우와의 비교는?

     대조군이 없음 > 따라서 효과를 분석할 수 없음

     대조군을 만들 수 있는 방법은?

 

  • 2차 실험 > 한 지역(태평양)에서 인하하여, 다른 지역(소호, 미드 애틀란틱)과 비교

     태평양 지역 매출 상승, 대조군은 유지 > 교란인자는 없는가? (지역의 날씨 등의 영향 가능)

 

  • 3차 실험 > 각 지역을 소지역으로 나누어, 임의로 가격인하, 브랜드 강화, 대조군으로 세가지 그룹화

     세가지 대조군의 결과를 통해 브랜드 강화가 가장 효과가 있음을 증명

출처 : Head First Data Analysis

 


[참고] A/B 테스트 활용 사례 - 콘티넨탈 항공

사과 편지로 위기를 기회로 바꾸다 : 이렇게 실생활의 통계 사례는 비즈니스에서 자주 활용된다. 비교실험을 활용하면 적은 비용과 최소한의 위험부담으로 실수의 가능성을 줄일 수 있다. 예를 들어 회사 전반에 걸쳐 답을 끌어내기 힘든 결정을 개인의 감각에 맡기기보다는 우선 임의화 비교실험을 진행하면 장기적으로 볼 때 훨씬 효율적이다.

미국 콘티넨털항공의 사례를 살펴보자. 이 회사는 운행이 지연되거나 대기예약에서 취소를 당해서 곤란을 겪은 고객에게 어떻게 대응할지를 놓고 임의화 비교실험을 진행했다. 이들은 운행지연이나 대기예약 취소 등의 상황을 겪은 고객을 3가지 그룹으로 나눠 대응해봤다.

- 공식적인 사과 편지를 보낸다.

- > 사과 편지 외에 프리미엄클럽의 임시 무료 가입권을 준다.

- > 아무런 행동도 취하지 않는다. (비교를 위해 설정한 그룹)

 

조사 결과 콘티넨털항공으로부터 사과 편지를 받지 않은 고객은 몇 개월이 지난 뒤에도 여전히 자신이 곤란을 겪은 일에 대해 화를 내고 있었다. 사과  편지를 받은 그룹은 이듬해 콘티넨털항공에 지출한 돈이 8%나 늘었다. 또 프리미엄클럽의 임시 무료 가입권을 받은 고객의 30%는 무료 이용기간이 끝난 뒤에도 돈을 내고 회원 자격을 유지해서 결과적으로 콘티넨털항공은 추가 수익을 얻었다. 콘티넨털항공은 이후 문제가 생길 때마다 해당 고객에게 재빠르게 사과 편지와 프리미엄클럽 무료 가입권을 보냈다. 그 결과 매출액이 1억 5000만 달러 이상 늘었다.

출처 https://dbr.donga.com/article/view/1206/article_no/6544

 


 

대조군과 명칭

  • 표준편차와 평균절대편차 적용 한계 (p.104)

     (평균 절대 편차) < (표준 편차) 

     참고 : p.37 두 값의 크기의 차이가 나는 이유는?

 

  • 대조군이 필요한 이유 > 편향

     '다른 것은 동일하다'는 보장이 없다 > 커피 전문점의 경우 : 지역간 소득차, 계절별 날씨

     눈가림 테스트(blind test) : 피실험자가 A 혹은 B 중 어느 쪽인지 알지 못하도록 처리

     이중 눈가림 테스트(double blind study) : 조사자에 의한 편향 방지

 

  • 왜 A/B 만 인가? C, D 등을 포함 할 수도 > 당연히 추가 가능

     멀티암드 밴딧 등 새로운 유형의 실험 설계 필요

 


 

 

[참고] 멀티암드 밴딧(Multi-Armed Bandit)

 


[참고] 임의화의 세가지 한계 : 현실, 윤리, 감정

현실 : 절대적 표본수의 제한, 조건 조절이 불가능한 경우

우주 왕복선 비행사 수는 3~4명 : 비용의 제한, 결혼의 선택, 지진 경험과 정신적인 강건성

 

윤리 : 실험에 의한 개인의 상대적 피해

통계학자의 윤리적 지침 (인위적 유해없어야, 극대극 상황이 없어야)

나치의 인체실험, 흡연과 폐암의 연관 관계 임의화 테스트, 일부 빈곤가정에 대한 주택임대비용 지원(결과적으로 실시)

 

감정 : 차별적 대우에 대한 반감

주택비용 지원, 아마존 상대가격 테스트

 

 

 

[참고] 임의화의 벽 - 감정

 

가설검정 - 관찰된 효과가 우연인지 여부 파악

귀무가설(null hypothesis) : 우연 때문이라는 가설(영가설)

대립가설(alternative hypothesis) : 귀무가설과 대조(증명 대상)

일원검정(one-way test) : 한 방향으로만 우연 발생 확률 계산(나은것 증명)

이원검정(two-way test) : 양 방향으로 우연 발생 확률 계산(기본값)

>임의성에 대한 과소평가

 

Black Swan사건 예상하지 못함

도박사의 오류

https://stickypanda.tistory.com/15

 

 

재표본추출 - 관측 데이터에서 표본을 반복 추출

순열검정(permutation test) : 표본을 결합하여 재추출하여 테스트

여러 표본을 결합하여 잘 섞어서 재표본 추출된 표본의 통계량을 반복 계산

무작위로 재표본 추출된 표본의 관측 통계량과 관측 통계량차이에서 우연 유무 판단

임의 순열 검정, 전체순열검정, 부트스트랩 순열검정

휴리스틱(Heuristic) 방법, 만능(one size fits all) : 숫자형, 이진형, 다른 크기

 

복원/비복원(with or without replacement) : 뽑힌 데이터의 재사용 유무

복원 추출

비복원 추출

 

 

 

 

[복습] 부트스트랩

CONDITIONS

  • We will get accurate estimates only if the sample size is sufficiently large.
  • The obtained bootstrap distribution is not extremely skewed or sparse.
  • The sample should be a good representation of the population.

출처 : https://yashuseth.blog/2017/12/02/bootstrapping-a-resampling-method-in-statistics/ 

 

 

[복습] 순열(교환) 검정 (permutation test)

https://bioinformaticsandme.tistory.com/10

 

[복습] 배깅(Bagging), 부스팅(Boosting)

 

https://swalloow.github.io/bagging-boosting

[참고] 대리변수(Proxy variable) - 측정 어려운 변수를 대신할 만한 변수

윤양배, 김미숙, 옥준필, 정연양, 양정호는 2008년 능력과 학벌에 대한 일반 국민과 기업 인사담당자의 인식경향의 연구에서 능력, 학력, 학벌의 개념을 구분하여 제시하였는데 '능력'이란 '개인의 노력에 의해 획득된 것으로서 어떤 일을 감당해 낼 수 있는 힘' 이라 정의하였으며, '학력'이란 '수업연한에 의해 구분되는 교육수준(고졸/전문대졸/대졸 등)'으로, '학벌'이란 '출신 고등학교나 대학교(명문/비명문 등)에 따라서 구분되어 지는 것' 이라 정의하였다.

여기에서 흥미로운 것이 학력이라는 것인데, 학력은 능력과 학벌에 동시에 관련 있는 것으로 정의에 따라서 능력과 학벌 모두의 *대리변수(Proxy variable)로 활용될 수 있는 특징이 있다.

*대리변수 (Proxy variable) : 어떤 특정한 변수에 대해 직접적으로 획득이 곤란하거나 사용이 어려운 경우, 혹은 반영이 제대로 이루어지지 않는 경우, 원래 변술르 대신하여 사용되는 변수를 의미한다. 이렇게 사용되는 대리변수는 원래의 변수와 밀접한 상관관계에 있어야 한다.(위키백과 2016.11.23)

 

https://blog.naver.com/PostView.nhn?blogId=dohow123&logNo=220868841797&categoryNo=24&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView&userTopListOpen=true&userTopListCount=30&userTopListManageOpen=false&userTopListCurrentPage=1

 

통계적 유의성과 p값  - 우연한 값이 아님을 판단

p값 (p-value) : 관측결과와 비슷한 결과를 얻을 확률

귀무가설을 가정할 때 관찰된 결과 만큼의 극단적인 값이 나올 확률

공식적인 보고에서 참조하기 위해 사용하는 경우가 많음

 

알파(alpha) : 우연이 아님을 판단하는 임계 확률(유의수준)

측정값이 귀무가설의 가정에서 나오기 어렵다고 판단할 임계값(1%, 5%를 많이 사용)

 

1종 오류(type l error) : 우연의 효과를 실제 효과로 오판

2종 오류(type ll error) : 실제 효과를 우연의 효과로 오판

 

https://m.blog.naver.com/PostView.nhn?blogId=uscpalicense&logNo=220507326197&proxyReferer=https%3A%2F%2Fwww.google.com%2F
https://m.blog.naver.com/PostView.nhn?blogId=uscpalicense&logNo=220507326197&proxyReferer=https%3A%2F%2Fwww.google.com%2F

 

 

 

 

[참고] 올바른 p값 사용을 위한 미국 통계학회 성명서

 

2016년 3월 미국 통계학회 성명서

1. P-값은 (통계적 유의성보다는) 가정된 모형이 데이터와 별로 맞지 않음을 나타낼 수 있다.

P-values can indicate how incompatible the data are with a specified statistical model.

 

2. P-값은 주어진 가설이 참인 확률이나, 데이터가 랜덤하게 생성된 확률이 아니다.

P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

 

3. 과학적 연구 결과와 비즈니스, 정책결정 과정은 P-값이 어떤 경계값보다 크거나 작은 것에 근거해서는 안 된다.

Scientific conclusions are business or policy decisions should not be based only on wherther a p-value passes a specific theshold.

 

4. 제대로 된 추론을 위해서는 연구과정 전반에 대한 보고서와 투명성이 필요하다.

Proper inference requires full reporting and transparency.

 

5. P-값이나 통계적 유의성은 효과의 크기나 결과의 중요성을 나타내지 않는다.

A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.

 

6. P-값 자체로만으로는 모형이나 가설에 대한 증거가 되지 못한다.

By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

 

출처 : https://blog.naver.com/PostView.nhn?blogId=youji4ever&logNo=221534268577&categoryNo=0&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView

 

 

 

[참고] 1종 오류 vs 2종 오류, 그리고 AUC

https://glassboxmedicine.com/2019/02/23/measuring-performance-auc-auroc/

1종 오류에 대한 성능 - 낮은게 좋음

2종 오류에 대한 성능 - 높은게 좋음

 

 

 

 

t 검정 - 가장 자주 사용되는 검정

 

검정 통계량(test statistics) : 관심있는 차이/효과의 측정 지표

t 통계량(t-statistics) : 검정 통계의 표준화된 하나의 버전

t 분포(t-distribution) : 측정된 t 값을 비교할 수 있는 기준 분포

> 컴퓨터 보급 전에는 순열검정과 같은 재표본 검정은 비실용적

> 표준화된 참조 분포와의 비교를 통해 유의성 검정

 

https://m.blog.naver.com/PostView.nhn?blogId=gallupkorea&logNo=220129529057&proxyReferer=https%3A%2F%2Fwww.google.com%2F
https://m.blog.naver.com/PostView.nhn?blogId=gallupkorea&logNo=220129529057&proxyReferer=https%3A%2F%2Fwww.google.com%2F

 

 

다중 검정(Multiple testing) - 여러 번의 검정

1종 오류(type l error) : 우연을 실제 효과로 잘못 판단

거짓 발견 확률(FDR - False Detection Rate) - 1종 오류 발생 비율

p값 조정(adjustment of p-value) : 동일 데이터에 대한 여러 번 검정 시 해석

과대적합(Overfitting) : 잡음에 대해서도 최적화된 상태

> 다중성(다중 비교, 다수의 변수, 다수의 모델)은 잘못된 유의미 결론 위험을 높인다.

> 다중성 위험이 있는 경우 통계적 수정 절차가 필요

> (훈련에 사용하지 않은) 별도의 홀드아웃 표본을 사용하면 잘못된 판단을 줄임

 

[참고] 본페로니 수정(Bonferroni adjustment)

GWAS분석에서의  Bonferroni correction

GWAS분석에서 과거에서 한 두개의 유전자 또는 유전변이형 마커에 대한 연관성 분석을 수행하였기 때문에 다중비교(Multiple comparison)에 의한 오류는 큰 문제가 되지 않았다. 그러나 최근에는 엄청난 수의 유전변이형 마커가 질관 연관성 연구에 활용되면서 다중검정의 문제가 제기되어다. 이러한 문제를 해결할 수 있는 방법으로는 가장 간단한 bonferroni correction방법을 많이 활용한다. 이 방법은 유의수준  (=p-value)를 총 검사한 개수(N)로 나누어 주는 것이다. 예를 들어, 단일 검사의 유의수준(False positive율)을 5%로 설정하면 Bonferroni correction에 의한 새로운 유의수준 (=p-value)=0.05/N 으로 표시된다.

위의 보기에서와 같이 조사하는 개수가 증가함에 따라 유의수준이 급격히 감소함을 알 수 있다. 따라서 본 보정 방법은 수행하는 검사의 수가 많은 경우에는 너무 엄격하게 유의수준이 크게 감소한다는 단점을 가지고 있다.

GWAS : Genen-Wide Association Study

 

출처 : http://www.incodom.kr/Bonferroni_correction

 

 

[참고] 오버피팅(over-fitting)

 

https://en.wikipedia.org/wiki/Overfitting

 

 

[참고] 홀드아웃 데이터셋(holdout dataset)

https://ai.googleblog.com/2015/08/the-reusable-holdout-preserving.html
https://ai.googleblog.com/2015/08/the-reusable-holdout-preserving.html

 

 

자유도(Degrees of Freedom) - 변화가능한 값의 갯수

자유도(d.f) : 검정통계량 표준화에 사용 > 샘플의 통계량은 편향된다

표준화를 통해 기준분포(t-분포, F-분포 등) 과의 비교가 가능해짐

회귀의 다중공선성을 피하기 위해 범주형 변수를 n-1개의 (지표/더미변수)로 요인화 하는 이유

https://blog.minitab.com/blog/statistics-and-quality-data-analysis/what-are-degrees-of-freedom-in-statistics

D.F. = (r-1)*(c-1)

 

 

분산 분석(ANOVA - Analysis of Variance) - 여러 그룹 비교

쌍별 비교(pairwise comparison) : 여러 그룹 중 2개의 그룹 간의 가설 검정

총괄 검정(omnibus test) : 여러 그룹 평균들의 전체 분산에 대한 하나의 가설 검정

분산(변화?) 분해(decomposition of variance) : 각 요소의 기여도를 분해

F 통계량(F-statistics) : 그룹 평균 차이가 우연값이 아닌 정도를 측정하는 지표

SS (Sum of Squares) : 평균에서 벗어나는 정도에 사용하는 지표

> ANOVA는 여러 그룹 시험 결과를 분석하기 위한 절차

> 그룹처리, 상호작용 효과, 오차 등과 관련된 요인 식별

> 일원 ANOVA : 1개 요소 (예: page), 이원 ANOVA : 2개의 요소 (예: 페이지-주말)

 

 

 

[참고] ANOVA(Analysis of Variance)

https://howecoresearch.blogspot.com/2019/01/using-analysis-of-variance-anova-in.html

 

 

 

[참고] 분산 분해

 

 

 

 

 

카이제곱 검정 - 다중처리 분포와의 적합성 테스트

카이제곱통계량(chi-square statistic) : 기댓값과 관찰값 간의 차이를 나타내는 값(제곱값)

기댓값(expectation) : 가설에 바탕을 한 기대정도

> 일반적인 통계학의 절차는 관측 데이터가 독립인지 검증하는 것

> 카이제곱검정의 기준 분포는 카이제곱 분포

 

https://ko.wikipedia.org/wiki/카이제곱_분포

 

[참고] 피셔의 정확 검정

http://blog.daum.net/_blog/BlogTypeView.do?blogid=0Nz1O&articleno=177&categoryId=31&regdt=20130627113837

 

[참고] 볼티모어 사건

 

 

 

멀티암드 밴딧 알고리즘(MAB) - 최적화와 빠른 의사 결정

멀티암드 밴딧(multi-armed bandit) : 손잡이가 여럿인 가상의 슬롯 머신. 다중 처리 실험.

손잡이(arm) : 실험에서의 하나의 처리 (예: 웹 테스트의 헤드라인 A)

상금(win, reward) : 성공을 슬롯머신의 상금에 비유 (예: 고객 링크 클릭 수)

> A/B 테스트는 임의의 표집 과정 : 수익이 낮은 것과 높은 것의 횟수 차이가 없다.

> MAB는 수익이 낮은 쪽의 빈도를 줄이는 방향으로 표본 추출 (학습)

> 두가지 이상의 처리도 효과적으로 다룸

> 수익 높은 쪽 시도를 높이는 다양한 알고리즘

 

강화 학습을 위한 기본 개념

https://towardsdatascience.com/solving-the-multi-armed-bandit-problem-b72de40db97c

 

 

 

 

 

[참고] 엡실론-그리디 알고리즘(epsilon-greedy algorithm)

 

https://www.slideshare.net/YikaYujiaLuo/multiarmed-bandit-65798080

 

[참고] 톰슨 샘플링(Thompson's sampling)

 

 

https://www.slideshare.net/YikaYujiaLuo/multiarmed-bandit-65798080

 

 

 

검정력과 표본크기

효과크기(effect size) : 통계 검정으로 판단할 수 있는 효과의 최소 크기

예 : 클릭율 20% 향상

검정력(power) : 주어진 효과를 검증할 가능성

유의수준(significance level) : 검증에 사용할 통계 유의 수준

> 통계적 실험 전에 필요한 표본의 크기를 고려

> 검증하고자 하는 효과의 최소 크기 선택

> 효과크기를 검증에 요구되는 확률 지정

> 수행할 가설검정의 유의수준 선정

> 작은 차이(effect size) 검증에는 더 많은 샘플 필요

> 검증력을 높이려면 더 많은 샘플 필요

https://stackoverflow.com/questions/52663076/how-do-i-calculate-statistical-power-on-effect-size-of-cox-regression-in-r?rq=1

 

 

 

 

 

 

 

 

 

 

 

 

'통계 + R' 카테고리의 다른 글

20190928_데이터분포와 표본분포  (0) 2019.10.20
20191012_회귀와 예측  (0) 2019.10.13
긴꼬리 분포(Long-Tailed Distribution)  (0) 2019.10.06
Poisson(푸아송) 분포  (1) 2019.10.06