︎ 데이터 대표성 문제
(1993년 LA 시장 선거)
모든 등록 유권자 중: 민주당 Michael Woo가 공화당 Richard Riordan보다 6% 앞서고 있습니다.
유력한 유권자 중: 공화당의 Richard Riordan이 민주당의 Michael Woo보다 7% 앞서 있습니다.
실제 선거 결과: 가능성 있는 유권자 설문 조사에 따르면 공화당 Richard Riordan이 민주당 Michael Woo를 8% 차로 이겼습니다.
•LA 시장이 되고 싶은 사람 연구의 경우 모든 등록 유권자보다 예상 유권자 표본이 모집단을 더 대표한다는 것을 알 수 있습니다.
(문호 요람(문학 요람) 구보 대(갤럽))
다이제스트 예측: Franklin Roosevelt는 Alf Landon이 43%의 득표율로 승리할 것이라고 예측했습니다.
다이제스트의 예측에 대한 갤럽의 예측 : 프랭클린 루즈벨트가 득표율 44%로 알프 랜던의 승리를 예측할 것이라는 예측
갤럽 예측: 프랭클린 루즈벨트, 56% 득표로 승리 예상
실제 선거 결과: Franklin Roosevelt는 62%의 득표율로 승리를 예측했습니다.
•다이제스트가 다수의 여론조사 샘플을 보유하고 있었으나 부정확한 샘플링 방식으로 대표성을 갖지 못하여 결과를 잘못 예측하였음을 알 수 있다.
︎ 경제 현상의 재현 문제

•지난 30년 동안의 주식시장 투자를 볼 때, 전체 기간 동안 존재했던 기업의 성과만을 평가하는 것은 생존 편향의 문제를 일으킬 수 있습니다.
•1980년부터 30년간 재벌 계열사 및 비재벌 계약자에 투자한 1원의 가치를 진출기업과 퇴출기업을 포함한 표본기업을 대상으로 살펴보자.

•생존가능성을 설명하는 왼쪽 그래프와 그렇지 않은 오른쪽 그래프를 보면 재벌(파란색)과 비재벌(빨간색) 간에 가치 성과의 흐름이 매우 다르다는 것을 알 수 있다.
•다시 말해서, 생존 편향을 설명하지 않는 샘플의 통계 분석은 편향된 결과를 생성할 수 있습니다.해보자.
︎ 저울의 종류
명목 척도: 척도의 이름만 의미가 있음
예) 혼인상태코드(미혼1, 기혼2, 이혼3, 사별4) 등
주문 척도: 이름과 주문에는 의미가 있습니다.
예) 등급(나쁨 1, 양호 2, 양호 3, 매우 양호 4, 우수 5) 등
간격 척도: 이름, 순서 및 간격에는 의미가 있습니다.
예) 온도 등
비율 척도: 이름, 순서, 간격 및 척도 모두 의미가 있음/ 절대 영도가 정의된 경우 적용 가능
예) 크기, 무게, 성질 등
︎ 실험적 연구
• 치료군/대조군
: 처리한 그룹 / 처리하지 않은 그룹
무작위 제어
: 처리군과 대조군으로 나누어 확률에 따른 무작위 배정(동전 던지기)으로
•이중 실명
: 피험자가 자신이 치료를 받았는지 여부를 알지 못하며, 피험자의 심리적 효과나 플라시보 효과가 통제된 경우
: 실험자는 피험자가 어느 집단에 속해 있는지 모르기 때문에 실험자가 피험자의 반응 해석에 임의로 개입하지 않는다.
• 실험 연구는 많은 경우 특정 치료(백신 접종)의 효과가 치료군과 대조군 사이의 반응(소아마비 발병률)을 비교하여 결정되는 경험적 연구와 다릅니다.
•가장 이상적인 실험은 무작위 이중 맹검 통제 실험입니다.오전.

•왼쪽 표의 치료군은 대조군보다 경제적 지위가 높기 때문에 소아마비에 더 취약한 경향이 있습니다.
• 대조군의 경우 치료군에 비해 경제수준이 낮은 환경으로 인해 소아마비에 대한 저항력이 강한 경향이 있다.
• 따라서 왼쪽 표의 두 집단은 적절한 비교 대상이 될 수 없으며, 오른쪽 표의 이중 맹검 무작위 실험은 잘 통제된 예이다.
︎ 실증연구

• 실험적 연구를 하는 것은 좋지만 대부분 실증적 연구이기 때문에 부정확한 관찰자료를 접할 수 있다.