Author: StatEdu

  • 배철수입니다. – 대한민국 국민 5명중 1명은 Auction 을 이용하고 있습니다.

    요즘 Auction 광고의 한 문구입니다. 이 문구를 통계적 관점에서 정리해 보는 시간을 갖도록 하겠습니다. 우리는 일상생활에서 수많은 통계와 접하며 살고 있습니다. 그러나, 일반 국민들은 막연히 듣고 보기만 할 뿐, 그 속에 숨겨진 진실을 알 수 없습니다. 실제로는 알 수 없다고 하는 것이 더 옳은 이야기겠죠. 그러다보니 통계를 이용하는 사람들은 이러한 내용을 교묘히 이용해 자신에게 유리한 점만을 부각하여 설명하고 과대포장하기도 합니다. 우리는 한번쯤 이러한

  • 잔차(residual)와 오차(error)

    위의 2개의 그래프에서 왼쪽에 있는 모형은 모집단의 모수식을 표현한 것이다. 즉, 우리가 궁극적으로 알고자 하는 실제의 식인 것이다. 이 경우, 모든 data 들(점)을 하나의 회귀식으로 100% 설명할 수 없다. 그래서 생각해 낸 것이 바로 오차(error) 라고 하는 것으로, 이 값은 회귀식의 값과 실제값과의 차이를 말한다. 여기에서는 어떤 하나의 점과 회귀식과의 차이를 표현한 입실론(epsilon)이 바로 오차이다. 이에 비해서 잔차(resudial)라고

  • 추정량(estimator)

    표본을 통해서 통계량을 구하는 궁극적인 이유는 모수를 알기 위해서이다. 이때 통계량들을 이용하여 모수가 어떤 값일 것이라고 생각을 하게 되는데, 그 값을 추정값(estimate)이라고 한다. 표본평균도 모평균을 얻기위한 하나의 추정값이다. 이러한 추정값을 얻기 위해 사용하는 통계량을 추정량이라고 한다. 여기서 한가지 의문을 가지는 것은 그럼 통계량과 추정량은 같은 것이 아닌가 하는 의문이다. 결론부터 말하는 그렇지 않다. 우리가 모평균을 알기 위해 추정량을 구할

  • 통계량(statistic)

    모수가 모집단의 특성을 기술하는 수치인데 반하여 통계량은 표본의 특성을 기술하는 수치이다. 즉, 표본에서 계산되어진 값이다. 실제로 통계학을 하게 되면 모집단을 조사할 수 없기 때문에 표본을 추출해서 그 표본의 data 를 바탕으로 계산을 하게 된다. 이때 표본의 data 에서 구해진 평균, 표준편차 등이 바로 통계량으로서 일반적으로 말하는 값들이다. 이 값들은 정확히는 표본평균, 표본표준편차라고 부른다. 이 용어의 앞에 특별한 언급없이 평균, 표준편차라하면 표

  • 모수(Parameter)

    모집단의 특정한 값을 모수라 한다. 모수는 모딥단의 특성을 기술하는 수치이다. 모집단의 평균, 표준편차 등이 바로 모수로서 표시할 때는 모평균, 모표준편차로 사용한다. 기존 StatEdu 렉쳐 글을 통계컬럼으로 이전했습니다. 원문: http://www.statedu.com/lecture/262318

  • Fisher’s Z transformation (계산 프로그램 첨부)

    측정방법별 회귀방정식의 설명력(결정계수 R^2)간의 유의한 차이를 검정하기 위한 방법으로 Fisher’s Z 변환을 이용하여 두 회귀식의 multiple R 값을 비교한다. 예를 들어, 고객의 만족도를 조사하기 위하여 이용전의 기대수준과 이용후의 만족도를 측정한 연구를 생각해 볼 수 있다. 이 경우 독립변수는 이용전의 기대수준이고 종속변수는 이용후의 만족도이다. 이런 연구에서 분석은 회귀분석이라는 것을 하게 되는데, 문제는 기대수준과 만족도를 측정하는 방법이 여

  • 직교성(Orthogonality)

    1. 기하학적 의미로 직각으로 교차한다 2. 두 변수 또는 이들 변수의 두 선형결합이 통계학적으로 독립일 때 이들은 서로 직교한다고 한다. 3. 실험계획과 관련해서 어떤 관측도니 변량 또는 이들의 선형결합이 통계적으로 서로 독립일 때 이들은 서로 직교한다고 한다. (통계용어사전-한국통계학회) 위와 같이 정의를 한다. 결국 두변수가 서로 직교한다고 하는 것은 이 두변수는 서로 통계적으로 독립이라는 것이고, 독립의 성질에 의해 두 변수의 상관관계는 0 이 된다. 기

  • 표본오차(Sample Error), 허용오차

    조사 대상 전체를 조사하지 않고, 전체의 일부분만을 표본으로 추출하였기 때문에 생긱는 오차. 표본의 크기가 커짐에 따라 크기의 제곱근에 반비례하여 감소한다. 표본오차를 나타내는 양으로서 추정량의 변이계수(Coefficeinet of Variation : CV)를 사용한다. 이와 비슷하게 쓰이는 개념으로 허용오차라는 것이 있다. 일반적으로 TV 등의 매스컴에서 여론조사 등의 표본조사를 했을 경우에 발표되는 ± …% 표본오차라고 말하는 것이 바로 이것이다. 이것

  • 표준오차(Standard Error : SE)

    위의 그림에서 표본 평균들만으로 새로운 표본을 만들었을 경우 이 새로운 표본(표본평균의 분포)의 평균과 표준편차를 계산할 수 있다. 이때 계산된 표준편차를 표준오차(Standard Error)라고 하며, 표준오차는 추정량의 정도를 나타내는 측도로서 추정량에 관한 표본분포의 표준편차를 말한다. 표본오차의 공식은 다음과 같다. 회귀분석과 GLM에서 모형의 계수에 대한 표준오차 공식입니다. 위의 공식은 회귀분석에서 회귀계수에 대한 표준오차 공식이며, 아래의 식은 GL

  • 표준편차(Standard Deviation : SD)

    자료의 흩어진 정도를 나타내는 값. 다음과 같은 공식을 갖는다. 위의 공식에서 살펴보면 표준편차라는 것은 편차들의 평균이라는 것을 알수 있다. 그럼 편차란 무엇인가? 편차라는 것은 위의 식에서 보면 평균과 data 값과의 차이를 말한다. 그러므로 편차라는 것은 하나의 data가 평균에서 얼마나 떨어져 있는가를 말하는 것이다. 결국 표준편차라는 것은 모든 data 들이 전체적으로 평균에서 얼마만큼 떨어져 있는가를 나타내는 값이라는 것이다. 이 값이 작다는 것은 d