Przedział ufności - Co to jest? Po co to wyliczamy?


Pewien problem...

Wyobraźmy sobie, że dostaliśmy za zadanie oszacować średnie zarobki absolwentów naszej Alma Mater. Jak się za to zabrać? Oczywiście, trzeba dotrzeć do pewnej liczby absolwentów, zapytać ich o pensję i wyliczyć średnią. Z pozoru nic trudnego, ale wynik jaki otrzymamy będzie zależał od tego do ilu i jakich osób dotrzemy. Jeśli nie mamy możliwości objąć naszym badaniem wszystkich absolwentów, nie dostaniemy dokładnej wartości średnich zarobków. Co więcej, w okresie od rozesłania zapytań do policzenia i opublikowania średniej, nasza uczelnia może "wyprodukować" nowych absolwentów, a część "starych" może dostać podwyżki lub stracić pracę.

Wartość w próbie i wartość w populacji

Zbiór osób, które objęliśmy naszym badaniem, nazywamy "próbą" lub "próbką". Ich średnie zarobki to więc "średnia w próbie". Z kolei zbiór wszystkich absolwentów uczelni nazywamy "populacją". Ich średnie zarobki to więc "średnia w populacji".

W ogólnym przypadku, nie musimy wcale mówić o średniej. Możemy mieć dowolny współczynnik "w próbce" i "w populacji": może to być jakiś odsetek, mediana, współczynnik korelacji, parametr regresji liniowej czy nawet jeszcze bardziej skomplikowane twory. Zawsze jednak wartość w próbce będzie:

Z kolei wartość w populacji zawsze będzie:

Przedział ufności

Zadanie polega więc na tym, aby na podstawie wartości w próbce powiedzieć coś na temat wartości w populacji. Wartość w populacji jest niemożliwa do wyliczenia, nie możemy więc powiedzieć, że ze 100-procentową pewnością wynosi ona tyle a tyle. Możemy jednak spróbować powiedzieć, że z pewnym prawdopodobieństwem (oznaczmy je "alfa" - α) wartość w populacji leży w przedziale od A do B. Taki przedział nazywamy właśnie α-procentowym przedziałem ufności (ang. confidence interval - CI). Zwykle wylicza się przedziały 95-procentowe.

Najczęściej popełniane błędy

Może to być zaskakujące, ale błędne interpretacje przedziału ufności zdarzają się bardzo często, nawet w renomowanych czasopismach naukowych. Przypomnijmy więc: 95-procentowy przedział ufności z prawdopodobieństwem 95% zawiera wartość naszego parametru w całej populacji.

Powiedzmy, że w naszym badaniu uzyskaliśmy średnią pensję absolwenta na poziomie 3000 zł z 95-procentowym przedziałem ufności 1800-4200 zł. Oznacza to, że w naszej próbce absolwentów średnie zarobki wyniosły 3000 zł, zaś średnie zarobki w całej populacji absolwentów są nieznane, ale z prawdopodobieństwem 95% leżą w przedziale 1800-4200 zł.

Poniższe interpretacje będą więc nieprawidłowe:

Dlaczego powyższe interpretacje są nieprawidłowe? W pierwszych trzech wnioski dotyczą zarobków pojedynczej osoby (pojedynczego członka populacji), w kolejnych trzech wnioski dotyczą średnich zarobków różnych grupek ludzi (próbek z populacji). Przedział ufności zaś mówi jedynie o średniej wartości naszego parametru (zarobków) w całej populacji.

Kontakt

Łukasz Deryło
Telefon: 665 254 036
E-mail: lukasz.derylo@gmail.com

Referencje

referencje analizy statystyczne

Opinie klientów i współpracowników o wykonanych przeze mnie analizach.

Copyright © 2014 Łukasz Deryło - Green Age by Templates