Przeskocz do treści

Delta mi!

Loading

O rybach i ufności

Wojciech Niemiro

o artykule ...

  • Publikacja w Delcie: sierpień 2017
  • Publikacja elektroniczna: 30 lipca 2017
  • Autor: Wojciech Niemiro
    Afiliacja: Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika, Toruń; Instytut Matematyki Stosowanej i Mechaniki, Uniwersytet Warszawski
  • Wersja do druku [application/pdf]: (133 KB)

W poprzednim numerze Delty przedstawiliśmy zgrabną metodę szacowania liczby ryb pływających w stawie. Przypomnijmy doświadczenie, na którym ta metoda się opierała: najpierw łowimy rybkę, potem rysujemy jej kreskę na ogonku, następnie na kartce zapisujemy liczbę kresek, jakie widzimy na ogonku trzymanej w ręce rybki, po czym wrzucamy ją z powrotem do stawu i całą procedurę powtarzamy n razy.

obrazek

Niech |r będzie (nieznaną) liczbą ryb pływających w jeziorze. Poprzednio wykazaliśmy, że prawdopodobieństwo uzyskania na kartce konkretnego ciągu |x wynosi  r g(x) -rnm, gdzie |m jest liczbą jedynek w tym ciągu (tzn. liczbą różnych, złowionych przez nas ryb), zaś |g(x) jest czynnikiem niezależnym od r. Wynika stąd, że m jest statystyką dostateczną i zawiera całą dostępną nam informację o r. Niech Pr(m) oznacza prawdopodobieństwo wyłowienia dokładnie m różnych ryb. Nietrudno przekonać się, że |Pr(m) = r- mn {n }, r m gdzie {n } m jest liczbą podziałów zbioru n -elementowego na | m rozłącznych podzbiorów (na tyle sposobów możemy złowić |m różnych ryb przy n połowach). Wybierzmy teraz "małą" liczbę α > 0 (na przykład |α = 0,1 ) i zdefiniujmy przedział [m1(r),m2(r)] w następujący sposób:

pict
obrazek

Konstrukcja przedziału ufności dla |m i n 25, na poziomie 90%. Pionowe linie są przedziałami o prawdopodobieństwie (co najmniej) 90%. Przedział dla |r 21 został wyróżniony tylko dla ułatwienia objaśnień. Poziomy odcinek jest przedziałem ufności.

Konstrukcja przedziału ufności dla |m i n 25, na poziomie 90%. Pionowe linie są przedziałami o prawdopodobieństwie (co najmniej) 90%. Przedział dla |r 21 został wyróżniony tylko dla ułatwienia objaśnień. Poziomy odcinek jest przedziałem ufności.

Wynika stąd, że

 m2 Pr(m1(r)⩽ m⩽ m2(r)) = Q Pr(m)⩾ 1− α . m (1)

Nierówność (1) mówi o tym, że z "dużym prawdopodobieństwem" |1− α losowa wielkość m należy do przedziału [m1(r),m2(r)], który zależy od nieznanego |r. Na rysunku pionowe odcinki przedstawiają przedziały obliczone dla α = 0,1 i różnych wartości r (od 1 do 50). Przykładowo, dla |r = 21 mamy m(r) = 11,m(r) = 17 1 2 i |P(11 ⩽m⩽ 17) = 0,9600163. r

Przedstawione zależności wynikają z patrzenia na nasz rysunek pionowo, czyli dla różnych, ale ustalonych wartości r. To jest punkt widzenia probabilisty. Punkt widzenia statystyka jest poziomy. Rozpatrujemy ustaloną (bo zaobserwowaną) wartość m. Zdefiniujmy dwie zależne od m liczby "na osi poziomej":

pict

Na przykład, dla |m= 15 mamy r1(m) = 16 i r2(m) = 44. Przedział |[16,44] na "wysokości" |m= 15 jest na rysunku wyróżniony.

Doszliśmy teraz do najważniejszego miejsca naszych rozważań. Chwila zastanowienia prowadzi do wniosku, że następujące dwa warunki są równoważne:

r1(m)⩽ r⩽ r2(m) oraz m1(r)⩽ m⩽ m2(r).

W istocie, wynika to z definicji |ri(m) i z faktu, że obie funkcje mi(r) są niemalejące, co nietrudno sprawdzić. Wynika stąd zatem, że dla każdego |r

Pr(r1(m)⩽ r⩽ r2(m))⩾ 1− α . (2)

Nierówność (2) mówi o tym, że dla dowolnego r, przedział |[r1(m),r2(m)] zawiera nieznaną liczbę |r z dużym prawdopodobieństwem. Ten przedział możemy obliczyć, bo znamy m. Wspaniale! Wróćmy do naszych przykładowych danych, które pojawiły się na początku artykułu. Dla |m= 15 (i ustalonego n = 25 ), przypomnijmy, |[r (m),r (m)] = [16,44]. 1 2 A więc wydaje się, że następujące stwierdzenie jest zgodne z tym, co było powiedziane.

): Przedział [16,44] zawiera nieznaną liczbę r z prawdopodobieństwem co najmniej 0,90.

Ale, ale, chyba się zagalopowaliśmy. Jeśli liczba r nie jest zmienną losową, to powyższe zdanie jest bezsensowne. Przedział [16,44] albo zawiera r, albo nie. Jak się jezioro osuszy, to się wyjaśni. Bez osuszania jeziora musimy nasz wniosek sformułować inaczej.

(: Przedział [16,44] jest przedziałem ufności dla nieznanej liczby r na poziomie ufności 0,90.

Jeśli o prawdopodobieństwie nie możemy mówić, to zastępujemy termin "prawdopodobieństwo" terminem "ufność". Matematyczną definicją przedziału ufności jest nierówność (2). Kłopot w tym, że prawdopodobieństwo we wzorze (2) opisuje niepewność wyniku doświadczenia, w tym przypadku wyłowienia m różnych ryb, przed wykonaniem doświadczenia (przed połowem). Jak więc interpretować przedział [16,44] obliczony po wyłowieniu m= 15 ryb?

  • Przedział ufności na poziomie 1− α jest to przedział obliczony na podstawie wyniku doświadczenia losowego w taki sposób, że jeśliby powtarzać doświadczenie wielokrotnie, to dla przynajmniej (1− α )⋅100% doświadczeń, przedział obliczony tą samą metodą zawierałby nieznany parametr.

Zwróćmy uwagę, jaką rolę w interpretacji przedziału ufności odgrywają zdania warunkowe i tryb przypuszczający. Jest to charakterystyczny dla Statystyka sposób myślenia - po wykonaniu doświadczenia losowego zastanawia się on: "z jakim prawdopodobieństwem to czy tamto by się mogło zdarzyć, gdyby nie to, że już się zdarzyło".