Probit: Narzędzie Analizy Probabilistycznej

17/11/2021

★★★★★Rating: 3.96 (2555 votes)

W świecie analizy statystycznej, zwłaszcza w kontekście modelowania danych binarnych i badania odchyleń od rozkładu normalnego, funkcja probit odgrywa kluczową rolę. Jest to funkcja odwrotna do dystrybuanty standardowego rozkładu normalnego. Zrozumienie, czym jest probit, do czego służy i jak się go stosuje, jest niezwykle ważne dla badaczy i praktyków z różnych dziedzin.

Spis treści

Początki i rozwój koncepcji probitu
Zastosowanie probitu w toksykologii
Probit w diagnozowaniu odchyleń od normalności: Wykresy Q-Q
Obliczenia funkcji probit
Równanie różniczkowe zwyczajne dla funkcji probit
Probit a Logit
Podsumowanie

Początki i rozwój koncepcji probitu

Idea funkcji probit została po raz pierwszy przedstawiona przez Chestera Ittnera Blissa w artykule naukowym z 1934 roku. Bliss, badając skuteczność pestycydów, stanął przed problemem analizy danych wyrażonych jako procentowa śmiertelność szkodników. Zaproponował on przekształcenie procentu śmiertelności w "jednostkę prawdopodobieństwa" – probit. Definicja Blissa była arbitralna (przyjmując wartość 0 dla 0.0001 i 1 dla 0.9999), ale kluczowe było liniowe powiązanie z dzisiejszą, bardziej precyzyjną definicją. Bliss opracował tabelę konwersji procentów śmiertelności na probity, co umożliwiało badaczom graficzne przedstawienie danych w funkcji logarytmu dawki, dążąc do uzyskania linii prostej. Ten model probitowy, mimo upływu lat, nadal ma istotne znaczenie w toksykologii i innych dziedzinach pokrewnych.

Kiedy powinienem stosować Probit? — Modele regresji probitowej, których nazwa nawiązuje do kontrakcji jednostki prawdopodobieństwa, można stosować jako alternatywę dla binarnych modeli regresji logistycznej w przypadkach, gdy krzywa prawdopodobieństwa dla określonych prawdopodobieństw zdarzeń dostosowuje się bardziej adekwatnie do skumulowanej funkcji gęstości standardowej ...

Podejście Blissa zostało rozwinięte i usystematyzowane w klasycznym tekście "Probit Analysis" D.J. Finneya, który koncentrował się na zastosowaniach toksykologicznych. Wartości tabelowane przez Finneya różniły się od współczesnej definicji probitu o dodaną wartość 5. Jak wyjaśnia Collett, pierwotna definicja z dodatkiem 5 miała na celu uniknięcie pracy z ujemnymi wartościami probitu, co było istotne w czasach obliczeń manualnych i tabelarycznych. Współcześnie, w większości pakietów statystycznych, probit definiowany jest bez dodawania wartości 5, co upraszcza obliczenia i analizę, szczególnie w środowisku komputerowym.

Zastosowanie probitu w toksykologii

Model probitowy pozostaje niezwykle ważny w toksykologii. Jego zastosowanie jest szczególnie uzasadnione, gdy zmienność reakcji można racjonalizować jako logarytmicznie normalny rozkład tolerancji wśród badanych osobników. Tolerancja w tym kontekście oznacza dawkę substancji wystarczającą do wywołania określonej reakcji. Analiza probitowa pozwala na modelowanie zależności dawka-reakcja, co jest kluczowe przy określaniu bezpiecznych poziomów ekspozycji na substancje toksyczne. Na przykład, w badaniach pestycydów, model probitowy pomaga oszacować dawkę, która spowoduje śmiertelność określonego procentu populacji szkodników. Jest to istotne przy ustalaniu skutecznych i jednocześnie bezpiecznych strategii zwalczania szkodników.

Probit w diagnozowaniu odchyleń od normalności: Wykresy Q-Q

Oprócz zastosowań w modelach regresji, funkcja probit jest użyteczna w analizie statystycznej do diagnozowania odchyleń rozkładu od normalności, szczególnie w kontekście wykresów kwantylowo-kwantylowych (Q-Q). Wykres Q-Q porównuje kwantyle rozkładu empirycznego danych z kwantylami rozkładu teoretycznego, w tym przypadku rozkładu normalnego. Jeśli dane pochodzą z rozkładu normalnego, punkty na wykresie Q-Q probit powinny układać się w przybliżeniu wzdłuż linii prostej.

Odchylenia od liniowości na wykresie Q-Q probit wskazują na specyficzne odchylenia od normalności. Na przykład:

Asymetria: Zakrzywienie wykresu w jedną stronę może sugerować asymetrię rozkładu.
Grube ogony: Odstępstwa od linii prostej na końcach wykresu mogą wskazywać na grubsze lub cieńsze ogony rozkładu w porównaniu do rozkładu normalnego.
Dwumodalność: Charakterystyczny kształt "S" na wykresie może sugerować, że dane pochodzą z rozkładu dwumodalnego, a nie normalnego.

Chociaż wykresy Q-Q mogą być używane do porównywania danych z dowolną rodziną rozkładów, wykres Q-Q normalny jest standardową procedurą eksploracyjnej analizy danych, ponieważ założenie normalności jest często punktem wyjścia dla dalszych analiz statystycznych. Probit ułatwia interpretację wykresów Q-Q dla rozkładu normalnego.

Obliczenia funkcji probit

Dystrybuanta rozkładu normalnego i jej funkcja odwrotna (probit) nie mają postaci analitycznej i wymagają starannego stosowania procedur numerycznych. Jednak funkcja probit jest szeroko dostępna w oprogramowaniu statystycznym, arkuszach kalkulacyjnych i środowiskach programistycznych.

Przykładowo, w Microsoft Excel funkcja probit jest dostępna jako `NORM.S.INV(p)`. W środowiskach obliczeniowych, gdzie dostępne są numeryczne implementacje odwrotnej funkcji błędu (erfinv), funkcję probit można obliczyć za pomocą wzoru:

probit(p) = √2 * erfinv(2p - 1)

Przykładem jest MATLAB, gdzie dostępna jest funkcja `erfinv`. Język Mathematica implementuje funkcję `InverseErf`. Inne środowiska, takie jak język R, bezpośrednio implementują funkcję probit, jak pokazano w poniższej sesji:

> qnorm(0.025) [1] -1.959964 > pnorm(-1.96) [1] 0.02499790

Szczegóły dotyczące obliczania odwrotnej funkcji błędu można znaleźć w literaturze specjalistycznej. Wichura opracował szybki algorytm obliczania funkcji probit z dokładnością do 16 miejsc dziesiętnych, który jest stosowany w R do generowania zmiennych losowych o rozkładzie normalnym.

Równanie różniczkowe zwyczajne dla funkcji probit

Inną metodą obliczania funkcji probit jest wykorzystanie nieliniowego równania różniczkowego zwyczajnego (ODE) zgodnie z metodą Steinbrechera i Shaw. Oznaczając funkcję probit jako w(p), równanie ODE ma postać:

dw/dp = 1/f(w)

gdzie f(w) jest funkcją gęstości prawdopodobieństwa rozkładu normalnego. W przypadku rozkładu Gaussa:

dw/dp = √(2π) * e^(w²/2)

Ponownie różniczkując:

d²w/dp² = w * (dw/dp)²

z warunkami początkowymi:

w(1/2) = 0, w'(1/2) = √(2π)

To równanie można rozwiązać różnymi metodami, w tym klasyczną metodą szeregów potęgowych. Na tej podstawie można opracować rozwiązania o dowolnie wysokiej dokładności w oparciu o podejście Steinbrechera do szeregu dla odwrotnej funkcji błędu. Rozwiązanie szeregowe ma postać:

w(p) = √(π/2) * Σ_k=0^∞ [d_k / (2k+1)] * (2p-1)^(2k+1)

gdzie współczynniki d_k spełniają nieliniową relację rekurencyjną:

d_k+1 = (π/4) * Σ_j=0^k [d_j * d_k-j / ((j+1) * (2j+1))]

z d₀ = 1. W tej postaci stosunek d_k+1/d_k → 1 gdy k → ∞.

Probit a Logit

W modelowaniu danych binarnych, często obok probitu, stosuje się również funkcję logit. Zarówno probit, jak i logit służą do modelowania prawdopodobieństwa wystąpienia zdarzenia w zależności od zmiennych objaśniających. Kluczową różnicą jest funkcja łącząca używana w każdym z modeli. Model probitowy wykorzystuje dystrybuantę rozkładu normalnego, podczas gdy model logitowy wykorzystuje funkcję logistyczną. W praktyce, dla większości zastosowań, modele probitowe i logitowe dają bardzo zbliżone wyniki, zwłaszcza w środkowej części zakresu prawdopodobieństw (blisko 0.5). Różnice stają się bardziej widoczne w ekstremalnych wartościach prawdopodobieństw (blisko 0 lub 1). Wybór między probitem a logitem często zależy od preferencji badacza, tradycji w danej dziedzinie lub wygody obliczeniowej.

Podsumowanie

Funkcja probit jest wszechstronnym i potężnym narzędziem w arsenale statystyka. Jej zastosowania wykraczają daleko poza toksykologię, obejmując ekonometrię, biometrię, psychometrię i wiele innych dziedzin. Od analizy danych binarnych i modelowania zależności dawka-reakcja, po diagnozowanie odchyleń od normalności i obliczenia numeryczne, probit pozostaje kluczowym elementem nowoczesnej analizy statystycznej. Zrozumienie jego zasad i zastosowań jest niezbędne dla każdego, kto zajmuje się analizą danych i modelowaniem zjawisk probabilistycznych.

Jeśli chcesz poznać inne artykuły podobne do Probit: Narzędzie Analizy Probabilistycznej, możesz odwiedzić kategorię Rachunkowość.