17/11/2021
W świecie analizy statystycznej, zwłaszcza w kontekście modelowania danych binarnych i badania odchyleń od rozkładu normalnego, funkcja probit odgrywa kluczową rolę. Jest to funkcja odwrotna do dystrybuanty standardowego rozkładu normalnego. Zrozumienie, czym jest probit, do czego służy i jak się go stosuje, jest niezwykle ważne dla badaczy i praktyków z różnych dziedzin.

Początki i rozwój koncepcji probitu
Idea funkcji probit została po raz pierwszy przedstawiona przez Chestera Ittnera Blissa w artykule naukowym z 1934 roku. Bliss, badając skuteczność pestycydów, stanął przed problemem analizy danych wyrażonych jako procentowa śmiertelność szkodników. Zaproponował on przekształcenie procentu śmiertelności w "jednostkę prawdopodobieństwa" – probit. Definicja Blissa była arbitralna (przyjmując wartość 0 dla 0.0001 i 1 dla 0.9999), ale kluczowe było liniowe powiązanie z dzisiejszą, bardziej precyzyjną definicją. Bliss opracował tabelę konwersji procentów śmiertelności na probity, co umożliwiało badaczom graficzne przedstawienie danych w funkcji logarytmu dawki, dążąc do uzyskania linii prostej. Ten model probitowy, mimo upływu lat, nadal ma istotne znaczenie w toksykologii i innych dziedzinach pokrewnych.

Podejście Blissa zostało rozwinięte i usystematyzowane w klasycznym tekście "Probit Analysis" D.J. Finneya, który koncentrował się na zastosowaniach toksykologicznych. Wartości tabelowane przez Finneya różniły się od współczesnej definicji probitu o dodaną wartość 5. Jak wyjaśnia Collett, pierwotna definicja z dodatkiem 5 miała na celu uniknięcie pracy z ujemnymi wartościami probitu, co było istotne w czasach obliczeń manualnych i tabelarycznych. Współcześnie, w większości pakietów statystycznych, probit definiowany jest bez dodawania wartości 5, co upraszcza obliczenia i analizę, szczególnie w środowisku komputerowym.
Zastosowanie probitu w toksykologii
Model probitowy pozostaje niezwykle ważny w toksykologii. Jego zastosowanie jest szczególnie uzasadnione, gdy zmienność reakcji można racjonalizować jako logarytmicznie normalny rozkład tolerancji wśród badanych osobników. Tolerancja w tym kontekście oznacza dawkę substancji wystarczającą do wywołania określonej reakcji. Analiza probitowa pozwala na modelowanie zależności dawka-reakcja, co jest kluczowe przy określaniu bezpiecznych poziomów ekspozycji na substancje toksyczne. Na przykład, w badaniach pestycydów, model probitowy pomaga oszacować dawkę, która spowoduje śmiertelność określonego procentu populacji szkodników. Jest to istotne przy ustalaniu skutecznych i jednocześnie bezpiecznych strategii zwalczania szkodników.
Probit w diagnozowaniu odchyleń od normalności: Wykresy Q-Q
Oprócz zastosowań w modelach regresji, funkcja probit jest użyteczna w analizie statystycznej do diagnozowania odchyleń rozkładu od normalności, szczególnie w kontekście wykresów kwantylowo-kwantylowych (Q-Q). Wykres Q-Q porównuje kwantyle rozkładu empirycznego danych z kwantylami rozkładu teoretycznego, w tym przypadku rozkładu normalnego. Jeśli dane pochodzą z rozkładu normalnego, punkty na wykresie Q-Q probit powinny układać się w przybliżeniu wzdłuż linii prostej.
Odchylenia od liniowości na wykresie Q-Q probit wskazują na specyficzne odchylenia od normalności. Na przykład:
- Asymetria: Zakrzywienie wykresu w jedną stronę może sugerować asymetrię rozkładu.
- Grube ogony: Odstępstwa od linii prostej na końcach wykresu mogą wskazywać na grubsze lub cieńsze ogony rozkładu w porównaniu do rozkładu normalnego.
- Dwumodalność: Charakterystyczny kształt "S" na wykresie może sugerować, że dane pochodzą z rozkładu dwumodalnego, a nie normalnego.
Chociaż wykresy Q-Q mogą być używane do porównywania danych z dowolną rodziną rozkładów, wykres Q-Q normalny jest standardową procedurą eksploracyjnej analizy danych, ponieważ założenie normalności jest często punktem wyjścia dla dalszych analiz statystycznych. Probit ułatwia interpretację wykresów Q-Q dla rozkładu normalnego.
Obliczenia funkcji probit
Dystrybuanta rozkładu normalnego i jej funkcja odwrotna (probit) nie mają postaci analitycznej i wymagają starannego stosowania procedur numerycznych. Jednak funkcja probit jest szeroko dostępna w oprogramowaniu statystycznym, arkuszach kalkulacyjnych i środowiskach programistycznych.
Przykładowo, w Microsoft Excel funkcja probit jest dostępna jako `NORM.S.INV(p)`. W środowiskach obliczeniowych, gdzie dostępne są numeryczne implementacje odwrotnej funkcji błędu (erfinv), funkcję probit można obliczyć za pomocą wzoru:
probit(p) = √2 * erfinv(2p - 1)
Przykładem jest MATLAB, gdzie dostępna jest funkcja `erfinv`. Język Mathematica implementuje funkcję `InverseErf`. Inne środowiska, takie jak język R, bezpośrednio implementują funkcję probit, jak pokazano w poniższej sesji:
> qnorm(0.025) [1] -1.959964 > pnorm(-1.96) [1] 0.02499790 Szczegóły dotyczące obliczania odwrotnej funkcji błędu można znaleźć w literaturze specjalistycznej. Wichura opracował szybki algorytm obliczania funkcji probit z dokładnością do 16 miejsc dziesiętnych, który jest stosowany w R do generowania zmiennych losowych o rozkładzie normalnym.
Równanie różniczkowe zwyczajne dla funkcji probit
Inną metodą obliczania funkcji probit jest wykorzystanie nieliniowego równania różniczkowego zwyczajnego (ODE) zgodnie z metodą Steinbrechera i Shaw. Oznaczając funkcję probit jako w(p), równanie ODE ma postać:
dw/dp = 1/f(w)
gdzie f(w) jest funkcją gęstości prawdopodobieństwa rozkładu normalnego. W przypadku rozkładu Gaussa:
dw/dp = √(2π) * e(w2/2)
Ponownie różniczkując:
d2w/dp2 = w * (dw/dp)2
z warunkami początkowymi:
w(1/2) = 0, w'(1/2) = √(2π)
To równanie można rozwiązać różnymi metodami, w tym klasyczną metodą szeregów potęgowych. Na tej podstawie można opracować rozwiązania o dowolnie wysokiej dokładności w oparciu o podejście Steinbrechera do szeregu dla odwrotnej funkcji błędu. Rozwiązanie szeregowe ma postać:
w(p) = √(π/2) * Σk=0∞ [dk / (2k+1)] * (2p-1)(2k+1)
gdzie współczynniki dk spełniają nieliniową relację rekurencyjną:
dk+1 = (π/4) * Σj=0k [dj * dk-j / ((j+1) * (2j+1))]
z d0 = 1. W tej postaci stosunek dk+1/dk → 1 gdy k → ∞.
Probit a Logit
W modelowaniu danych binarnych, często obok probitu, stosuje się również funkcję logit. Zarówno probit, jak i logit służą do modelowania prawdopodobieństwa wystąpienia zdarzenia w zależności od zmiennych objaśniających. Kluczową różnicą jest funkcja łącząca używana w każdym z modeli. Model probitowy wykorzystuje dystrybuantę rozkładu normalnego, podczas gdy model logitowy wykorzystuje funkcję logistyczną. W praktyce, dla większości zastosowań, modele probitowe i logitowe dają bardzo zbliżone wyniki, zwłaszcza w środkowej części zakresu prawdopodobieństw (blisko 0.5). Różnice stają się bardziej widoczne w ekstremalnych wartościach prawdopodobieństw (blisko 0 lub 1). Wybór między probitem a logitem często zależy od preferencji badacza, tradycji w danej dziedzinie lub wygody obliczeniowej.
Podsumowanie
Funkcja probit jest wszechstronnym i potężnym narzędziem w arsenale statystyka. Jej zastosowania wykraczają daleko poza toksykologię, obejmując ekonometrię, biometrię, psychometrię i wiele innych dziedzin. Od analizy danych binarnych i modelowania zależności dawka-reakcja, po diagnozowanie odchyleń od normalności i obliczenia numeryczne, probit pozostaje kluczowym elementem nowoczesnej analizy statystycznej. Zrozumienie jego zasad i zastosowań jest niezbędne dla każdego, kto zajmuje się analizą danych i modelowaniem zjawisk probabilistycznych.
Jeśli chcesz poznać inne artykuły podobne do Probit: Narzędzie Analizy Probabilistycznej, możesz odwiedzić kategorię Rachunkowość.
