Ranga (statystyka) - Google

Ranga (statystyka)

Z Wikipedii

(Przekierowano z Rangowanie)
Skocz do: nawigacji, szukaj

Ranga – w najprostszej wersji numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.

Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.

Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Spis treści

[edytuj] Rangi wiÄ…zane

W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.

Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.

  • przez przypisanie im najwiÄ™kszego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia Å›redniÄ… wyniku),
  • przez przypisanie numerów kolejnych bez zważania na rangi wiÄ…zane (wówczas wyniki rangowania zależą nie tylko od wartoÅ›ci rangowanej zmiennej, ale i od kolejnoÅ›ci obserwacji w tabeli).

[edytuj] Przykład

W pięcioelementowej próbie[1] znajdują się następujące obserwacje zmiennej x:

x_1=0,96;\ x_2=2,43;\ x_3=0,96;\ x_4=0,2;\ x_5=3,5\;

Po posortowaniu według wartości x, uzyskujemy kolejność:

x_4=0,2;\ x_1=0,96;\ x_3=0,96;\ x_2=2,43;\ x_5=3\;

Jak widać obserwacje x1 i x3 mają tę samą wartość zmiennej x. Rangi zmiennej x:

r_4=1;\ r_1=2,5;\ r_3=2,5;\ r_2=4;\ r_5=5\;

Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:

r_1=2,5;\ r_2=4;\ r_3=2,5;\ r_4=1;\ r_5=5\;

[edytuj] Rozkład rang

Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:

\overline{r}=\frac{n+1}{2}

Wariancja rang wynosi:

\operatorname{var}\ \operatorname{r}=\frac{n(n+1)}{12}-\frac{T^\prime}{n-1}

gdzie:

T^\prime=\frac{1}{12}\sum_j (t_j^3-t_j)
t_j\; jest liczbą obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej X a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych t_j^3-t_j=1^3-1=0.

Gdy nie ma rang wiązanych, T^\prime jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangowe są odporne na obserwacje odstające.

[edytuj] Rangi regularne, ułamkowe i procentowe

Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach.

Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).

[edytuj] Przekształcanie rang

Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.

Dla rozkładu normalnego stosowane są wzory:

  • Bloma[2] (najdokÅ‚adniejsze z wymienionych):
y_i=\Phi^{-1}\left( \frac{r_i-\tfrac{3}{8}}{n+\tfrac{1}{4}}\right)
y_i=\Phi^{-1}\left( \frac{r_i-\tfrac{1}{3}}{n+\tfrac{1}{3}}\right)
  • Van der Waerdena (używane do nieparametrycznych testów poÅ‚ożenia):
y_i=\Phi^{-1}\left( \frac{r_i}{n+1}\right)

gdzie:

W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.

Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych, itp.).

Aby otrzymać rozkład wykładniczy stosuje się wzór Savage'a:

y_i=\sum\limits_{j=1}{r_i}\frac{1}{n-j+1}-1

Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[4].

Dla testów skali stosowane są też inne przekształcenia rang:

  • Klotza:
y_i=\left( \Phi^{-1}\left( \frac{r_i}{n+1}\right) \right) ^2
  • Siegela-Tukeya, obliczane wedÅ‚ug schematu:
yi = 1 dla ri = 1
yi = 2 dla ri = n
yi = 3 dla ri = n − 1
yi = 4 dla ri = 2
yi = 5 dla ri = 3
yi = 6 dla ri = n − 2
yi = 7 dla ri = n − 3
yi = 8 dla ri = 4
itd.
  • Ansari-Bradleya:
y_i=\frac{n+1}{2}-\left| r_i-\frac{n+1}{2}\right|
  • Mooda:
y_i=\left( r_i-\frac{n+1}{2}\right) ^2

[edytuj] Przypisy

  1. ↑ Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
  2. ↑ G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958. 
  3. ↑ Tukey, John W.. The Future of Data Analysis. Annals of Mathematical Statistics. 1962.
  4. ↑ J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83. 

[edytuj] Źródła

  • Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948. 
  • Pomoc do programu SAS

[edytuj] Zobacz też


Paypal przejmie pełną odpowiedzialność za transakcje
Klienci portalu aukcyjnego eBay, którzy padli ofiara oszustów, mogą spodziewać się całkowitego zwrotu kosztów, wliczając koszty przesyłki.
11 poprawek od Microsoft (uwaga na fałszywe aktualizacje!)
W najbliższy wtorek Microsoft udostępni 11 poprawek, z których cztery eliminują luki ocenione jako "krytyczne". Mogą one zostać wykorzystane do zdalnego wykonania szkodliwego kodu. Dziury te występują w Windows, Internet Explorer, Host Integration Server i Excelu.
40 proc. fałszywych kont na Facebook
Spamerzy i autorzy szkodliwego oprogramowania w pełni wykorzystują możliwości, jakie oferują portale społecznościowe.
Jest pierwsza wersja OpenOffice.org 3.0
Darmowy pakiet biurowy OpenOffice jest już dostępny w wersji 3.0.
Przesłuchaj zanim opublikujesz!
Głosowe odczytywanie komentarzy na YouTube – nowa usługa najpopularniejszego serwisu wideo.
Linki: Strona g³ówna