Ranga (statystyka)
Z Wikipedii
Ranga – w najprostszej wersji numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.
Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.
Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.
Spis treści |
[edytuj] Rangi wiÄ…zane
W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.
Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.
- przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
- przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).
[edytuj] Przykład
W pięcioelementowej próbie[1] znajdują się następujące obserwacje zmiennej x:
Po posortowaniu według wartości x, uzyskujemy kolejność:
Jak widać obserwacje x1 i x3 mają tę samą wartość zmiennej x. Rangi zmiennej x:
Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:
[edytuj] Rozkład rang
Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:
Wariancja rang wynosi:
gdzie:

jest liczbą obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej X a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych
.
Gdy nie ma rang wiÄ…zanych,
jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangowe są odporne na obserwacje odstające.
[edytuj] Rangi regularne, ułamkowe i procentowe
Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe czyli rangi ułamkowe wyrażone w procentach.
Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.
Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).
[edytuj] Przekształcanie rang
Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.
Dla rozkładu normalnego stosowane są wzory:
- Bloma[2] (najdokładniejsze z wymienionych):
- Tukeya[3]:
- Van der Waerdena (używane do nieparametrycznych testów położenia):
gdzie:
to odwrotna dystrybuanta rozkładu normalnego.
to ranga i-tej obserwacji
to liczba niepustych obserwacji w danej zmiennej
W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.
Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych, itp.).
Aby otrzymać rozkład wykładniczy stosuje się wzór Savage'a:
Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych[4].
Dla testów skali stosowane są też inne przekształcenia rang:
- Klotza:
- Siegela-Tukeya, obliczane według schematu:
- yi = 1 dla ri = 1
- yi = 2 dla ri = n
- yi = 3 dla ri = n − 1
- yi = 4 dla ri = 2
- yi = 5 dla ri = 3
- yi = 6 dla ri = n − 2
- yi = 7 dla ri = n − 3
- yi = 8 dla ri = 4
- itd.
- Ansari-Bradleya:
- Mooda:
[edytuj] Przypisy
- ↑ Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.
- ↑ G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.
- ↑ Tukey, John W.. The Future of Data Analysis. Annals of Mathematical Statistics. 1962.
- ↑ J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.
[edytuj] Źródła
- Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
- Pomoc do programu SAS
[edytuj] Zobacz też
| Paypal przejmie pełną odpowiedzialność za transakcje |
|
Klienci portalu aukcyjnego eBay, którzy padli ofiara oszustów, mogą spodziewać się całkowitego zwrotu kosztów, wliczając koszty przesyłki.
|
| 11 poprawek od Microsoft (uwaga na fałszywe aktualizacje!) |
|
W najbliższy wtorek Microsoft udostępni 11 poprawek, z których cztery eliminują luki ocenione jako "krytyczne". Mogą one zostać wykorzystane do zdalnego wykonania szkodliwego kodu. Dziury te występują w Windows, Internet Explorer, Host Integration Server i Excelu.
|
| 40 proc. fałszywych kont na Facebook |
|
Spamerzy i autorzy szkodliwego oprogramowania w pełni wykorzystują możliwości, jakie oferują portale społecznościowe.
|
| Jest pierwsza wersja OpenOffice.org 3.0 |
|
Darmowy pakiet biurowy OpenOffice jest już dostępny w wersji 3.0.
|
| Przesłuchaj zanim opublikujesz! |
|
Głosowe odczytywanie komentarzy na YouTube – nowa usługa najpopularniejszego serwisu wideo.
|












