Zbiór danych
Z Wikipedii
Zbiór danych – kolekcja danych statystycznych zwykle ujętych w formie stabelaryzowanej.
Najczęściej kolumny odpowiadają obserwowanym cechom statystycznym a każdy wiersz opisuje jedną obserwację z próby. Wartości komórek macierzy opisują realizacje danych zmiennych w kolejnych obserwacjach.
Szczególnym przypadkiem jest też macierz kontyngencji (tablica wielodzielcza) w której wiersze odpowiadają etykietom jednej zmiennej nominalnej, kolumny etykietom drugiej zmiennej, a wartości macierzy odpowiadają liczności w próbie obserwacji o danych wartościach tych dwóch zmiennych.
Historycznie, termin powstał w świecie komputerów IBM mainframe, gdzie miał dobrze zdefiniowane znaczenie, bliskie współczesnym plikom. Dzisiaj w świecie komputerów najbliższym pojęciem jest tabela w bazie danych.
Kolumny reprezentujące zmienne na skali interwałowej lub przedziałowej zawierają liczby rzeczywiste. Kolumny opisujące zmienne na skali nominalnej i porządkowej mogą również być liczbami, ale także np. etykietami tekstowymi.
Ponadto w może w dowolnej komórce wystąpić brak danych, który musi być w jakiś sposób możliwy do odróżnienia. Niekiedy rezerwuje się dla niego specjalną wartość liczbową i znakową.
W statystyce zbiory danych zwykle stanowią wyniki obserwacji pewnej próby statystycznej. W statystyce teoretycznej niekiedy tworzy się zbiory danych sztucznie (np. w celu sprawdzenia jak dana metoda statystyczna reaguje na różne rozkłady w populacji). Istnieją też zaawansowane metody obliczania istotności statystycznej, które wymagają usuwania lub powielania obserwacji w zbiorze (np. bootstrap, walidacja krzyżowa).
Chociaż termin "zbiór danych" sugeruje związek ze zbiorami w sensie matematycznej teorii mnogości, jednak analogia ta nie sięga daleko. Elementy zbioru danych mogą się powtarzać, w przeciwieństwie do elementów matematycznych zbiorów.
Spis treści |
[edytuj] Klasyczne zbiory danych
Kilka zbiorów danych jest bardzo często używanych w literaturze:
- Iris flower data set (zbiór danych na temat irysów) – wielowymiarowy zbiór danych wprowadznony przez Rolanda Fishera (1936).[1]
- Zbiór danych wprowadzony w książce An Introduction to Categorical Data Analysis, autorstwa Agrestiego, dostępny on-line ze stron StatLib
- Zbiór danych używany w Robust Regression and Outlier Detection (Rousseeuw and Leroy, 1986). Dostępny on-line ze stron Uniwersytetu w Kolonii.
- Zbiór użyty w książce Chatfielda The Analysis of Time Series, dostępny on-line ze stron StatLib.
- Zbiór użyty w książce An Introduction to the Statistical Modeling of Extreme Values dostępny on-line ze stron Stuarta Coles, autora książki.
- Zbiór użyty w książce Bayesian Data Analysis, dostępny on-line ze stron Andrew Gelmana, jednego z autorów książki.
- Bupa liver data (dane na temat chorób nerek), używane w wielu artykułach na temat uczenia maszynowego i eksploracji danych.
Przypisy
- ↑ Fisher, R.A.: The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 1936, ss. tom 7, str 179–188. http://digital.library.adelaide.edu.au/coll/special//fisher/138.pdf
[edytuj] Zobacz też
[edytuj] Linki zewnętrzne
| AMD podzieli się na dwa oddziały |
|
AMD ma ogłosić podział na dwie oddzielne firmy: jedną, która projektować będzie procesory i drugą, zajmującą się samą produkcją.
|
| Sony VAIO, czyli wszystko w jednym |
|
Komputer typu all-in-one z serii VAIO JS1 wyposażono w 21,1-calowy panel LCD, dysk twardy o pojemności 500 GB, 3 GB pamięci RAM oraz procesor Intel Core 2 Duo.
|
| Notebook z tatuażem, czyli specjalna edycja HP Pavilion |
|
Na rynek trafiają dwa modele notebooków z serii Pavilion, wyposażone w procesory Core 2 Duo, 4 GB pamięci RAM oraz wymyślne wzorki na obudowach.
|
| Bojkot Naszej-Klasy |
|
Nasza-Klasa, serwis społecznościowy, który podbił serca polskich internatów, zniesmaczył swoich wiernych użytkowników nową usługą. Po ogłoszeniu, że rozszerzona funkcja "Goście" będzie realizowana jako płatna usługa, pojawiła się lawina protestów.
|
| Dobre strony - październik 2008 |
|
Strony WWW polecane przez redakcję Republiki WWW. Październik 2008.
|