Strumieniowa baza danych - Google

Strumieniowa baza danych

Z Wikipedii

Skocz do: nawigacji, szukaj

Strumieniowa baza danych to baza danych, w której dane są przedstawione w postaci zbioru strumieni danych. System zarządzania taką bazą nazywany jest strumieniowym systemem zarządzania danymi (DSMS - ang. Data Stream Management System).

Większość strumieniowych baz danych w chwili obecnej (początek 2005r.) znajduje się w fazach prototypowych i nie powstały dotychczas rozwiązania komercyjne.

Strumieniowe bazy danych z reguły implementują języki ciągłych zapytań [1] opartych na SQL-u (istnieją jednak wyjątki od tej reguły - np. rozwiązania graficzne).

Spis treści

[edytuj] Geneza strumieniowych baz danych

[edytuj] Problemy modelu relacyjnego

Konwencjonalne, relacyjne bazy danych są projektowane przy założeniu aktywnej postawy użytkownika. Użytkownik wprowadza i otrzymuje na żądanie informacje ze zbioru danych. Tego typu podejście określono jako oparte na koncepcji pasywnej bazy danych (HADP) (ang. Human Active Database Passive). Niestety, istnieje szereg zjawisk, których praktyczna realizacja przy pomocy tej koncepcji prezentacji danych jest znacząco utrudniona. Próbując zastosować model uniwersalny napotkamy problemy dopiero w trakcie wdrożenia lub pierwszego uruchomienia systemu. Jest to spowodowane uwzględnieniem przez projektanta wartości średnich bez uwzględnienia ciągłego i nieograniczonego w czasie, a czasem lawinowego napływu danych.

[edytuj] Podejście DAHP

Dlatego powstała nowa koncepcja realizacji systemu zarządzania danymi. Jest to model oparty na aktywnej bazie danych (DAHP - Database Active Human Passive). Prowadzone badania dotyczą głównie rozwiązań dedykowanych. W ramach jednego z projektów prowadzone są prace nad przedstawieniem rozwiązania uniwersalnego [2].

Przedstawiono koncepcję systemu DSMS, Data Stream Management System, czyli tłumacząc: SZSBD - Systemu Zarządzania Strumieniową Bazą Danych (w opozycji do pojęcia DBMS, Database Management System zakładającego relacyjny model danych).

[edytuj] Różnice pomiędzy systemem relacyjnym i strumieniowym

Można wskazać kilka podstawowych różnic pomiędzy systemami relacyjnymi i strumieniowymi. Poniżej zamieszczono te cechy funkcjonalne systemów, które są spotykane jedynie w systemach strumieniowych.

  • implementacja ciÄ…gÅ‚ych zapytaÅ„ w systemie zarzÄ…dzania danymi (nie w aplikacji)
  • moduÅ‚ rejestracji danych umieszczony w systemie zarzÄ…dzania danymi (wbudowany)
  • jÄ™zyk zapytaÅ„ oparty o zmodyfikowanÄ…/rozszerzonÄ…/alternatywnÄ… algebrÄ™ opisujÄ…cÄ… operacje na strumieniach danych

[edytuj] Charakterystyka modelu

W modelu strumieni danych zakłada się, że niektóre lub wszystkie napływające do systemu dane nie są dostępne w dowolnej chwili. Możliwy czas, w jakim można je zarejestrować jest skończony. Dane te pojawiają się w źródle danych i przyjmują postać strumienia danych.

Strumienie danych różnią się od konwencjonalnych danych kilkoma szczegółami:

  • Elementy strumienia danych napÅ‚ywajÄ… na bieżąco (online).
  • System nie ma wpÅ‚ywu na dane, jakie do niego napÅ‚ywajÄ… – ani na kolejność ani na zawartość.
  • Strumienie danych teoretycznie nie sÄ… ograniczone czasem – w rozwiÄ…zaniu nie można zaÅ‚ożyć, że strumieÅ„ danych bÄ™dzie zawieraÅ‚ okreÅ›lonÄ… maksymalnÄ… ilość elementów.
  • Każdy element pobrany ze strumienia danych po przetworzeniu jest niszczony lub archiwizowany. DostÄ™p do niego jest utrudniony, bowiem strumieÅ„ nie jest przechowywany w pamiÄ™ci operacyjnej, a Å‚atwy dostÄ™p do danych możliwy jest jedynie w przypadku ostatnio zarejestrowanych danych.

Istnienie takich ograniczeń nie przekreśla wykorzystania w systemie zarządzania bazą danych konwencjonalnych metod dostępu do danych. Prowadzone są próby poszerzenia standardu języka SQL o elementy umożliwiające zadawanie zapytań oparte na strumieniach danych.

[edytuj] Semantyka ciągłych zapytań

Klasyczne systemy relacyjne implementują model typu zapytanie-odpowiedź. Typowe zapytania realizowane w modelu strumieniowym mają postać zapytanie-odpowiedź,odpowiedź,... Ciągłe zapytanie jest zapytaniem, którego plan realizacji zamknięty jest w martwej pętli. Formalną semantykę ciągłych zapytań zdefiniowano w pracy opublikowanej w czasopiśmie Sigmod Record [1] przez naukowców pracujących nad projektem STREAM.

[edytuj] Języki zapytań

Rozważane są trzy możliwe sposoby zapisu zapytań opartych na strumieniach danych: deklaratywne (oparte na rachunku relacji), obiektowe oraz rozwiązanie proceduralne. Rozwiązania deklaratywne bazują na poszerzonej składni języka SQL. Przykładowe zapytania przedstawia się następująco:

Select Istream(*) From S [Rows 100] Where S.A > 10

Podejście obiektowe zostało zastosowane w systemie monitorowania sieci czujników Cougar.

Do języków proceduralnych należy zaliczyć te języki, w których plan realizacji zapytania tworzony jest bezpośrednio przez użytkownika - np. Projekt Aurora/Borealis.

[edytuj] Przetwarzanie strumieni danych

Model obliczeń na strumieniach danych zakłada istnienie danych o następującym charakterze:

  • dane nadchodzÄ… w postaci sekwencji elementów zwanej strumieniem,
  • każdy z elementów jest przeglÄ…dany i przetwarzany tylko raz wraz z napÅ‚ywem danych.

Podstawowe problemy w realizacji zadania przetwarzania strumieni danych dotyczą implementacji i zdefiniowania zbioru operatorów nieblokujących realizację planu zapytania oraz algorytmów aproksymujących. W ramach prac często stosowana jest technika ruchomego okna danych w celu realizacji zadań przez operatory.

[edytuj] Linki zewnętrzne

[edytuj] Literatura

  1. Arasu A, Widom J. ACM Sigmod Record Vol 33, Nr 3, 2004, str. 6-11
  2. Babcock B., Babu S., Datar M., Motwani R., Widom J.: Models and Issues in Data Stream Systems. Proc. of the 2002 ACM Symp. on Principles of Database Systems, June 2002, str. 1-16
  3. Golab L., Ozsu M.T. Issues in data stream management, ACM Sigmod Record Vol 32, Nr 2, 2003, str. 5-14

Tajemnice super pamięci w podeszłym wieku
Ilość splątków włókien białka tau w neuronach mózgu osób w podeszłym wieku decyduje o możliwościach ich pamięci - poinformowali naukowcy z Northwestern University's Feinberg School of Medicine podczas Zjazdu Neurobiologów w Waszyngtonie.
Ssawka do leczenia ran
Elastyczny opatrunek połączony z urządzeniem cyklicznie wytwarzającym pod- i nadciśnienie wyraźnie przyspiesza gojenie ran u świń - informuje "New Scientist".
Chory na raka mózgu hokeista zagrał
Chory na raka mózgu bramkarz hokejowej reprezentacji Niemiec Robert Mueller, wystąpił w niedzielnym meczu Koelner Haie (Rekiny Kolonia). W ubiegłym tygodniu poinformował, że jego choroba jest nieuleczalna i pozostało mu kilka tygodni życia.
Artefakty sprzed 5000 lat odkryte w Iranie
Prace wykopaliskowe w południowym Iranie doprowadziły do odkrycia artefaktów pochodzących nawet sprzed 5000 lat - donosi serwis internetowy Press TV.
Spis powszechny tygrysów
W Nepalu rozpoczął się drugi spis powszechny tygrysów, pośród obaw, że wiele tych zwierząt padło ofiarą nasilającego się w ostatnich latach kłusownictwa.
Linki: Strona g³ówna