N-INS 4. Databázové systémy

Zadání: Základní pojmy, principy, architektury. Ukládání a reprezentace dat, zpracování dotazu, transakce, indexování, hašování, datové modelování. Metadata. Datové sklady.

Vypracování

Základní pojmy, principy, architektury

Databáze (DB) je uspořádaná množina dat, se kterými můžeme dále pracovat. Správa databáze je realizována prostřednictvím Systému pro správu databáze (Database Management System, DBMS). DB + DMBS tvoří dohromady databázový systém.

Databázové systémy byly vyvinuty kvůli zvládnutí následujících problémů při zpracování souborů v tradičních operačních systémech:

redundance a inkonsistence dat
problémy s přístupy k datům
izolace dat – různé soubory a formáty
problémy s integritou
jedinečnost (atomicita) aktualizací
současný přístup více uživatelů
bezpečnostní problémy

Databázové systémy mají tedy následující vlastnosti:

Struktury datových souborů jsou odděleny od aplikačních (uživatelských) programů.
Přístup k datům je možný jen prostřednictvím programů databázového systému.
Data je možné vyhodnotit jakýmkoliv způsobem.
Je umožněn přístup více uživatelů současně a vyřešena ochrana dat před zneužitím.

Správa databáze zahrnuje prostředky pro popis dat a popis algoritmu.

Jazyk pro definici dat (Data Definition Language, DDL)

definuje sadu příkazů, které lze použít pro vytvoření, úpravu a odstranění objektů (tabulky, pohledy, procedury, funkce) v databázi
CREATE (vytvoření), ALTER (úprava), DROP (odstranění)

Jazyk správy prístupu (Data Control Language, DCL)

prideľovanie/odoberanie práv
GRANT (pridelenie privilégií), REVOKE (odobranie)

Jazyk práce s transakciami (Transaction Control Language, TCL)

COMMIT, SAVEPOINT, ROLLBACK

Jazyk manipulace s daty (Data Manipulation Language, DML)

množina příkazů, které se používají pro výběr, vkládání, úpravu a mazání dat v tabulkách
SELECT, INSERT, UPDATE, DELETE

Architektura databázového systému

Externí úroveň – reprezentována daty z pohledu uživatele (např. formuláře pro vstup dat, výstupní tiskové sestavy), různí uživatele vidí různě vymezené části databáze, jde o externí schéma
Konceptuální úroveň – popisuje data uložená v databázi a vztahy mezi nimi, jde o logické schéma
Interní úroveň – popisuje fyzický způsob uložení dat na vnějších paměťových médiích a metody přístupu k datům, jde o fyzické schéma

Jiné dělení architektur databázových systémů

centrální architektura – DB i DBMS jsou umístěné v centrálním počítači, komunikaci zprostředkovávají terminály
architektura file-server – DB je umístěna na zvláštním počítači pracujícím jako file-server, DBMS na jednotlivých klientských počítačích
architektura klient-server – DB i DBMS jsou umístěné na datovém serveru, na jednotlivých klientských počítačích běží aplikace, které předávají dotazy na tento datový server
architektura distribuovaných databází – databázová data jsou rozložena v několika počítačích, navenek se tváří jako jediná velká databáze

Ukládání a reprezentace dat

Typy datových elementů:

celé číslo
reálné číslo
znak
pravdivostní hodnota
bitové pole
datum
čas
výčtový typ
řetězec

Databáze je uložena v kolekci souborů. Každý soubor je tvořen posloupností záznamů. Záznam se skládá z jednotlivých atributů (datových elementů), které mají svůj typ buď pevné (většinou) nebo proměnlivé délky. V nejjednodušším případě je délka záznamu pevná, každý soubor má pouze záznamy jednoho typu a každá tabulka má právě jeden soubor. Záznamy (ať už pevné nebo proměnné délky) ukládáme do bloků pevné velikosti. Záznamy můžeme oddělovat mezi sebou a rozdělovat/nerozdělovat do více bloků (viac na http://statnice.dqd.cz/_media/mgr-szz:in-ins:4.pdf str.8).

Organizace záznamů v souboru

halda – záznam je uložen kdekoli na volné místo v souboru
sekvenční – záznamy jsou v souboru uspořádány podle vyhledávacího atributu
hašování – pro výpočet čísla bloku, kde má být záznam uložen, se používá hašovací funkce (toto číslo je vypočítáno na základě hodnot vybraných atributů)
shlukování – záznamy různých tabulek mohou být uloženy v jednom bloku (některá data jsou vyžadována současně)

Zpracování dotazu

Postup zpracování a optimalizace dotazu:

dotaz
strom dotazu
logický plán dotazu
vylepšený logický plán dotazu
logický plán dotazu s velikostmi
fyzický plán dotazu
vyhodnocení

Dotaz se nejprve pomocí parseru převede na syntaktický strom reprezentující strukturu dotazu. Ten se po té zpracuje do výrazů relační algebry (logický plán dotazu). Pomocí transformačních pravidel (kombinace přirozeného spojení, kartézského součinu, sjednocení, selekce a projekce) dále vznikne vylepšený logický plán. Nyní se za pomocí různých statistik (počet záznamů, velikost záznamů v bajtech, počet obsazených bloků, počet unikátních hodnot daného atributu) odhadnou velikosti výsledků, které ovlivňují odhad ceny provedení. Následně se logický plán transformuje na fyzický plán, který určí pořadí operací nutných k vykonání. Porovnají se různé fyzické plány, odhadnou se náklady (velikost výsledků, počet V/V operací) a zvolí se nejlevnější. Nakonec se daný plán provede a tím se získá výsledek.

Transformačné pravidlá

projekcia čim najskôr, ako je to možné
R⋈S = S⋈R
σ _p1∧p2 (R) = σ_p1[ σ_p2 (R)] – ak máme indexy pre p1,p2, práva strana je rýchlejšia

Odhady ceny plánu

T(R) - počet záznamov
S(R) - veľkosť záznamu v Bajtoch
S(R,A) - veľkosť atribútu A v Bajtoch
B(R) - počet obsiahnutých blokov
V(R,A) - počet unikátnych hodnôt atribútu A

Nejaké príklady výpočtov:
W = R1xR2 ⇒ T(W) = T(R1) * T(R2); S(W) = S(R1) + S(R2)
W = σ_A='cat'(R) ⇒ T(W)= T(R) / V(R,A)

Transakce

Transakce je posloupnost operací (DML příkazů), které převedou datové schéma z jednoho konzistentního stavu do druhého (zpřístupňuje a aktualizuje data). Platí o ní, že je ACID:

Atomic (atomičnost) – transakce se celá provede nebo se celá zruší
Consistency (konzistence) – po dokončení transakce je databáze konzistentní
Isolation (izolovanost) – různé transakce o sobě vzájemně nevědí
Durability (trvanlivost) – po ukončení transakce jsou data trvale uložena

Více transakcí může být spouštěno současně, může však dojít k uváznutí (deadlocku). Chronologické pořadí provádění instrukcí souběžných transakcí je předem určeno pomocí plánu.

Každá transakce může nabývat těchto stavů: aktivní, částečně potvrzená, chybující, zrušená a potvrzená. Pokud byla transakce zrušena, je možné ji znovu spustit (nedošlo-li k logické chybě) nebo zamítnout.

Na implementovanie atomičnosti sa využíva žurnalovanie, celkovo sú známe tri typy (viac na https://is.muni.cz/el/1433/jaro2013/PA152/um/slides11-recovery.pdf):

UNDO logovanie (pri chybe sa transakcie celá zruší)
REDO logovanie (pri chybe sa transakcia zopakuje)
UNDO/REDO logovanie

Paralelné spracovanie transakcií je implementované pomocou tvorby tzv. schedules – zoradená postupnosť príkazov viacerých transakcií ( viac na https://is.muni.cz/el/1433/podzim2010/PB154/um/mod13_1.pdf)

 Výrazy: 
      * serializované spustenie -- transakcie sú púštané postupne za sebou 
      * ekvivalentné plány (scedules) -- zachovávaju výsledné hodnoty 
      * konfliktovo ekvivalentné plány (schedules) -- plány vzniknuté zámenou nekonfliktných príkazov 
      * cascadeless schedule -- čítam premennú, ktorej hodnota je závislá na inej transakcii až po tom, ako daná transakcia úspešne prebehla

Indexování a hašování

Indexové mechanizmy se používají pro zrychlení přístupu k požadovaným datům. Na druhou stranu dojde ke zpomalení operací (INSERT, UPDATE) měnících obsah indexovaných sloupců. Vytvořením indexu databázový systém zarezervuje pro požadovaný index určitou část paměťového prostoru a uloží do něj informace o rozmístění hodnot indexovaných sloupců v tabulce. Pokud později dojde k dotazu, který se týká indexovaných sloupců, není tabulka prohledávána podle toho, jak jsou za sebou řádky uloženy, ale pomocí informací uložených v paměťovém prostoru indexu je přistupováno přímo k relevantním řádkům tabulky (něco jako rejstřík v knize).

S indexováním souvisí následující pojmy:

vyhledávací klíč – atribut nebo množina atributů používaný pro vyhledávání záznamů v souboru
primární klíč – atribut nebo množina atributů jednoznačně identifikující každý záznam v tabulce
sekvenční soubor – záznamy jsou uspořádány podle vyhledávacího klíče
indexový soubor – skládá se ze záznamů ve tvaru VYHLEDÁVACÍ KLÍČ | UKAZATEL
index-sekvenční soubor – soubor setříděný podle primárního klíče, ke kterému je vytvořena struktura indexů

Rozlišujeme dva základní typy indexů:

uspořádané indexy – vyhledávací klíče jsou uspořádané
hašovací indexy – vyhledávací klíče jsou rovnoměrně rozprostřeny po adresovacím prostoru hašovací funkce

Indexové soubory mohou mít následující typy indexů:

hustý index – indexové záznamy jsou uloženy pro každou hodnotu vyhledávacího klíče
řídký index – indexové záznamy jsou uloženy pouze pro některé hodnoty vyhledávacího klíče
víceúrovňový index – index, u kterého je každá úroveň, s výjimkou poslední, řídkým primárním indexem úrovně následující

B+ stromy

Alternativou a zároveň nejpoužívanější indexovou strukturou v databázových systémech jsou B+ stromy. Jedná se o víceúrovňový index ve tvaru vyváženého n-nárního stromu. Jejich výhodou je, že se při vkládání/mazání provádí automatická reorganizace pouze s malými, lokálními změnami, nevýhodou je ale režie a zvýšené prostorové nároky.

Hašovací funkce

převede libovolně dlouhý vstup na výstup pevné délky
řeší přístup k záznamům s konstantní složitostí
ideální hašovací funkce je rovnoměrná a náhodná (vztahuje se na rozložení hodnot)

Kolize

situace, kdy je pro více záznamů spočítána stejná adresa
obvykle se řeší pomocí bucketů – každé paměťové místo má předepsanou kapacitu záznamů, ve kterém se následně vyhledává lineárně

Statické hašování

používá se u souborů, které procházejí jen minimem změn
případné změny mohou negativně ovlivnit efektivitu hašování

Dynamické hašování

k výpočtu adresy se používá pouze prvních i bitů z výstupu hašovací funkce (toto i se dynamicky mění)
používá se u souborů s proměnným počtem záznamů
buckety jsou naplněné rovnoměrně

Datové modelování

Cílem datového modelování je navrhnout kvalitní datovou strukturu pro konkrétní aplikaci a databázový systém, který bude tuto aplikace využívat k uložení dat. Rozeznáváme:

Databázový model – definuje neměnné atributy a strukturu dat a slouží pro návrh datové struktury
Konceptuální datový model – zobecnění konkrétní implementace datové struktury v relační databázi, lze jej přenášet do různých implementačních prostředí, příkladem je entitně-relační model (ER diagramy)

Základními prvky datového modelu jsou entity, atributy a vztahy. Pro jeho vytváření na počítači můžeme využít tzv. CASE nástrojů.

Metadata a datové sklady

Datový sklad (angl. Data warehouse) je zvláštní typ relační databáze, která umožňuje řešit úlohy zaměřené převážně na analytické dotazování nad rozsáhlými soubory dat. Jde o centrální úložný prostor, kam jsou ukládána data z různých zdrojů a toto vkládání je logicky organizované.

ETL (extract, transform, and load) – proces zísaknia a uloženia dát. Pozostáva z 3 častí:

  Extracts data from outside sources 
  Transforms it to fit operational needs, which can include quality levels 
  Loads it into the end target (data warehouse)

Rozdíly oproti relační databázi:

orientace na subjekt – jasná vnitřní separace funkčních celků, běžná je redundance dat
integrovanost – data z různých zdrojů jsou spojená podle logického významu (nikoliv podle původu)
nízká proměnlivost – data jsou nahrávána zpravidla v dávkách a později nejsou modifikována
historizace – data mohou být uchovávána v různých časových verzích (nikoliv pouze v aktuálním stavu)

Technologické charakteristiky:

datový sklad musí obsahovat nástroj pro nahrávání dat z různých datových zdrojů, tyto zdroje mohou mít různé datové formáty a různé fyzické umístění
datový sklad ukládá data s ohledem na co nejlepší a nejrychlejší provádění složitých dotazů – proto je pro uložení dat používána často technologie OLAP (technologie uložení dat v databázi, která umožňuje uspořádat velké objemy dat tak, aby byla data přístupná a srozumitelná uživatelům zabývajícím se analýzou obchodních trendů a výsledků)

Data v datovém skladu jsou z logického pohledu členěna do schémat (každé schéma odpovídá jedné analyzované funkční oblasti), jádro každého schématu tvoří jedna nebo několik faktových tabulek (v nich jsou uložena vlastní analyzovaná data) a ty jsou pomocí cizích klíčů spojeny s dimenzemi (tabulky, které obsahují seznamy hodnot sloužících ke kategorizaci a třídění dat ve faktových tabulkách).

Všechna data v datovém skladu jsou doplněna o metadata, což jsou data o datech. Popisují tabulky (např. názvy sloupců a datové typy), pohledy, procedury, uživatele nebo jakýkoliv jiný objekt v databázi. Bez metadat by datový sklad nemohl fungovat.

Předměty

FI:PB154 Základy databázových systémů
FI:PB155 Databázové systémy a jejich aplikace
FI:PA152 Efektivní využívání databázových systémů

Použité zdroje

Učební materiály k předmětu Základy databázových systémů Učební materiály k předmětu Efektivní využívání databázových systémů Jaroslav Zendulka (VUT) – Fyzická (interní) úroveň databázového systému Jaroslav Zendulka (VUT) – Transakční zpracování Miloš Šeda (VUT) – Databázové systémy Jaromír Široký (VŠB) – Databázové systémy Marek Polášek – Metadata a datové sklady Wikipedie – Datový sklad Wikipedie – Index (databáze)

Tisková verze

Jako alternativu tisku přímo z Wiki nabízím možnost si stáhnout tuto vypracovanou otázku v PDF vytvořeném z původního Wordu.

04 - Databázové systémy

Přílohy

4.pdf – rozšíření některých témat a soukromé zpracování, vycházelo se z této wiki na přelomu roku 2013/2014. Nekonzultováno s kantory.

Vypracoval

Honza Havelka, 207401, honza.havelka@seznam.cz, hotovo

Diskuze

Jakub Kubo, 2012/01/21 13:06

Rozmyslam nad podotazkou Architektury DBMS. Neni to skor toto : http://homen.vsb.cz/~s1i95/ISVDAS/IS/IS_db_sys.htm

Honza Havelka, 2012/01/23 15:05

OK, asi máš pravdu. Díky za postřeh. Doplnil jsem tam tedy i toto druhé dělení.

Adam Libuša, 2012/02/01 02:23

Pekne vypracované, díky. Jediné, čo mi po prečítaní zostalo vŕtať v hlave je, aký je rozdiel medzi čiastočne potvrdenou a potvrdednou transakciou.

Honza Havelka, 2012/02/01 15:41

Na této stránce jsem našel následující:

„Transakce při svém běhu sice provádí všechny požadované změny, nicméně nezapisuje je fyzicky do databáze. Při částečném potvrzení transakce se zapíší všechny změny, ale jen do žurnálu, nikoliv do databáze. Databáze stále obsahuje původní hodnoty objektů. V okamžiku, kdy uživatel usoudí, že jsou všechny změny dokončené, dojde k potvrzení transakce. V tomto okamžiku teprve databázový systém začne procházet žurnál dopředným čtením (REDO) a zapisuje fyzicky do databáze data uvedená v žurnálu.“

Adam Libuša, 2012/02/01 19:36

Diky za dohladanie.

You could leave a comment if you were logged in.

mgr-szz/in-ins/4-ins.txt · Poslední úprava: 2020/04/12 16:56 (upraveno mimo DokuWiki)

Nahoru

Obsah