af Seres Bianka 7 år siden
484
Mere som dette
Olyan elemző eszközök és technológiák, amelyek lehetővé teszik a felhasználó számára fontos, új információk meghatározását az adatbázisok, illetve adattárházak adataiból.
Az adatbányászat célja az, hogy miként lehet nagy
adatbázisokban
• rejtett tudást,
• új összefüggéseket,
• eddig nem ismert szabályokat,
• nem várt mintákat felfedezni.
Forrás: Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Az adattárházba különböző forrásokból, tranzakciós adatbázisokból,
különféle adatfájlokból, esetenként közvetlen inputból kerülnek be az adatok. Ugyancsak innen kerülnek be az adatok értelmezésére szolgáló adatleírások, az úgynevezett metaadatok is.
Forrás:
Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Egy olyan adattár, mely egy lokális, jól körülhatárolt témájú, meghatározott felhasználói csoport részére konkrét feladatot lát el.
Forrás:
https://www.academia.edu/7922006/Adatb%C3%A1ny%C3%A1szat_a_hat%C3%A9konys%C3%A1g_eszk%C3%B6ze
A vállalathoz közvetlenül nem kötődő adatokat jelenítenek
meg, mint az időjárási vagy gazdasági információk.
Forrás: https://www.academia.edu/7922006/Adatb%C3%A1ny%C3%A1szat_a_hat%C3%A9konys%C3%A1g_eszk%C3%B6ze
Az ETL fő folyamatai:
továbbá
Ezeket követően az adatok adattárházba való betöltése jön.
A végfelhasználók nem érik el a legfrissebb adatokat, csak azokat, amik már bekerültek az adattárházba. Jellemzően nem online adatokat tartalmaz, hanem "tegnapi" adatokat.
Jellemzően éjszaka történik ezzel optimalizálva a rendszer erőforrások terhelését.
Forrás: előadás
https://dea.lib.unideb.hu/dea/bitstream/handle/2437/85131/IntelligensAdatt%E1rh%E1zak.pdf;jsessionid=DFD42DA9879CA67006B0C48588C92F6C?sequence=1
Az egyszerűbb és gyorsabb használhatóság érdekében a rengeteg adatot tartalmazó adattárházakból gyakran redundánsan duplikálnak olyan részeket, melyek kizárólag egyes alkalmazási területek információs igényeit elégítik ki, ezeket nevezzük adatpiacnak.
Az adatpiacok már az adattárházból kapják az adatokat, de olyan szerkezetben, összetételben, hogy az optimálisan megfeleljen az adott részterület (pl. eladás, beszerzés) feldolgozási igényeinek.
Forrás: Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Az adattár tervezésének egy speciális adatmodellje, ahol a ténytáblákban rögzítjük a mérőszámokat, dimenziótáblákban a mérőszámok különböző csoportosításait (dimenzióit), és rögzítjük a ténytáblák és dimenziótáblák összefüggéseit.
Forrás: http://www.tankonyvtar.hu/en/tartalom/tkt/avir-kezikonyv-avir/go01.html
A dimenziókon belüli hierarchiát is beépíthetjük a modellbe. Az így kibővített ábrázolási módot hívjuk hópehely (Snowflake) modellnek.
Forrás: Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Középpontjában áll a minden elemi adatot és azok kereshető összegzéseit, származtatott adatait tartalmazó ténytáblázat (Fact table). A tény-táblázat normalizált.
A központi ténytáblázathoz kapcsolódnak idegen kulccsal a dimenziók (dimension), melyek a különböző lekérdezési szempontokat írják le. Ezek nem normalizált táblázatok.
Grafikusan ábrázolva a ténytáblázatot és az azt körbevevő dimenziókat egy csillagszerű alakzat rajzolódik ki.
Könnyen kiterjeszthető, bővíthető, hatékony adatbázistervet szolgáltat ez a modell.
Forrás: előadás
Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Az 1NF és 2NF teljesül ebben a sémában, viszont vannak benne tranzitív függőségek.
1.Az Orders relációban lévő Total_Amount attribútum nem triviális, hogy teljes funkcionális függőségben van az elsődleges kulccsal.
2. A Customer relációban két hibát vélhetünk felfedezni.
A Customer táblában lévő hibák megoldási javaslataként létre lehetne hozni egy City táblát, a mellékelt ábrán látható módon.
Ki lehetne egészíteni a Learning sémát egy Product és Order_Item relációval, így már biztosan teljesülne a 3NF.
PRODUCT(product_ID, product_name, ...,)
ORDERS(order_ID, date_ordered, ...,)
ORDER_ITEM(product_ID, order_ID, total_amount, one_price)
Meg kell állapítani:
Forrás: 5. előadás
Az adattípus, hossz, alapértelmezés, korlátozó
feltételek részletes meghatározása.
Forrás:
Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
A relációk magasabb fokú normál formába történő átalakítása.
Forrás: gyakorlat
A relációk közötti kapcsolatok biztosítása miatt definiáljuk az idegen kulcsokat.
Forrás: gyakorlati óra jegyzet
A szükséges adatok kiválasztása után, meghatározzuk az entitásokat, az entitások tulajdonságait meg a közöttük lévő kapcsolatokat. A több-több kapcsolatokat felbontjuk újabb relációk segítségével. A relációk legalább első normál formában való definiálása (ez szinte magától értetődő)
Forrás: gyakorlat jegyzet
Quittner Pál, Baksa-Haskó Gabriella :ADATBÁZISOK, ADATBÁZIS-KEZELŐ RENDSZEREK
Debrecen, 2007.
Oracle: SQL Developer Data Modeller, Oracle9i Designer
SAP: PowerDesigner
Microsoft: SQL Server Management Studio
Forrás: előadás
https://en.wikipedia.org/wiki/Comparison_of_data_modeling_tools
Forrás: előadás
Az adatmodellezés egy módszer, mellyel meghatározzuk, mi kerüljön be az adatbázisba. Segíti megérteni az adatok szerkezetét. Célja, hogy olyan adatmodellt hozzunk létre, amely a megoldandó feladat szempontjából valósághűen, egyértelműen, a szükséges adatok tárolásával ábrázolja a valós világ adatait és kapcsolatait.
Forrás: előadás
https://en.wikipedia.org/wiki/Data_modeling
Üzleti szempontból az lenne hasznos (olcsó és praktikus), ha ugyanaz az adatbázis szolgálná ki az OLTP és adattárház jellegű igényeket.
Megvalósítás problémái:
(normalizált vs. csillag-séma)
Az ORACLE kísérletet tett ennek a kettő rendszernek a sikeres kombinációjára(Oracle Database InMemory Option), de még nem terjedt el. ( http://3.bp.blogspot.com/-Ees_h094u4w/VC8T1BLTCOI/AAAAAAAAHIk/LCwOlS_aZfg/s1600/Dual+Purpose+in+memory.PNG)
Forrás: előadás
OLTP-re jellemző adatmodell: A legelterjedtebb módszer a tárolandó objektumok leírására az Egyed/Kapcsolat diagramm (Entity/Relationship Diagram) ami aztán könnyen transzponálható az adatbázis relációs adatmodelljébe.
Normalizáltság: 1NF, 2NF, 3NF betartása kötelező ezekben a rendszerekben a módosítási, törlési és beszúrási anomáliák miatt.
A tervezés során már normalizált adatszerkezetben gondolkodunk. A jobb teljesítmény érdekében néha szelektíven denormalizálunk.
Olyan adatmodellt választunk, amely hűen tükrözi a „világ azon darabkájáról” alkotott fogalmainkat.
Forrás: előadás
http://scs.web.elte.hu/Work/DW/adattarhazak.htm#5
On Line Analitical Processing, az online analitikai feldolgozás. A kilencvenes évek elején erősödött fel az igény az elemző, analitikai alkalmazások iránt, és ezzel együtt egy egységes módszertan és követelményrendszer felállítására.
Fő célja az adatkinyerés.
Forrás: http://scs.web.elte.hu/Work/DW/adattarhazak.htm#5
Felhasználás jellege.
Az adatmodell nagyban függ attól, hogy milyen célokat szolgál az adatbázis.
Az előadáson két adatbázis típust ismertünk meg ezek alapján:
Emlékeztető:
Tranzakció: Több SQL-utasítás egy csoportja, amelyeket egymás után egy egységként kell végrehajtani. Annak biztosítása, hogy akár több tranzakció egyidejű végrehajtása helyesen fusson le, a tranzakció-kezelő feladata. DML utasítások (INSERT, UPDATE, DELETE) sorozata, mely kétféleképpen zárható le: vagy a COMMIT, vagy pedig ROLLBACK utasítással.
Forrás: előadás
http://www.agt.bme.hu/szakm/adatb/db6.htm
http://centroszet.hu/tananyag/adatb_sql%20NEW/32_tranzakcik.html
http://www.agt.bme.hu/szakm/adatb/db6.htm
Forrás: előadás
https://www.researchgate.net/profile/Janos_Abonyi/publication/264441999_Adatbanyaszat_a_hatekonysag_eszkoze/links/53df9baa0cf27a7b83068f52.pdf?inViewer=0&pdfJsDownload=0&origin=publication_detail
Gondoljunk egy olyan alkalmazásra melyben egy vállalati vezetés számára kell különböző mélységű és különböző tartalmú jelentéseket készíteni a vállalat eddigi teljesítményére, tevékenységére vonatkozóan.
A következő problémák merülhetnek fel:
Forrás: http://www.tankonyvtar.hu/hu/tartalom/tamop425/0049_29_adatmodellezesi_es_adatkezelesi_technikak/3339/index.scorml
Előnyei:
Forrás:
http://www.tankonyvtar.hu/hu/tartalom/tamop425/0049_29_adatmodellezesi_es_adatkezelesi_technikak/3339/index.scorml
OLTP rendszerek legfontosabb tulajdonságai:
Forrás: http://www.tankonyvtar.hu/hu/tartalom/tamop425/0049_29_adatmodellezesi_es_adatkezelesi_technikak/3339/index.scorml
Különböző tranzakciós adatokból származtatott adatokat tárol egységes formában időbeli változásuk és felhasználási területük szerint csoportosítva.
„Az adattárház egy témaorientált, integrált, történeti, nem változó adatgyűjtemény, amelyet elsősorban a döntéshozatalban használnak” (W.H. Inmon).
Az adattárházat egészen kis mérettől kifizetődő építeni (kisebb adattárház kisebb költségbe is kerül). Elkészítését az iparág határozza meg leginkább, azonban egy 50-100 fős cégnél már előnyökkel járhat.
Forrás: előadás
http://www.uni-corvinus.hu/index.php?id=41618&type=p&file_id=542
https://nws.niif.hu/ncd2002/docs/ehu/84/
.
Forrás:
http://docplayer.hu/208310-Az-adatta-rha-z-technolo-gia-elo-nyei-e-s-ha-tra-nyai-gyakorlati-szempontok-figyelembe-ve-tele-vel.html
Forrás: http://docplayer.hu/208310-Az-adatta-rha-z-technolo-gia-elo-nyei-e-s-ha-tra-nyai-gyakorlati-szempontok-figyelembe-ve-tele-vel.html
Tárgyorientált: Cél hogy segítsen az adatok elemzésében. Témakörök, felhasználók (pl. beszerzés, eladás, árukészlet,) szerint orientált.
Integrált: Különböző forrásból származó adatokat egységes formába kell transzformálnia.
Nem illékony: Amelyik adat egyszer bekerült az adattárházba, azok a továbbiakban nem fognak változni. Ez logikus, hiszen az adattárház célja, hogy lehetővé tegye számunkra, hogy az adatok elemzésével következtessünk múltbéli történésekre
Időben változó: Annak érdekében, hogy trendeket fedezhessenek fel, az elemzőknek nagy mennyiségű adatra van szükségük. Ez teljesen ellentétes az online tranzakció feldolgozó rendszerekkel (OLTP), ahol a teljesítmény megköveteli azt az igényt, hogy a hisztorikus adatokat archiváljuk.
Forrás:
https://dea.lib.unideb.hu/dea/bitstream/handle/2437/85131/IntelligensAdatt%E1rh%E1zak.pdf;jsessionid=DFD42DA9879CA67006B0C48588C92F6C?sequence=1
Emlékeztető: Ez nem más, mint a való világ egy darabjának leképezése, egy sajátos modell, ahogyan az adatbázis tükrözi a valóság egy részét. A fogalmi adatbázis van szorosabb kapcsolatban azzal, ahogyan az adatokat értelmezni kell.
(Lásd: előző előadás)
A fizikai adatbázis tervezés a fizikai adatbázis struktúra felépítésére fekteti a hangsúlyt, beleértve az adatbázis környezet beállítását valamint a megfelelő biztonságnyújtást.
A fizikai adatbázisról és tervezéséről a következő előadáson lesz szó.
Forrás: https://dea.lib.unideb.hu/dea/bitstream/handle/2437/85131/IntelligensAdatt%E1rh%E1zak.pdf;jsessionid=DFD42DA9879CA67006B0C48588C92F6C?sequence=1