Optimalizácia metód strojového učenia v kontexte dátovej vrstvy a indexovania

Školitel

doc. Ing. Michal Kvet, PhD.

Študijný program

Aplikovaná informatika

Študijný odbor

Informatika

Detailnejší opis problému

Komplexná analýza dát vyžaduje spracovanie rozsiahlej dátovej množiny z rôznych, často heterogénnych zdrojov. Tejto analýze predchádza transformácia dát z transakčných databáz do analyticky orientovaných databázových systémov a prístupov a ich následná denormalizácia, ukladanie, čistenie a pod. V súčasnosti existuje mnoho techník pre analýzu údajov, tvorbu prognóz či identifikáciu vzorov a závislostí. Cieľom doktorandského štúdia je navrhnúť, implementovať a experimentálne overiť jednotlivé techniky strojového učenia vo väzbe na dátovú vrstvu, spôsob organizácie dát vo forme distribúcie a particiovania. Nakoľko ide o rozsiahle dáta, je potrebné zabezpečiť efektívne spracovanie a prístup k samotným dátam, preto parciálnym cieľom bude i návrh vhodnej architektúry pre prístup a spracovanie analytických množín dát s dôrazom na indexy. V práci je potrebné sa zamerať nielen na relačné, ale i nerelačné a big data formáty.

Predpokladaný vedecký prínos (algoritmy, metodológie, ...)

algoritmy transformácie transakčných dát do analytických databáz, návrh techník denormalizácie analytických dát, algoritmy prístupu k údajom a ich indexovanie, algoritmy particiovania a dynamického vyvažovania množstva dát v partíciách a fragmentoch, návrh, implementácia a overenie techník strojového učenia vo väzbe na rôzne architektúry databázových systémov a štruktúry dát, metodika optimalizácie techník strojového učenia v kontexte dátovej vrstvy

Odporučány postup vedeckého bádania

- analýza a kategorizácia techník strojového učenia, transformácie dát z OLTP na OLAP, spracovania analytických dotazov, indexov a prístupových metód v OLAP databázach, particiovania a indexovania, - návrh, implementácia architektúry DBS pre optimalizáciu výkonnosti techník stroj. učenia, metodiky spracovania OLAP pre strojové učenie a tvorby indexov a fyzickej úrovne modelovania dát, - návrh data setu pre potreby experimentov a vyhodnotenia výkonnosti, - optimalizácia výkonnosti, - overenie

Druh výskumu

aplikovaný výskum a experimentálny vývoj

Výskumná úloha, ktorej súčasťou bude riešená téma

Projekt EverGreen financovaný s prostriedkov Európskej únie (KA220-HED-000089149) evergreen.uniza.sk 1/0192/24 - Vývoj a aplikácia pokročilých techník efektívneho spracovania rozsiahlych dát v prostredí inteligentných dopravných systémov Predpokladá sa tiež podanie žiadosti o podporu v rámci Grantového systému UNIZA.

Doterajšie výsledky riešenia na školiacom pracovisku, vrátane odkazov na dostupné zdroje

Kvet, M., Čerešňák, R., "Use of Machine Learning for the Unknown Values in Database Transformation Processes" - https://ieeexplore.ieee.org/document/9583753 Čerešňák, R., Kvet, M., "Comparison of Distributed Data Transformation and Comparing Query performance In Relational and Non-relational Database" - https://ieeexplore.ieee.org/document/9040085 Kvet, M., Matiaško, K., "Analysis of Temporal Data Management in the Intelligent Transport System" - https://ieeexplore.ieee.org/document/8490524 Kvet, M, Kvet, M., Konštiaková, L., "Analysis of Traffic Accident Rates in the Czech Republic" - https://ieeexplore.ieee.org/document/10749902 Kvet, M., Papán, J., "The Complexity of the Data Retrieval Process Using the Proposed Index Extension" - https://ieeexplore.ieee.org/document/9763539 Kvet, M., "Relational Data Index Consolidation" - https://ieeexplore.ieee.org/document/9347614 Kvet, M., "https://ieeexplore.ieee.org/document/9435452" - https://ieeexplore.ieee.org/document/9435452 Hrínová, M., Kvet, M., "Optimization of the SELECT Statement Containing Window Functions" - https://ieeexplore.ieee.org/document/10194457 Kvet, M., "Identifying and Treating NULL Values in the Oracle Database - Performance Case Study" - https://ieeexplore.ieee.org/document/10143066 Projektová výučba – Skúšací systém Helskyaho, H., Yu, J., Yu, K., "Machine Learning for Oracle Database Professionals", Apress, 2021, ISBN: 9781484270318 Huyen, Ch., "Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications", O'Reilly Media, 2022, ISBN: 1098107969 Forsyth, D., "Applied Machine Learning", Springer, Springer, 2019, ISBN: 978-3030181130 Kuhn, D., Kyte T., „Expert Oracle Database Architecture“, Apress, 2022, ISBN: 978-1484274989 Kuhn, D., Alapati S., Padfield B., „Expert Oracle Indexing and Access Paths“, O’Reilly, 2016, ISBN: 9781484219843 Fritchey, G., „SQL Server 2022 Query Performance Tuning: Troubleshoot and Optimize Query Performance“, Apress, 2022, ISBN: 978-1484288900 Pollack, E., „Dynamic SQL: Applications, Performance, and Security in Microsoft SQL Server“, Apress, 2018, ISBN: ‎ 978-1484243176 Domrovskaya, H., Novikov, B., Bailliekova, A., „PostgreSQL Query Optimization: The Ultimate Guide to Building Efficient Queries“, Apress, 2021, ISBN: 978-1484268841 Burleson, D., „Oracle High-Performance SQL Tuning“, Oracle Press, 2001, ISBN: 978-0072190588 Winand, M., „SQL Performance Explained Everything Developers Need to Know about SQL Performance“, 2012, ISBN: 978-3950307825 Gulutzan, P., O´Brien, M., Pelzer, T., Albaugh, T., „SQL Performance Tuning“, Addison-Wesley Professional, 2002, ISBN: 978-0201791693

V prípade otázok sa obráťte na vedúceho témy:

Michal.Kvet@fri.uniza.sk
An unhandled error has occurred. Reload 🗙