Metódy učenia posilňovaním pre objavovanie a analýzu diverzifikovaných stratégií riešenia problémov
Školitel
prof. Ing. Martin Klimo, PhD.
Školitel špecialista
Ing. Peter Tarábek, PhD.
Študijný program
Aplikovaná informatika
Študijný odbor
Informatika
Detailnejší opis problému
Učenie posilňovaním (RL) umožňuje systémom učiť sa stratégie riešenia problémov prostredníctvom interakcie s prostredím. Napriek pokrokom zostáva výzvou pochopenie a analýza objavených stratégií, ako aj ich prenos medzi rôznymi inštanciami problémov. Táto téma je aktuálna vzhľadom na rastúcu potrebu riešenia komplexných rozhodovacích problémov v rôznych doménach. Práca sa bude zameriavať na jeden z nasledujúcich výskumných smerov: Prvým výskumným smerom je objavovanie a analýza stratégií so zameraním sa na vývoj metód pre systematické hľadanie rôznych prístupov k riešeniu problémov. V súčasnosti sa v tejto oblasti využívajú prístupy založené na policy gradients a value-based metódach. Dôležitým aspektom bude využitie intrinsickej motivácie ako mechanizmu pre podporu diverzity v objavených riešeniach. Súčasťou tohto smeru bude aj vývoj pokročilých techník pre analýzu a vizualizáciu naučených stratégií, ktoré umožnia lepšie pochopiť procesy rozhodovania RL agentov. Druhým výskumným smerom je transfer znalostí a adaptácia, kde hlavným cieľom bude vyvinúť metódy pre efektívny prenos naučených stratégií medzi rôznymi inštanciami problémov. Pre problémy reprezentovateľné pomocou grafov (napríklad optimalizačné úlohy na sieťach) sú výskumne zaujímavé architektúry schopné zachytiť invariantné vlastnosti týchto štruktúr, ako napríklad grafové neurónové siete (GNN) invariantné voči permutáciám vrcholov, alebo transformery modelujúce dlhodobé závislosti. Tento smer zahŕňa identifikáciu invariantných vlastností zostávajúcich konzistentných naprieč rôznymi inštanciami, ako aj vývoj techník pre adaptáciu existujúcich stratégií na nové problémy. Tretím výskumným smerom je vysvetliteľnosť a interpretácia, ktorý sa zameriava na vývoj metód pre lepšie pochopenie rozhodovacích procesov RL agentov. Významnou oblasťou je integrácia s veľkými jazykovými modelmi (LLM) pre generovanie zrozumiteľných vysvetlení naučených stratégií, čo môže významne prispieť k adopcii RL systémov v praxi.
Predpokladaný vedecký prínos (algoritmy, metodológie, ...)
Možnými prínosmi práce sú nové metodológie a algoritmy pre objavovanie, analýzu a transfer stratégií v učení posilňovaním, vrátane frameworku pre systematickú analýzu RL stratégií, algoritmov využívajúcich intrinsickú motiváciu a techník pre interpretáciu naučených riešení.
Odporučány postup vedeckého bádania
1. Analýza súčasného stavu - Systematický prehľad existujúcich metód - Identifikácia silných / slabých stránok a potencionálnych vylepšení 2. Formulácia hypotéz a výskumných otázok - Definícia konkrétnych cieľov - Návrh evaluačných metrík 3. Vývoj a implementácia navrhovaných metód - Implementácia baseline riešení - Iteratívny vývoj nových metód - Zber experimentálnych dát 4. Evaluácia a validácia výsledkov - Validácia hypotéz 5. Publikácia a diseminácia výsledkov
Druh výskumu
aplikovaný výskum
Výskumná úloha, ktorej súčasťou bude riešená téma
09I05-03-V02-00029
Doterajšie výsledky riešenia na školiacom pracovisku, vrátane odkazov na dostupné zdroje
1. Tarábek, Peter, and Dávid Matis. "Exploration Degree Bias: The Hidden Influence of Node Degree in Graph Neural Network-based Reinforcement Learning." IEEE Access (2025). 2. Klimo, Martin, Jaroslav Kopčan, and L’ubomír Králik. "Explainability as a Method for Learning From Computers." IEEE Access 11 (2023): 35853-35865. 3. Klimo, Martin, Peter Lukáč, and Peter Tarábek. "Deep neural networks classification via binary error-detecting output codes." Applied Sciences 11.8 (2021): 3563. 4. Ondrašovič, Milan, and Peter Tarábek. "Siamese visual object tracking: A survey." IEEE Access 9 (2021): 110149-110172. 5. Ondrašovič, Milan, and Peter Tarábek. "Homography ranking based on multiple groups of point correspondences." Sensors 21.17 (2021): 5752. 6. Fabricius, René, Ondrej Šuch, and Peter Tarábek. "Deep neural network ensembles using class-vs-class weighting." IEEE Access (2023). 7. Cimrák, Ivan, Peter Tarábek, and František Kajánek. "Curated Dataset for Red Blood Cell Tracking from Video Sequences of Flow in Microfluidic Devices." Data 8.6 (2023): 106. 8. Klimo, Martin, Jaroslav Kopčan, and Ľubomír Králik. "Explainability as a Method for Learning from Computers." IEEE Access (2023). 9. Kajánek, František, Ivan Cimrák, and Peter Tarábek. "Automated Tracking of Red Blood Cells in Images." International Work-Conference on Bioinformatics and Biomedical Engineering. Cham: Springer International Publishing, 2020.
V prípade otázok sa obráťte na vedúceho témy:
Martin.Klimo@fri.uniza.sk