Područja istraživanja

Filtriranje tokova podataka u stvarnom vremenu 

U okviru ovog istraživačkog područja će se istraživati centralizirani sustav za filtriranje tokova podataka koji u stvarnom vremenu pronalazi i konzumentima prosljeđuje samo njima zanimljive podatkovne objekte iz ulaznih podatkovnih tokova koji dolaze iz više različitih izvora. Pri tome će se razvijati novi algoritmi koji će moći filtrirati podatke iz različitih podatkovnih tokova, uzimajući u obzir njihov volumen, brzinu, raznolikost i istinitost. Potpuni potencijal razvijenih algoritama ostvarit će se tek u raspodijeljenom okruženju. Osnovna ideja raspodijeljenog filtriranja tokova podataka jest podjela logike obrade na nekoliko nezavisnih komponenti koje su raspodijeljene u računalnom grozdu. Za raspodijeljeno filtriranje će se istraživati platforme otvorenog koda koje podržavaju raspodijeljenu obradu tokova podataka (kao što su npr. Apache Spark i Apache Flink). Krajnji cilj istraživanje u ovom istraživačkom području je razvoj raspodijeljenog sustava za filtriranje toka podataka koji će odjednom i u stvarnom vremenu moći filtrirati različite tokove podataka. 

Detekcija kritičnih događaja u tokovima podataka 

Otkrivanje anomalija i stršećih vrijednosti u tokovima podataka je vrlo važno istraživačko područje za mnoge industrijske primjene jer se nadgledanjem senzorskih tokova podataka u stvarnom vremenu mogu na vrijeme prepoznati neispravnosti te spriječiti veće štete pravovremenim reagiranjem na njih. U okviru ovog istraživačkog područja, istraživat će se metode za otkrivanje anomalija i stršećih vrijednosti u tokovima podataka s posebnim naglaskom na skalabilnost njihove primjene u raspodijeljenom okruženju računalnog grozda. 

Otkrivanje znanja u tokovima podataka 

Važan element obrade velikih količina podataka postaje potreba za uključivanjem eksplorativne i prediktivne analitike tokova podataka pomoću statističkih i vizualizacijskih metoda te tehnika strojnog učenja (engl. machine learning). Prognoziranje korištenjem tokova podataka u stvarnom vremenu je velik znanstveni izazov zbog složenosti algoritama koji se trebaju učinkovito izvoditi na ograničenim računalnim resursima. Fenomeni obrade tokova velikih skupova podataka i strojnog učenja posljednjih su godina dodatno potaknuti razvojem velikog broja rješenja otvorenog koda, od kojih se među najpoznatije ubrajaju projekti organizacije Apache (Hadoop, Spark, Kafka, Flink, Cassandra itd.) te sve bogatija baza programskih knjižica za besplatna razvojna programska okruženja s bogatom podrškom za statističku obradu podataka i strojno učenje (Python, R). U okviru ovog istraživačkog područja razvit će se rješenja za eksplorativnu i prediktivnu analizu tokova podataka te implementirati prediktivni modeli za prognozu vremenskih serija unutar tokova podataka. Pri tome će se posebna pozornost posvetiti razvoju skalabilnih raspodijeljenih rješenja za analizu i prognozu u računalnom grozdu. 

Ažuriranje modela za strojno učenje analiziranjem tokova podataka u stvarnom vremenu 

U praksi se učenje modela radi periodički na osnovu povijesnih podataka. Primjer su sustavi za preporučivanje objekata koji za otkrivanje korisniku zanimljivih objekata koriste metode filtriranja temeljenog na suradnji (engl. collaborative filtering). Kod ovih metoda se modeli ažuriraju jednom ili najviše nekoliko puta dnevno, a mogli bi biti ažurirani u stvarnom vremenu kad bi se za tu svrhu obrađivali tokovi podataka s korisničkim akcijama. Postizanje ažuriranja modela u stvarnom vremenu predstavlja znanstveni izazov zbog vremenske i prostorne složenosti metoda filtriranja temeljenih na suradnji. Pri tome će se zadovoljavajuće performanse takvog rješenja moći dostići tek korištenjem raspodijeljene obrade ulaznih tokova podataka. U okviru ovog istraživačkog područja istraživat će se odgovarajuće metode za ažuriranje modela za strojno učenje u stvarnom vremenu koje će se temeljiti na raspodijeljenoj obradi ulaznih tokova podataka. Pri razvoju ovih metoda će se posebna pozornost obratiti na skalabilnost rješenja u računalnom grozdu. 

Obrada semantičkih tokova podataka 

Mnogi izvori tokova podataka proizvode podatkovne objekte u obliku trojki subjekt-predikat-objekt u skladu sa specifikacijom RDF (engl. Resource Description Framework). Primjer su izvori senzorskih podataka koji često senzorska očitanja objavljuju u obliku RDF trojki koje se referiraju na odgovarajuću ontologiju. Obrada takvih semantičkih tokova podataka, koji se još nazivaju i RDF tokovi podataka, je vrlo specifična i znatno drugačija od običnih tokova podataka jer je za otkrivanje znanja u semantičkim tokovima podataka potrebno koristiti posebne semantičke rasuđivače (engl. reasoners). Kako su postojeći semantički rasuđivači prvenstveno namijenjeni obradi statičnih podataka, potrebno ih je prilagoditi za rad s dinamičnim podacima tj. semantičkim tokovima podataka. Ovo je vrlo složen problem za trenutne rasuđivače koji imaju veliku vremensku složenost rasuđivanja čak i za statične podatke. Zbog toga je nedavno pokrenuto cijelo novo istraživačko područje vezano uz rasuđivanje nad semantičkim tokovima podataka. U okviru ovog istraživačkog područja istraživat će se metode za obradu semantičkih tokova podataka s posebnim naglaskom na mogućnost raspodijeljene obrade u računalnom grozdu.