Kako machine learning i deep learning mogu spriječiti osipanje studenata na državnim univerzitetima u BiH  

Upotrebom alata machine (ML) i deep learninga (DL) se može smanjiti napuštanje studija na državnim univerzitetima u BiH. Zašto je ovo važno? Udio visokoobrazovanih u BiH je oko 15% (2022) radno sposobnog stanovništva, što je daleko ispod EU cilja od 40% (koji je trebao biti ostvaren do 2020). Podizanjem učešća visokoobrazovanog stanovništva, dokazano se povećava nivo BDPa, investicija, zatim generiše više radnih mjesta, privreda postaje konkurentnija, a nivo kvaliteta života se popravlja. Zanimljivo je i da se nivo troškova zdravstva smanjuje, kao i nivo kriminalnih stopa. 

Mi smo željeli pokazati da implementacijom modela ML i DL možemo predvidjeti da li će, kada i iz kojih razloga student trajno napustiti studij, kako bi se alarmirao menadžment fakulteta/univerziteta i na vrijeme uticao, tamo gdje je to moguće.  Zanimalo nas je koji su to faktori koji utiču na trajni prekid studija, te kako naši pametni modeli zaključuju ko će napustiti studij, a ko ne. I htjeli smo da sve to vizuelno predstavimo. 

Kako smo to uradili? Na bazi od preko 48.000 studenata Univerziteta u Banjoj Luci, za period od školske 2007/08 do 2018/19 smo, nakon analize, čišćenja i transformacije implementirali modele iz domena mašinskog učenja (stablo odlučivanja, Random forest, Support Vector Machine model) te neuronsku mrežu kako bismo predvidjeli da li će student osnovnih studija napustiti studij. 

Kako je ovo primjer klasičnog nebalansiranog binarnog predviđanja, odnosno studenti koji napuštaju studij su u manjini, modele smo testirali prije i poslije implementacije tehnika za balansiranje te iste testirali različitim ocjenama, odnosno utvrdili koji model je najbolji (confusion matrix, tačnost, preciznost, recall, F1 test, ROC krivom, Kappa testom i Cohen testom), te rangirali modele od najboljeg do najlošijeg u predviđanju napuštanja studija. 

Objašnjenje zaključivanja modela smo prikazali uz pomoć SHAP vizuelizacija. Cijela analiza je implementirana u Pythonu. 


Molim da skupa procijenimo da li prezentacija ide na početnom, srednjem ili naprednom dijelu, jer se mogu prilagoditi, a ne znam gdje ćemo privući više publike. Oni koji su napredni, mogu postavljati pitanja i diskutovati i nakon prezentacije. Takođe, mogu uključiti demonstraciju ukoliko je bolje, ali bih porazgovarala sa nekim od Vas, šta bi bilo najinteresantnije i šta je moguće uraditi uživo.

Data Science  Machine Learning  Case Study  

Početni (100)

Bosanski/Hrvatski/Srpski