Mindenki karrierjében vannak olyan projektek, amelyek igazán meghatározók: nagy kihívások, nagy felelősség, és még nagyobb energiabefektetés. Ezekből lehet viszont igazán tanulni – főleg akkor, ha valaki olyan munkát végzett, ahol az ország valamennyi felsőoktatásban végzett hallgatójának adatait kellett átlátnia, értelmeznie és döntések számára érthetővé tennie.
A Cubixnál továbbra is azt tartjuk küldetésünknek, hogy a képzések mellett valódi szakmai tapasztalatokat és gondolkodásmódokat is megosszunk. Esettanulmány-sorozatunk ebben segít: oktatóink saját kutatásaikon, projektjeiken és elemzéseiken keresztül mutatják be, hogyan működik a data science a gyakorlatban – intézményi szinten, valódi hatással.
Sorozatunk következő részében Girasek Edmond, a SOTE docense és Alkalmazott statisztika oktatónk hoz izgalmas betekintést abba, hogyan épül fel egy országos szintű diplomás pályakövetési rendszer, hogyan lehet több forrásból származó adminisztratív adatokat biztonságosan összekapcsolni, és hogyan válik a nyers adatból olyan döntéstámogató eszköz, amelyet vezetők, oktatók és jövőbeli hallgatók is értenek és használni tudnak.
A kiindulási helyzet: hogyan születik meg egy országos pályakövetési rendszer igénye?
Kezdetektől éveken át voltam az egyik vezető magyarországi egyetem diplomás pályakövetési rendszerének szakmai vezetője, és ehhez kapcsolódik az alábbi esettanulmány. A felsőoktatási szereplők számára különösen fontos a felsőoktatási kibocsátásának mérése, és ennek egyik eszköze a diplomás pályakövetés. Itt látható, hogy a végzett a hallgatók hol és hogyan helyezkedtek el a munkaerőpiacon, egyáltalán hogyan alakult az életük az egyetem elvégzése után.
Nyilván az egyetem számára ez egy fontos minőségbiztosítási kérdés, mert látható, mennyire válnak be végzett hallgatók a munkaerőpiacon. De ez természetesen nemcsak az intézmények számára fontos, hanem az intézmény fenntartójának, sőt a jövőbeli hallgatóknak is, mivel ez fontos információ lehet akár pálya, akár intézmény választáskor. Ebből látható, hogy kiemelten fontos, hogy legyen adatunk és az megfelelő módon eljuthasson a „fogyasztókhoz”.
Mit és hogyan mérünk: a diplomás pályakövetés módszertana
Alapvetően kétféleképp mérhetjük a végzett hallgatók munkaerőpiaci helyzetét, kérdőíves vizsgálattal és adminisztratív adatok összekapcsolásával. Nem szeretnék itt most módszertani mélységekbe belemenni.
Adminisztratív adatok összekapcsolása talán megfelelhet a big data kategóriának, itt ugyanis az Oktatási Hivatal, számos társ hatósággal és hivatallal együttműködve, egy anonimizálási eljárás alkalmazásával összekapcsolja az egyes személyekről szóló, különböző forrásból származó adatokat.
Ennek eredményeképpen nem visszakövethető az egyes személyek személyazonossága, viszont mivel minden rendszer pontosan ugyanazt az anonimizálási eljárást haszálja, ezért ezek személy szinten összekapcsolathatóak. Ez egy valóban érdekes és izgalmas data science téma. Különösen azért, mert nemcsak az adatokkal kapcsolatos technikai tudásra van szükség, hanem kulcsfontosságú az adatok értelmezése, kontextusba helyezése.
Technológiai háttér: adatgyűjtés EvaSys-szel és az SPSS szerepe
A kérdőíves vizsgálat megvalósítása során az EvaSys nevű online kérdőíves felmérő szoftvert használtuk, ezt az egyetem egyébként számos más területen is alkalkmazta, oktatói munka hallgatói értékelésére, de vizsgamodulra is volt licence szerződés, így nemcsak kérdőíves felmérésekre, ha vizsgáztatásra is lehetett használni.
Ez egyébként egy olyan megvásárolt szoftver, amely az egyetem saját szerverén fut és nem egy ismeretlen helyen lévő szerveren (felhőben), ami az adatvédelmi előírások miatt fontos szempont volt. A szoftver különlegessége az volt, hogy nemcsak online kérdőíves felmérésre lehet használni, hanem a benne elkészített kérdőívek kinyomtatásával papír alapú felmérést is végezhettünk, ahol a papírra nyomtatott és kézzel kitöltött kérdőívek nagymennyiségű bescannelésével képes volt előállítani az adattáblát, amiből, aztán bármilyen kimenetet vagy elemzést meg lehetett valósítani.
Én nem használtam ezt a funkciót, de az egyetemen számos esetben használták a papír alapú kérdőíves felmérésekre, mert ez jól tudta ötvözni az online kérdőíves felmérés (gyors, nem kell kézzel rögzíteni az adatokat) a papír kérdőívek azon előnyével, hogy papíron az egyes emberek kezébe lehetett adni (akkoriban még az okostelefonok nem voltak ilyen elterjedtek) és ott helyben kitölthette, mindenféle eszköz és internet hozzáférés nélkül.
A kérdőíves vizsgálat adatait egyébként minden esetben SPSS/IBM Statistics szoftverrel dolgoztuk fel, ami egy széles funkcionalitást kínáló statisztikai adatelemző szoftver, rengeteg változótranszformációs eszközzel és egy, illetve többváltozós statisztikai próbákkal. Ezzel végeztem el az egyes változók transzformációját, új változók létrehozását és kezeltem a hiányzó értékeket.

Az adatok előkészítése: anonimizálás, tisztítás, profilozás
A módszertani kitérő és a kérdőíves felmérés után térjünk vissza az felsőoktatási intézményünkhöz. Szóval a kérdőíves vizsgálat mellett az intézmény megkapja az intézményre vonatkozó legfőbb adatokat az Oktatási Hivatal az adminisztratív adatok összekapcsolásából származó adatokat.
A meglévő adatok azonban akkor érnek valamit, ha azokat értelmezzük, használjuk és eljuttatjuk azoknak a döntéshozóknak, akik döntenek az intézmény működéséről. De addig még hosszú út vezet a nyers adatoktól, és itt pont ezt szeretném bemutatni.
Az adatok csv formátumban kaptuk meg, egy módszertani útmutatóval együtt, ahol részletesen le voltak írva az egyes változók jelentése, illetve az adattáblák felépítése, ugyanis ez nem egy, hanem több, jellemzően 3-5 adattáblát tartalmazott. Azért volt szükség több táblára, mert így többféle szempontot is lehetett vizsgálni, viszont így nem sérültek a személyiségi jogok, tehát nem elemi szintú adattáblák voltak ezek, hanem különböző szempontok szerint aggregált táblák.
Az adatok feldolgozása során az első lépés mindig az adatok áttekintése, profilozása, így egyrészt megismerhetjük az adatainkat, másrészt kiderül, ha valami probléma van bizonyos adatokkal, legyen szó akár adathiányról, akár kiugró értékekről. Ezeket az adatok a Microsoft PowerBI eszközével dolgoztuk fel, és ebben történt meg az adatok megismerése, profilozása. Itt az PowerBI-ban az table vizualizációt használtam, ahol az adatok kategóriái mellett az átlag, minimum és maximum értékeket illetve az adatsorok száma is könnyedén megjeleníthető. A profilozása látványosabbá tehető a különböző cellán belüli vizuális megoldásokkal, adatsávokkal (data bar) illetve színekkel.
Elemzések és statisztikai háttér: mikor kell egyszerű és mikor összetett módszer?
Ha ismerjük az adatokat, akkor két irányba kell továbbmenni. Egyrészt el kell végezni a szükséges egyszerűbb és komplexebb elemzéseket, bár jellemzően nem a komplex, többváltozós elemzések azok, amelyek igazán érdekes az egyes célcsoportok számára, hanem az egyszerű könnyen értelmezhető és következtetéseket megalapozó eredmény. Komplexebb többváltozós elemzések elvégzésre nem a PowerBI a megfelelő eszköz, arra a célra a korábban már említett SPSS/IBM Statistics szoftvert használom.
Itt azonban nem komplex statisztikai modellekre volt szükség, hanem jó adatvizualizációra, és könnyű szűrési opciókra, hogy mindig könnyen elő lehessen állítani az éppen szükséges adatokat. Éppen ezért fontos jól összeállítani egy PowerBI riportot, ugyanis ha jól át van gondolva, akkor a szűrők alkalmazásával szinte minden felmerül kérdést meg tudunk válaszolni.
Hogyan jut el az adat a döntéshozókhoz: értelmezés, kommunikáció, intézményi felhasználás
Fontos azonban, hogy önmagában egy-egy jó eredmény még kevés, azt jól át is kell adni, itt pedig lehet szó adatvizualizációról, szöveges elemzésről, vagy akár interaktív riportról, ehhez pedig kiváló eszköz a PowerBI. Hasonló projektek esetén kulcsfontosságú a megfelelő kommunikáció, azonosítanunk kell azt a néhány kulcsüzenetet, amelyet az adott célcsoportnak át szeretnénk adni, ez pedig természetesen különböző lehet, ugyanis más érdekel egy egyetemi vezetőt, egy oktatót és egy jövőbeni hallgatót.
Ezért szakmai vezetőként feladatom nemcsak az adatgyűjtés és az adatok előkészítése, elemzése volt, hanem az eredmények megfelelő kommunikációja is. Ehhez pedig az adatok mellett ismerni kellett az intézmény működését, a felsőoktatási ágazat sajátosságait, és természetesen az egyes célcsoportok igényeit, érdeklődését is.
Ennek keretében tehát számos dokumentum, prezentáció született, de ami leginkább működött, az az egyetemi szereplők számára készült interaktív PowerBI riport, ahol a felhasználók saját érdeklődésüknek megfelelően szűrhették az adatokat, és dinamikus módon megjelent az őket érdeklő adat. Ebből egyrészt minden esetben elő lehetett állítani egy-egy olyan ábrát, amit bárhol fel lehetett használni (például prezentációban), illetve olyan riportokat, ahol a felhasználó az adatok és a szoftver mélyebb ismerete nélkül is meg tudja válaszolni a felmerülő kérdéseket, ami egyrészt jobb adatélményt, másrészt gyorsabb válaszokat jelent, mivel nem kell megvárni még az elemző elvégzi a szükséges elemzéseket, esetleg előállítja a szükséges ábrákat, táblákat.
Ezen felül természetesen számos további célra felhasználásra kerültek ezek az eredmények, egyetemi marketing anyagokban, felsőoktatási rangsorokban való adatszolgáltatásként stb. Ezek megválaszolásához mindig az adott kérdéshez, igényhez illeszkedő megoldást választottam, ha nem volt szükség adatvizualizációra, akkor nekem a régebbre vissznyúló tapasztalataim és a korábbról meglévő kódok, scriptek miatt az SPSS/IBM Statistics jobban kézre áll, ha viszont ha az adatok vizuális megjelenítésére volt szükség akkor minden esetben a PowerBI volt a jobb választás.
Ebben a témában egyébként az Oktatási Hivatal által készített nyilvánosan elérhető interaktív PowerBI riportok, amelyek elérhetőek a www.diplomantul.hu weboldalon, ahol a különböző témák és célcsoportok szerint, ezeket érdemes megnézni, itt is látszik, hogy bár nem intézményi, hanem országos szinten, de mi mindenre felhasználhatóak ezek az adatok.
Néha elfelejtjük, mennyire izgalmas gyakorlati alkalmazási módjai is vannak az adatelemzésnek és statisztikának. Ha tetszett az esettanulmány, és úgy érzed, munkád során hasznos lenne hasonló adatfeldolgozásokat végezni, nézd meg Edmond Alkalmazott statisztika Data Science-ben kurzusát!