Hírek

Egyéb hírek - 2018. január 8, hétfő

„Ez egy olyan szövegbányászati eszköz, amit a hallgató egyszerűen használhat”

Kifejezetten orvostanhallgatóknak fejlesztették egyetemi innovációs projekt keretében azt a webes alkalmazást, ami valójában egy speciális adatfeldolgozó szoftver. Az orvostudományok területén leggyakrabban alkalmazott MedLine adatbázishoz - közismertebb nevén a Pubmed-hez - fér hozzá közvetlenül, és valós időben képes feldolgozni kulcsszavas keresés alapján a szakirodalmat úgy, hogy a szoftver elolvassa az adott téma absztraktjait. Az eredményeket könnyen emészthető formában tálalja, és felfedi a fogalmak, a témák közötti összefüggéseket, majd grafikus formában prezentálja is azokat. A program fejlesztése jelenleg is zajlik, de próbaváltozata már elérhető a Tudásközpont szerveréről, és a gyakorlatban is használható. A fejlesztők célja nemcsak az, hogy az új lehetőséget megismertessék a hallgatókkal, hanem az is, hogy aktívan bevonják őket a további lépésekbe. Hasonló, direkt hallgatókat célzó alkalmazás egyelőre sem a hazai, sem a külföldi egyetemeken nem létezik, bár a Pubmed adatbázist széleskörűen használják részletes adatfeldolgozásra mind a kutatócsoportok, mind pedig a magáncégek.  A programot dr. Feldmann Ádám, a Magatartástudományi Intézet adjunktusa, a Szentágothai Kutatóintézet Big Data Kutatócsoportjának tagja mutatta be. A beszélgetésen jelen volt Orosz Dániel innovációs menedzser is, a Pécsi Tudományegyetem Kancelláriájának Kutatáshasznosítási és Technológia-transzfer Osztályáról.

 

Schweier Rita írása

 

-Beszéljünk először a kutatócsoportjukról, pontosan mivel foglalkoznak?

-Szöveg-és adatelemzési algoritmusokkal. Nemcsak az orvoskaron tesszük ezt, hanem a KTK-n és a Szociológiai Intézetben is egy interdiszciplináris kutatócsoportban, ami a Szentágothai Kutatóközpont Big Data Klaszterén belül helyezkedik el. Duo-Mining kutatócsoportnak hívjuk magunkat, mert egyszerre alkalmazunk klasszikus adatelemzést és szövegbányászati megoldásokat is a munkánk során. Tagjaink között van matematikus, informatikus, szociológus, pszichológus, és az utóbbi időben több TDK-hallgatót is sikerült bevonni a közös munkába. Az elmúlt évben két adatfeldolgozáshoz köthető újítást is beadtunk az egyetemen, amiket befogadott az Innovációs Bizottság, az egyik, amiről most beszélünk, a másik, a MedMiner alkalmazás pedig tesztállapotban van, de már kipróbálható. 

-Tudományos pályája során Ön miért épp a szöveganalízis irányába fordult?

-Engem mindig is érdekelt az adatelemzés, a statisztikai gondolkodásmód, a számítógépes adatfeldolgozás. Azt kevesen tudják, hogy a kísérleti pszichológiában alapkövetelmény a felhasználói ismereteken túl a számítógépes programozás legalább alapszintű  ismerete, valamint a biztos statisztikai és módszertani tudás.

-Miként nyert aktualitást ez az új program?

-Mindennapi munkám során gyakran kell különböző anyagokat keresgélnem az interneten speciális tudományos adatbázisokban, és ehhez a legkézenfekvőbb forrás a medicina területén a PubMed adatbázisa. Amikor keresőszavakat, kulcsszó kombinációkat alkalmazunk szűrési feltételként, akkor rengeteg releváns eredmény jelenik meg, de gyakran túl sok az információ és további szelektálásra, pontosításra van szükség. Ezt a jelenséget mindenki jól ismeri, aki végzett már ilyen jellegű munkát. Mi úgy szeretnénk megragadni a releváns információt, hogy intuitíven szörfözni lehessen az adatok között, és ne csak az indexelt listák tengerét lássuk magunk előtt. Készítettünk ezért egy olyan programot, amellyel egy API-n keresztül hozzáférünk a PubMed-hez. Az innen letölthető adatok nem mindig publikusak, de mi kizárólag az absztraktokra fókuszálunk, mert ahhoz mindenki hozzáférhet. Az absztrakt egy kb. 150 szavas kivonat, ami röviden tartalmazza a vizsgálat célját, módszertanát, eredményeit, valamint a konklúziókat a szerzői és intézményi megjelölés mellett. A PubMed-en keresztül érhető el a teljes orvosi szakirodalmi adatbázis. Van egy magas szintű programnyelv, az „R”, ebben készítettük el a MedMiner elnevezésű programunkat, ami a MedLine Miner-nek a rövidítése. Ez egy nagyon egyszerű, dashboard alapú grafikus felület. A dashboard alapú megjelenítés összetett információkat jelenít meg vizuális formában, amiről gyakran egy laikus is le tudja olvasni az összefüggéseket. A programunk kezelőfelületén beírjuk a keresett kifejezéseket és egyéb feltételeket - mint dátum, szerzők nevei - , ezután pedig meg tudjuk jelölni, hogy a program hány absztraktot olvasson el, és mekkora időintervallumban keresse azokat. Miután mindezt meghatároztuk, egy gombnyomás után le is tölti a talált absztraktokat az API segítségével. A következő lépésben egy NLP (natural language processing) modul mindezt átolvassa és feldolgozza: kiveszi belőle a stop szavakat, a névelőket, a mondatjeleket, az üres karaktereket, amik nem szorosan a témához kapcsolódnak. Ez az előszűrés nagyon gyorsan lezajlik, majd következik a lényeg: megnézi, hogy az absztraktokban mely szavak, milyen gyakran és milyen összefüggésben fordulnak elő. Minden absztrakt egy dokumentum, amihez tartozik egy táblázat is, ami jelöli, hogy a dokumentumban milyen szavak vannak, és ezeknek milyen az előfordulása. Mivel ezt az összes dokumentumnál elkészíti, ezért egy hatalmas táblázat kerekedik belőle. Ennek a vizualizációjára találtunk ki egy olyan felületet, ami nagyon egyszerű, és a mindenki által ismert szófelhőn alapul. Minél gyakoribb egy szó, annál nagyobb méretben jelenik meg a felhőben, vagy épp bedől, más betűformát, aláhúzást kap / közben mutatja a képernyőn a szóhalmazt, kisebb-nagyobb méretű és vastagságú szavakkal, betűtípusokkal /.

Még egy újítás van ebben, mégpedig az, hogy interaktív. Ha rákattintunk egy kifejezésre – amit az absztraktok nyomán ad ki a gép –, akkor egy másik oldalon megjelenik a szó kapcsolati hálója, ami azt tükrözi, hogy mely kifejezésekkel van a szó összefüggésben, és ezek az összefüggések mennyire erősek. Ha szoros a kapcsolat, akkor az összekötő élek vastagok. Azt gondoljuk, hogy ez már önmagában is informatív lehet egy hallgatónak, ám ennek hatékonyságát tesztelni is szeretnénk.  Arra vagyunk kíváncsiak, hogy mennyire tudják ezt a tanulásban használni, valamint azt is, hogy ez a jegyzet nélküli információnyerési módszer miként épülhet be a mindennapjaikba. Ez a program már most is elérhető a Tudásközpont szervereiről. A központtal szoros együttműködésben dolgozunk a projekt során.

-Mikor kezdték el a fejlesztését?

-2015 májusától futó fejlesztés ez, és most jutott el oda, hogy egy „béta-tesztet” lehet készíteni, azaz  kipróbálásra a hallgatók megnézhetik, és egy készülő kérdőív alapján majd véleményezhetik is. Az a célunk, hogy ők, maguk mondják meg, milyen eszközre van szükségük, és ne mi találjuk ki nekik. A saját hallgatói csoportjaim, valamint az ismerőseim visszajelzései alapján hasznos ez az eljárás, bár még vannak gyermekbetegségei. Ezek orvoslására várjuk a hallgatók elgondolásait.

-Tegyük még szemléletesebbé - a gyakorlat oldaláról közelítve -, mit is jelent ez a program. Írjunk be egy kulcsszót a keresőbe.

-Legyen ez a kulcsszó a jól kipróbált depresszió. Beállítom, hogy az utolsó 500 absztraktot töltse le nekem. Itt van egy „date range” - amit most még nem tudunk állítani, de hamarosan már igen -, majd nyomunk egy update-et. Találunk egy frompubmed gombot, amit ha megnyomunk, lent látunk egy kis „progress bart”-t, ami jelzi, hogy készül a releváns szófelhő az absztraktokból. Itt kezdi letölteni az 500 absztraktot. Ha eltűnik a „progress bar”, az azt jelenti, hogy le is töltötte, fel is dolgozta, és el is készítette a táblázatot. A lényeg most következik, mert vannak alapbeállítások, mint például a minimum szófrekvencia: azaz csak olyan szavak vannak a szófelhőben, amelyek már legalább hússzor előfordultak az absztraktokban. Ezt természetesen lehet tovább is szigorítani, és a maximum szószámot is be lehet állítani a szófelhőben, hogy ne legyen se túl zsúfolt, se túl ritka.

Ha valaki nem ismeri a depresszió orvosi szakirodalmát, és elkezdi használni ezt a programot, akkor láthatja a felhő közepén, hatalmas méretben a depresszió szót. A másik kifejezés a patient, aztán vastag betűs a healt, a treatment, és az anxiety is. A depresszió a szorongással gyakran együtt jár, ez tehát már egy plusz információ. Látható, hogy kapcsolatban van az alvással és a stresszel is. Kattintsunk most rá a szorongásra. Kidobott egy kapcsolati hálót, és azt mondja, hogy ebben az utolsó 500 absztraktban a szorongás 428 alkalommal fordult elő.

Ha a gombbal egyenként visszalépkedek, akkor láthatom, hogy mely kifejezések képezik a legerősebb kapcsolatot a depresszióval. Ebből az is kiviláglik, hogy milyen új kulcsszavakat kereshetünk a depresszió mögé, hogy még jobban megismerjük – és ez újabb ösvények felé vezet a keresésben.

Bonyolíthatjuk a keresést azzal, ha a depresszió mellé beírjuk, hogy funkcionális MRI. Ezáltal célzott információkat is nyerhetünk. Itt az 500 képalkotós cikknél kirakja azokat az agykérgi, és kéreg alatti struktúrákat, amikhez a depresszió kapcsolódik. A kulcsszavak között megjelent a cortex kifejezés is, amire ha rámegyek, látom, hogy az fMRI-s cikkekben 384-szer fordult elő. Nézzük a területeket: van ilyen, hogy prefrontális, mediális prefrontális, dorzális rész, aztán a szerotoninerg, a pregenuális, valamint a dorsolaterális régiók jelennek meg kifejezésekként a képernyőn, tehát célirányosan, a második-harmadik lépésben további információkat lehet szerezni. A továbbfejlesztés során alul - azon a részen, ami jelenleg még üres, és az info tábla alatt van - olyan cikkek lesznek láthatóak, amelyek a konkrét klikkelés után tallonban maradtak az 500 absztraktból.

A tesztverziókban már több minden működik annál, mint amit itt most láthatunk. Ebben már lehetőség van az úgynevezett „topik elemzéses eljárást” is alkalmazni. Példának hozzunk egy fiktív  online újságot, ahol az összes téma 70 százaléka belpolitika, 10 százaléka külpolitika, a fennmaradó részt pedig a sport, a kultúra és a reklám adja. Azaz nagyjából 5-6 topicba lehet csoportosítani a témákat. Ez azt jelenti, hogy bármilyen cikket „ki lehet keverni” ezekből a témákból. Visszafelé gondolkodással tehát kinyerhetjük ezeket a topicokat anélkül, hogy tudnánk, pontosan mik azok. Ezek statisztikai eljárások, amiket az utóbbi húsz évben fejlesztettek ki. Ugyanígy a tudományos absztraktokat is lehet téma szerint csoportosítani, súlyozni, fontossági sorrendeket felállítani köztük. Azt is szeretnénk elérni a fejlesztéssel, hogy a hallgatóknak ajánlót tudjunk nyújtani azzal kapcsolatosan, mely cikkeket érdemes elolvasniuk az általuk választott témában.

Következő fejlesztési irányként a szerzőket és a kulcsszavakat kapcsoljuk össze. Létezik egy új gépi tanulási modell, amit a Google fejlesztett ki, ez a „beillesztett szómodell.” Ez a szavak jelentésalapú  környezetét vizsgálja, a szóhoz tartozó „holdudvart”, az egymással kapcsolatban álló legjellemzőbb kifejezéseket, és ugyancsak útvonalakat, hálózatokat lehet általa megtalálni. Minden fentebb említett eljárás más-más aspektusát fedi fel a vizsgált szövegeknek.

-Oktatóként és fejlesztőként Ön miben látja ennek gyakorlati hasznát?

-Elsősorban abban, hogy a hallgató a releváns információkat kaphatja meg. Szakértőként kevésbé tudom használni, mivel nekem a fejemben megvannak azok a összefüggések, amiket kirajzolna ez a rendszer. Ha azonban időszakos áttekintésre van szükségem, vagy általam nem ismert kapcsolatok, sémák után kutatok, akkor már hasznos lehet. Ha például úgy állítom be a programot, hogy az összes absztraktot olvassa el egy adott tudományterületen - ez akár több százezer is lehet -, akkor biztosan lesznek olyan új ismeretek, akár új tudományos eredmények is, amelyekről addig nem volt tudomásom sem nekem, sem pedig másnak.

A jegyzethez képest ennek az is előnye, hogy több év távlatából látszik, hogy adott tudományos álláspont, vagy a különböző kifejezések jelentése miként változott. Nem beszélve a széles körű nemzetközi kitekintésről, és a végtelen terjedelemről. Az volt a célunk, hogy olyan szövegbányászati eszközt adjunk, ami nagyon egyszerűen használható. Az itt végrehajtandó lépések mindegyike ismerős a hallgatóknak. Intuitíve látható az is, hogy ha ráklikkelünk egy szófelhőre, melyik kifejezés emelkedik ki. Egy egyszerűbb hálózati kapcsolat értelmezésére bárki képes, bármilyen előképzettség nélkül is.

Ez a program egy diszkurzív oktatást is lehetővé tesz, órákon is használható, aktív, interaktív, és a felfedező tanulás lehetőségét adja meg. Emellett az előzetes ismeretek meglétét, a tanulás felügyeltségét is biztosítani lehet úgy, hogy különböző alprojekteket helyezünk el a programba,  különböző orvostudományi területeket - mint például sebészet, belgyógyászat -, továbbá ezek alterületeit, betegségek, vagy egyéb témakörök szerint lebontva. Ezek előzetesen összegyűjthetőek, az absztraktok letölthetőek, és az azokban található útvonalakat az adott szakterület szakemberei ellenőrizhetik. Jelenleg egy olyan elemzésen dolgozunk, amelynek részeként több százezer absztraktot összegyűjtünk, és egy speciális szövegosztályozó eljárás segítségével - ezek a szemétgyűjtő topicok - ki lehet szűrni azokat a kifejezéseket, amik nem használhatóak. Ezzel a metódussal elősegítjük azt, hogy még pontosabb eredményekhez jussunk.

 

A beszélgetésen jelen van Orosz Dániel is, aki innovációs menedzserként dolgozik a Pécsi Tudományegyetem Kancelláriáján, a Kutatáshasznosítási és Technológia-transzfer Osztályon. Az osztály feladata az egyetem kutatási eredményeinek hasznosítása, a technológia transzfere. Ennek kapcsán jogi segítséget nyújtanak és üzleti tanácsokkal is szolgálnak, a piac igényeinek ismeretében.

 

-Miként kerülhetnek Önökkel kapcsolatba a kutatók?

-Többféleképpen, de a legegyszerűbben a honlapunkon keresztül – innovacio.pte.hu -, vagy az osztályunk által szervezett Egyetemi Innovációs Napon, melynek keretében idén először Innovációs Díjra is pályázhattak a kutatók és a hallgatók. Emellett meghirdettünk egy belső innovációs pályázatot is, amelyen bruttó másfél millió forintos támogatást nyerhettek az egyetem alkalmazásában álló kutatók és oktatók kutatási projektjeik fejlesztéséhez, illetve a hasznosítás elősegítéséhez. Ez a legtöbb kutatás esetében természetesen csak csepp a tengerben, de arra elég, hogy „A-ból legalább Á-ba” léphessenek.

A kapcsolatfelvétel azonban csak az első lépés a hat fázisból álló egyetemi technológia-transzfer folyamatban. Amint ez megtörténik, elindul egy előértékelési folyamat két szempont szerint: egyik a jogi-iparvédelmi, a másik az üzleti, ugyanis érdemes már a kezdetekben piaci fókusszal működni, hogy a versenyelőny a folyamat végén kimutatható legyen. A fejlesztés és a forrásszerzés párhuzamosan fut, ezen közösen dolgozunk és gondolkozunk a kutatókkal, mígnem a folyamat eljut az Innovációs Bizottság elé, ami dönt arról, hogy befogadja-e a kutatást az „egyetemi szellemi termék” portfólióba. A bizottság elnöke a tudományos és innovációs rektorhelyettes, tagjai pedig a karokról és a kancelláriáról kerülnek ki. Az iparjogvédelmi procedúra akkor indul el, ha a bizottság befogadta a fejlesztést. Ekkor már a költségeket is az egyetem állja, ami nagy könnyebbséget jelent a kutatóknak, és a hasznosításhoz szükséges üzleti tárgyalások lebonyolításában is aktív segítséget nyújtunk.

-Ennél a projektnél hol tart az együttműködés?

-Az Innovációs Bizottság befogadta a fejlesztést, jelenleg keressük a magyar és a nemzetközi partnereket. Fő célunk, hogy kikerüljön az egyetem falai közül a fejlesztés, és értékesíthető termékké váljon.

-Milyen szempontrendszer alapján dönt a fejlesztés befogadásáról az Innovációs Bizottság?

-A kutatóval való kapcsolatfelvétel után a Kutatáshasznosítási és Technológia-transzfer Osztályról kijelölt két szakember - egy jogász és egy közgazdász menedzser – elkezd egyeztetni a kutatási projektről. Ezt követően a kutatóval közösen bejelentik a kutatási eredményt az egyetemi Szellemi Termék Adminisztrációs Rendszerbe, és elkészítik a szellemi termék előértékelését három fő szempont - jogi, piaci, egyetemi – szerint. Ezután kerül az értékelés a két szakértő javaslatával a bizottság elé, ahol a feltaláló is ismerteti egy prezentáció keretében szellemi termékét.

Ennél a projektnél a hasznosítási és az egyetemi szempont nagyon erősen megjelent, hisz az orvostudományi kar vonzza a legtöbb hallgatót. Stratégiai cél az ötezer fős külföldi hallgatói létszám elérése és ahhoz, hogy ez sikerüljön, magasabb szintű infrastruktúrára és oktatásra is szükség van. Utóbbinak fontos részét képezheti ez a belső szolgáltatás is, hisz a szakirodalom kutatása kifejezetten nehéz feladata a diákoknak. Nagy potenciálja még a projektnek, hogy új kutatási irányok kijelöléséhez is hozzájárulhat, akár más tudományterületeken is.

-Ádám említette, hogy ennek a programnak már jelenleg is létezik konkrét üzleti alkalmazási lehetősége.

-A Big Data kutatócsoportba szeretnénk partnercégeket is bevonni. Az egyetem céljaihoz hasonlóan mi is azt szeretnénk, hogy legyen egy együttműködő bázis körülöttünk. Ez azért is fontos, mert az eszközöket és a szakembereket is könnyebb együtt összegyűjteni. Partnerei vagyunk a kaposvári  Precognox Informatikai Kft.-nek, akik fejlett szövegelemzési eljárásokat használnak. Ők középvállalkozók ugyan, de hatalmas kutatásfejlesztési potenciált üzemeltetnek. Jó kapcsolatban vagyunk továbbá a Közgazdaságtudományi Karon működő Simonyi Business and Economic Development Center-rel (BEDC) is, ami egy vállalkozásfejlesztéssel foglalkozó csoport. Velük egy közös startupban is gondolkodunk, aminek fókuszában a konferenciák állnak. A konferenciák a PubMeden nem jelennek meg, ellenben az absztraktok igen, mégpedig kötetekben, jelenleg pdf-formátumban. Azt szeretnénk a jövőben elérni, hogy ha valaki elmegy egy konferenciára, ahol 8-10 ezer ember van jelen, a programunk segítségével könnyen el tudjon igazodni a poszterek és az előadások között. Üzleti haszon is van ebben, hisz célzott reklámok elhelyezésére is mód nyílik majd.

Hírarchívum