Uporedna analiza metoda za kategorizaciju teksta

  • Ana Bojanić Bravo Systems d.o.o. Banja Luka, RS, BiH / Elektrotehnički fakultet, Univerzitet u Banjoj Luci, RS, BiH
  • Zoran Đurić Elektrotehnički fakultet, Univerzitet u Banjoj Luci, RS, BiH
Кључне речи: Kategorizacija teksta, Nadgledano i nenadgledano mašinsko učenje, Mašinsko razumijevanje prirodnih jezika

Сажетак

Kategorizacija tekstualnih dokumenata upotrebom metoda mašinskog učenja postala je jedna od osnovnih tehnika ekstrakcije i sumarizacije korisnih informacija sadržanih u njima. U radu je opisan proces pripreme tekstualnih dokumenata i analizirani su pristupi nadgledanog i nenadgledanog mašinskog učenja za njihovu kategorizaciju. Evaluirano je pet algoritama na pet standardnih skupova podataka za kategorizaciju teksta. Za većinu posmatranih algoritama, na svim skupovima podataka, preciznost i odziv se kreću u rasponu 70-90%. U pogledu predefinisanih metrika, algoritmi nadgledanog učenja pokazuju bolje rezultate na četiri skupa podataka, dok pristup nenadgledanog učenja daje bolje rezultate na jednom skupu podataka. U radu je naglašena i osnovna prednost pristupa nenadgledanog učenja u odnosu na algoritme nadgledanog učenja i dati su neki od mogućih prijedloga za dalja istraživanja u ovoj oblasti.

Биографије аутора

##submission.authorWithAffiliation##

dipl. ing.

##submission.authorWithAffiliation##

prof. dr

Објављено
2021-07-01
Bрој часописа
Секција
Информационе технологије