Uporedna analiza metoda za kategorizaciju teksta
Сажетак
Kategorizacija tekstualnih dokumenata upotrebom metoda mašinskog učenja postala je jedna od osnovnih tehnika ekstrakcije i sumarizacije korisnih informacija sadržanih u njima. U radu je opisan proces pripreme tekstualnih dokumenata i analizirani su pristupi nadgledanog i nenadgledanog mašinskog učenja za njihovu kategorizaciju. Evaluirano je pet algoritama na pet standardnih skupova podataka za kategorizaciju teksta. Za većinu posmatranih algoritama, na svim skupovima podataka, preciznost i odziv se kreću u rasponu 70-90%. U pogledu predefinisanih metrika, algoritmi nadgledanog učenja pokazuju bolje rezultate na četiri skupa podataka, dok pristup nenadgledanog učenja daje bolje rezultate na jednom skupu podataka. U radu je naglašena i osnovna prednost pristupa nenadgledanog učenja u odnosu na algoritme nadgledanog učenja i dati su neki od mogućih prijedloga za dalja istraživanja u ovoj oblasti.