Учесталост малих и великих слова, биграма и триграма у српском језику

  • Вукашин Бабић Факултет организационих Наука, Универзитет у Београду
Кључне речи: Српски језик, учесталост слова, фреквенција биграма, фреквенција триграма, ћирилично писмо, анализа текста

Сажетак

Ова студија представља свеобухватну анализу учесталости слова, биграма и триграма у српском језику ћириличним писмом. Користећи корпус од приближно 4 милиона карактера из различитих књижевних дела, новина и онлајн енциклопедије, израчунали смо учесталост великих и малих слова, као и биграма и триграма. Наши налази откривају различите обрасце у српском језику, укључујући распрострањеност одређених слова и словних комбинација. Ови резултати су у великој мери усклађени са претходним студијама о српском и хрватском језику, уз извесне варијације због дијалекатских разлика. Ово истраживање даје значајне податке за примену у криптографији, обради природног језика и лингвистичким студијама специфичним за српски језик.

Објављено
2025-02-25
Секција
Информациони системи