Автоматическая классификация текстов

Алек­сандр Пипер­ски
доцент Российского государственного гуманитарного университета, научный сотрудник Высшей школы экономики (Москва)

Главное, Минск, Эксклюзив, Деньги и власть, Общество, В мире — такие категории новостей можно найти на одном известном информационном портале. А как понять про произвольно взятый текст, куда он относится? Можно, конечно, посадить специально обученного человека, который понимает, чем Эксклюзив отличается от Минска, но что если доверить ту же работу машине?

Или, например, Входящие и Спам — по крайней мере две такие папки есть у каждого из нас в почте. В какую папку положить вновь пришедшее письмо и как компьютер это решает?

А один известный автоматический переводчик умеет автоматически определять язык: вот, например, про текст этого анонса он сразу понял, что это по-русски. Перед нами та же задача классификации — взять текст и положить его в одну из корзин: Русский, Белорусский, Английский, Итальянский и так далее.

На лекции мы обсудим, в каком виде надо представлять тексты, чтобы компьютер мог их классифицировать, насколько хорошо это получается и как оценивать качество его работы. И даже математика будет не очень страшная!

Пока не указано иное, содержимое этой страницы распространяется по лицензии Creative Commons Attribution-ShareAlike 3.0 License