Среди пользователей интернета пользуется высокой популярностью использование закладок, которые упрощают доступ к необходимой информации. Закладка – избранная, любимая интернет-ссылка в браузере или выбранное место (позиция) в тексте.
В браузерах Firefox и Opera закладки хранятся в специальном файле и вызываются через меню Закладки (Bookmarks). В Internet Explorer закладки хранятся в виде ярлыков в специальной папке Избранное (Favorites) и вызываются через одноимённое меню.
Такие способы безусловно удобны, если мы оперируем некоторым небольшим количеством ссылок, однако у многих пользователей таких закладок копится очень большое количество, доступ к необходимой информации затрудняется, становится очевидно, что их необходимо упорядочить, а именно классифицировать по категориям. Выбирать вручную к какой категории отнести закладку становится крайне трудоемко, поэтому необходимо автоматизировать этот процесс. В результате выполнения данной дипломной работы получен инструмент, который минимизирует участие пользователя в классифицировании страницы по тематическим категориям.
Не менее важной проблемой могут стать страницы, которые содержат информацию, подходящую под несколько категорий одновременно. Необходимо, чтобы программа отслеживала такие ситуации и предлагала варианты решения. Например, отнести ее к одной из предложенных категорий или к нескольким.
На сегодняшний день сервисы по управлению закладками имеют большую популярность, однако инструмент, классифицирующий закладки, основываясь на встроенный обученный классификатор, еще не используется ни в одном из известных сервисов. Все они основываются на определении категории самими пользователями, что, по сути, относится к ручной классификации, а автоматизация заключается лишь при повторном использовании своих или чужих меток для конкретной страницы.
В ходе выполнения дипломной работы были исследованы различные методы классификации, после чего был выбран метод Фишера, на основе которого был построен классификатор. Необходимым этапом было также изучение сохранения результатов обучения в базе данных и ее дальнейшее взаимодействие с расширением, которое также было создано в рамках дипломной работы.
Не менее трудоемкой частью было осуществление взаимодействия инструментов разработки, а именно, были использованы языки программирования Python и Javascript, база данных SQLite, среда для разработки Mozilla Firefox, инструменты Mozilla – Addon-SDK и cfx.
Дальнейшими возможностями усовершенствования инструмента может быть использование другого метода классификации, например, наивной классификации Байеса, а также увеличение скорости выполнения классификации.