ВВЕДЕНИЕ 4 Глава 1. Теоретические основы фильтрации спама и машинного обучения 8 1.1 Определение и характеристики спама 8 1.2 Методы фильтрации спама 11 1.3 Введение в машинное обучение 16 1.4 Алгоритмы классификации в машинном обучении 21 1.5 Применение машинного обучения для фильтрации спама 29 Глава 2. Разработка системы фильтрации спама с использованием алгоритма машинного обучения 33 2.1 Выбор и обоснование использования конкретного алгоритма машинного обучения для фильтрации спама 33 2.2 Описание процесса обучения алгоритма 38 2.3 Процесс векторизации текста 43 2.4 Определение и настройка параметров алгоритма 46 2.5 Обучение алгоритма на обучающей выборке 48 2.6 Тестирование алгоритма на тестовой выборке 49 2.7 Оценка эффективности алгоритма 50 Глава 3. Анализ результатов и возможности улучшения системы фильтрации спама 52 3.1 Анализ результатов работы алгоритма 52 3.2 Сравнение с другими алгоритмами классификации 54 3.3 Возможные способы улучшения эффективности системы фильтрации спама 55 3.4 Рекомендации по дальнейшему использованию и развитию системы 57 Глава 4 Экономический раздел 65 4.1 Расчет трудоемкости проекта 65 ЗАКЛЮЧЕНИЕ 68 СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 70 ПРИЛОЖЕНИЕ 1 Рис. 1 ПРИЛОЖЕНИЕ 2 Рис. 2 ПРИЛОЖЕНИЕ 3 Табл. 1 ПРИЛОЖЕНИЕ 4 Презентация 14 слайдов ПРИЛОЖЕНИЕ 5 Раздаточный материал 6 листов ПРИЛОЖЕНИЕ 6 Код программы ПРИЛОЖЕНИЕ 7 Датасеты для анализа данных ПРИЛОЖЕНИЕ 8 Видео работы программы

Обнаружение спама с использованием методов машинного обучения

дипломная работа

Программирование

70 страниц

93% уникальность

2023 год

24 просмотров

Глебова И.

Эксперт по предмету «Программирование»

Узнать стоимость консультации

Это бесплатно и займет 1 минуту

Отправляя форму, вы соглашаетесь с офертой, политикой обработки персональных данных и даёте согласие на обработку данных

Оглавление

Введение

Заключение

Список литературы

Тема исследования данной дипломной работы – "Обнаружение спама с использованием методов машинного обучения". Постоянный рост объемов цифровой информации, которой сегодня охвачен мир, привел к существенному увеличению количества спама в электронной почте и других сферах интернет-коммуникации [30]. Проблема спама исключительно актуальна, так как большие объемы нерелевантной информации создают препятствия для эффективного взаимодействия и влияют на качество восприятия контента. Объектом исследования является спам в интернет-коммуникациях. Предмет исследования – методы машинного обучения, применяемые для обнаружения и фильтрации спама. Согласно данным международных исследовательских групп, более 50% всей электронной почты, отправляемой ежедневно, является спамом [29]. Тем не менее, существующие методы фильтрации спама часто оказываются неэффективными, поскольку спамеры постоянно усовершенствуют свои методы и стратегии. Работа будет полезна как с теоретической точки зрения, предоставляя обзор и анализ современных методов машинного обучения, так и с практической – предложением нового подхода к проблеме обнаружения спама, основанного на использовании методов машинного обучения [1].

Если вы не знаете, где заказать контрольную , заходите на сайт Work5 и получите расчет стоимости, заполнив форму.

. Гипотезой данного исследования является предположение, что с использованием методов машинного обучения можно увеличить эффективность обнаружения и фильтрации спама. Целью исследования является разработка и анализ эффективности нового подхода к обнаружению спама с использованием методов машинного обучения. В ходе работы над дипломным проектом будут выполнены следующие задачи: • Изучение теоретических основ, связанных с проблемой спама и применением машинного обучения. Этот этап включает в себя детальное понимание способов и методов распространения спама, а также возможностей и ограничений машинного обучения в контексте борьбы со спамом. • Определение методологии исследования, включая выбор алгоритмов машинного обучения для обнаружения спама. Этот этап предполагает выбор наиболее подходящих алгоритмов и методик, а также определение процедур для их применения и тестирования. • Анализ результатов, полученных в ходе применения выбранных методик и процедур в различных условиях. Здесь будет проведено сравнение эффективности различных методов и алгоритмов, а также оценка их пригодности для решения задачи обнаружения спама. • Обобщение теоретического анализа и выделение ключевых факторов, влияющих на эффективность обнаружения спама. Этот этап включает в себя систематизацию и интерпретацию полученных результатов, выявление общих закономерностей и важных аспектов проблемы Формулирование выводов по результатам практической части исследования, оценка степени достижения цели исследования. На этом этапе будет дана оценка эффективности разработанного подхода и его потенциала для реального применения. • Разработка рекомендаций по внедрению разработанного подхода в практику борьбы со спамом. Этот этап включает в себя определение возможных путей и методов использования полученных результатов, а также оценку их применимости и эффективности в различных условиях [27]. • Непосредственная разработка программного обеспечения для борьбы со спамом, включая все этапы разработки программного обеспечения: от проектирования до тестирования и внедрения [4]. Работа будет основана на использовании Python, в частности, таких библиотек как pandas [24], sklearn, numpy и других. Программа будет включать в себя несколько модулей, включая модуль для загрузки и обработки данных, модуль для обучения и тестирования различных алгоритмов машинного обучения и модуль для анализа результатов. Основные алгоритмы, которые планируется использовать в проекте, включают: Complement Naive Bayes [28], Logistic Regression, Random Forest и разработанный собственный классификатор (MRFClassifier) [15]. Для объединения всех моделей будет использован стекинг классификатор (Stacking Classifier) [7]. Для анализа результатов будут использоваться различные метрики, включая точность (accuracy), полноту (recall), точность (precision), F1-меру и площадь под кривой ошибок (ROC AUC). В ходе работы над проектом планируется проведение серии экспериментов с целью оптимизации параметров алгоритмов и улучшения их производительности. Основой для проведения данного исследования являются работы ведущих ученых в области машинного обучения и обработки текстовых данных, а также современные технологические решения и программные инструменты. Новизна работы заключается в разработке инновационного подхода к обнаружению спама, основанного на использовании современных методов машинного обучения. Этот подход может обеспечить более высокую точность и скорость обнаружения спама по сравнению с традиционными методами. Теоретическая значимость данного исследования заключается в расширении знаний о применении методов машинного обучения для обработки текстовых данных и обнаружения спама. Результаты исследования могут быть использованы для дальнейшего развития теории машинного обучения и его применения в различных областях. Практическая значимость работы заключается в возможности применения разработанного подхода в реальных условиях для повышения эффективности борьбы со спамом. Результаты работы могут быть использованы в работе почтовых сервисов, социальных сетей и других платформ, сталкивающихся с проблемой спама. По результатам работы над проектом ожидается, что будет создана эффективная программа для обнаружения спама, применимая в реальных условиях. Это будет способствовать улучшению качества обслуживания пользователей, сокращению нежелательной коммерческой информации и увеличению безопасности в сети Интернет.

В ходе выполнения дипломной работы были рассмотрены основные теоретические аспекты фильтрации спама и использования методов машинного обучения для этой цели. Исследование различных методов и алгоритмов позволило прийти к выводу о большой перспективности использования машинного обучения в области борьбы со спамом. Отдельное внимание было уделено исследованию и анализу алгоритмов классификации. В результате работы были получены следующие результаты и выводы. В главе 1 были рассмотрены теоретические основы фильтрации спама и машинного обучения. Были определены характеристики спама и описаны методы фильтрации спама. Введение в машинное обучение и алгоритмы классификации позволило получить необходимую базу для разработки системы фильтрации спама. В главе 2 была разработана система фильтрации спама с использованием алгоритма машинного обучения. Был выбран и обоснован конкретный алгоритм машинного обучения. Описан процесс обучения алгоритма, включающий векторизацию текста, определение и настройку параметров алгоритма, обучение на обучающей выборке и тестирование на тестовой выборке. Была проведена оценка эффективности алгоритма. В главе 3 был проведен анализ результатов работы алгоритма и сравнение с другими алгоритмами классификации. Были выявлены преимущества и недостатки разработанной системы фильтрации спама. Также были предложены возможные способы улучшения эффективности системы и даны рекомендации по дальнейшему использованию и развитию системы. В главе 4 был проведен экономический раздел работы, включающий расчет трудоемкости проекта На практике была разработана система фильтрации спама с использованием выбранного алгоритма машинного обучения. В ходе реализации проекта был проведен полный цикл разработки алгоритма: от выбора и обоснования алгоритма до его обучения, тестирования и оценки эффективности. Результаты тестирования подтвердили высокую эффективность выбранного подхода. Результаты анализа показали, что применение машинного обучения для обнаружения спама имеет высокую эффективность и предлагает значительные преимущества по сравнению с традиционными методами. Отметим, что в ходе исследования были выявлены и предложены для реализации возможные пути улучшения системы. С экономической точки зрения проект оказался высокоэффективным. Расчеты показали, что затраты на разработку и внедрение системы окупаются уже через четыре месяца работы, после чего начинается активная экономия ресурсов компании. Таким образом, цели и задачи дипломной работы были успешно выполнены. В результате была разработана и тестирована система обнаружения спама на основе методов машинного обучения, которая может быть рекомендована к внедрению в реальные проекты. Предложения по улучшению и дальнейшему развитию системы позволят улучшить её эффективность в будущем. В целом, выполненная работа подтвердила актуальность и важность исследования в области применения машинного обучения для фильтрации спама.

1. Бенгфорт Б., Билбро Р., Охеда Т. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. СПБ. : Питер, 2019. – 345 с. 2. Будума Н., Локашо Н. Основы глубокого обучения. Создание алгоритмов для искусственного интеллекта следующего поколения. М. : Манн, Иванов и Фербер, 2020. - 304 с. 3. Вейдман С. Глубокое обучение: легкая разработка проектов на Python. СПб. : Питер, 2021. - 272 с. 4. Жерон О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем. К. : Диалектика, 2020. - 688 с. 5. Лимановская О. В., Алферьева Т. И. Основы машинного обучения. Екатеринбург: Издательство Уральского университета, 2020. - 87 с. 6. Мюллер А. П. Машинное обучение: Практический подход. М. : O'Reilly, 2022. - 480 с. 7. Рашка С., Мирджалили В. Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow. 2-е издание. Вильямс, 2019. - 848 с. 8. Рашид Т. Создаем нейронную сеть. М. : Диалектика-Вильямс, 2020. - 271 с. 9. Саттон Р.С., Барто Э. Дж. Обучение с подкреплением: Введение. 2-е изд. М.: ДМК Пресс, 2020. - 552 с. 10. Траск Э. Грокаем глубокое обучение. СПб.: Питер, 2019. - 353 с. 11. Шалев-Шварц Ш., Бен-Давид Ш. Идеи машинного обучения: от теории к алгоритмам. М. : ДМК Пресс, 2019. - 436 с. 12. Горбаченко В.И. Машинное обучение: учебное пособие / Горбаченко В.И., Савенков К.Е., Малахов М.А. М. : Ай Пи Ар Медиа, 2023. - 217 c. 13. Исследование методов машинного обучения для классификации неструктурированных текстовых документов /Бровкин К.Е., Раскатова М.В. // Международный журнал информационных технологий и энергоэффективности. - 2019. - Т. 4. № 2 (12). - С. 12-17. 14. Использование векторных методов представления слов в задачах выявления трендов / Башков А.С., Соломенцев Я.К. // Вестник Российского нового университета. - 2019. - № 2. - С. 80-88. 15. Добровольская Н.Ю., Гаврилова А.А. Детекция поискового спама методом решающих деревьев. URL: https://cyberleninka.ru/article/n/ detektsiya-poiskovogo-spama-metodom-reshayuschih-dereviev. 16. Bouveyron C., Celeux G., Murphy T.B., Raftery A.E. Model-Based Clustering and Classification for Data Science: With Applications in R. Cambridge University Press, 2019. - 446 с. 17. Cambridge University Press. Machine learning and wireless communications / edited by Yonina C. Eldar, Weizmann Institute of Science, Andrea Goldsmith, Princeton University, Deniz Gündüz, Imperial College, H. Vincent Poor, Princeton University. Cambridge, United Kingdom ; New York, NY: Cambridge University Press., 2022. - 555 с. 18. Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reilly Media. 2019. - 856 с. 19. Graesser L., Keng W.L. Foundations of Deep Reinforcement Learning: Theory and Practice in Python. Addison-Wesley Professional, 2019. – 416 с. 20. Mayer C. Coffee Break NumPy: A Simple Road to Data Science Mastery That Fits Into Your Busy Life. - Independently Published, 2019. - 224 с. 21. Mansoor RASA, Nathali D.J., Muhana M.A, “A Comprehensive Review on Email Spam Classification using Machine Learning Algorithms”, In International Conference on Information Networking (ICOIN), January 13-16, 2021 22. Pangilinan, E., Lukas, S., Mohan, V. Creating Augmented and Virtual Realities. Sebastopol, CA: O'Reilly Media, Inc, 2019. - 371 с. 23. Singh A., Hands-On Python Deep Learning for the Web. Birmingham: Packt Publishing Ltd., 2020. - 360 с. 24. Stepanek H. Thinking in Pandas: How to Use the Python Data Analysis Library the Right Way. Berkeley, CA: Apress, 2020. - 200 с. 25. Emmanuel G.D., Joseph S.B., Haruna Ch., Shafi'i M.A., Adebayo O.A., Opeyemi EA., “Machine learning for email spam filtering: review, approaches and open research problems”, Heliyon, Volume 5, Issue 6, 2019. 26. Dedeturk B.K., Akay B. Spam filtering using a logistic regression model trained by an artificial bee colony algorithm // Applied Soft Computing. June 2020. V. 91. Р. 106229. 27. Dada E.G., Bassi J.S., Chiroma H., Abdulhamid S.M., Adetunmbi A.O., Ajibuwa O.E. Machine learning for email spam filtering: review, approaches and open research problems // Heliyon. June 2019. V. 5. Is. 6. 28. Mohammed M.A., Ibrahim D.A., Salmon A.O. Adaptive intelligent learning approach based on visual anti-spam email model for multi-natural language, Journal of Intelligent Systems, June 2021, pp. 774-792. 29. Soyemi M. Hammed. Detection and Classification of Legitimate and Spam Emails using K-Nearest Neighbor Augmented with Quadratic Sieve Algorithm, International Journal of Computer Applications (IJCA), Volume 175, Number 18, September 2020, pp. 28-32. 30. Naive Bayes Classifier [Электронный ресурс] - URL: https://iopscience.iop.org/article/10.1088/1742-6596/1575/1/012054/pdf 31. Notes on Naive Bayes Classifiers for Spam Filtering. - URL:https://courses.cs.washington.edu/courses/cse312/18sp/lectures/naive-bayes/naivebayesnotes.pdf 32. The Mechanics of Spam Email Detection Using Naive Bayes. - URL: https://medium.com/analytics-vidhya/the-mechanics-of-spam-email-detection-using-naive-bayes-96c6b730d36e.

Поможем с написанием такой-же работы от 500 р.

Лучшие эксперты сервиса ждут твоего задания

Поможем с работой
любого уровня сложности!

Это бесплатно и займет 1 минуту

Обнаружение спама с использованием методов машинного обучения

Похожие работы

Поможем с работойлюбого уровня сложности!

Поможем с работой
любого уровня сложности!