Análisis comparativo de técnicas de Machine Learning para la detección y clasificación de sitios web maliciosos

Miniatura

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad de Buenos Aires. Facultad de Ciencias Económicas. Escuela de Negocios y Administración Pública

Resumen

El presente trabajo consiste en el planteo y desarrollo de un proyecto de Ciencia de Datos para la clasificación binaria y multiclase de sitios web benignos y maliciosos. La investigación consiste en la comparación de la performance de los modelos de aprendizaje automático supervisado Random Forest, Adaptive Boosting Decision Trees, Logistic Regression, Neural Net y Naive Bayes evaluando las métricas ROC-AUC, Precision, Recall y F1-Score. La clasificación es realizada primeramente entre sitios benignos y maliciosos, y en segundo lugar distinguiendo entre las clases de sitios maliciosos malware, spam, phishing y defacement. Se utilizan características del léxico empleado y datos provenientes de la base WHOIS para el entrenamiento de los modelos. El modelo Random Forest alcanzó una mejor performance que los modelos restantes para la clasificación binaria y multiclase, alcanzando un ROC AUC de 0,998 y 0,999 respectivamente. El trabajo presenta una optimización del modelo seleccionado y una descripción de su funcionamiento. El trabajo finaliza con la postulación de una propuesta de arquitectura de datos para el despliegue del proyecto.

Descripción

Fil: Hainze, Luciano Martín. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.
Fil: Cantoni Rabolini, Nélida Mónica. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.

Palabras clave

Ciberseguridad, Ciencia de datos, Machine learning

Citación

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced