Análisis comparativo de técnicas de Machine Learning para la detección y clasificación de sitios web maliciosos
Archivos
Fecha
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad de Buenos Aires. Facultad de Ciencias Económicas. Escuela de Negocios y Administración Pública
Resumen
El presente trabajo consiste en el planteo y desarrollo de un proyecto de Ciencia de Datos para la clasificación binaria y multiclase de sitios web benignos y maliciosos. La investigación consiste en la comparación de la performance de los modelos de aprendizaje automático supervisado Random Forest, Adaptive Boosting Decision Trees, Logistic Regression, Neural Net y Naive Bayes evaluando las métricas ROC-AUC, Precision, Recall y F1-Score. La clasificación es realizada primeramente entre sitios benignos y maliciosos, y en segundo lugar distinguiendo entre las clases de sitios maliciosos malware, spam, phishing y defacement. Se utilizan características del léxico empleado y datos provenientes de la base WHOIS para el entrenamiento de los modelos. El modelo Random Forest alcanzó una mejor performance que los modelos restantes para la clasificación binaria y multiclase, alcanzando un ROC AUC de 0,998 y 0,999 respectivamente. El trabajo presenta una optimización del modelo seleccionado y una descripción de su funcionamiento. El trabajo finaliza con la postulación de una propuesta de arquitectura de datos para el despliegue del proyecto.
Descripción
Fil: Hainze, Luciano Martín. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.
Fil: Cantoni Rabolini, Nélida Mónica. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.
Fil: Cantoni Rabolini, Nélida Mónica. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.
Palabras clave
Ciberseguridad, Ciencia de datos, Machine learning
