Análisis comparativo de técnicas de Machine Learning para la detección y clasificación de sitios web maliciosos

Cantoni Rabolini, Nélida Mónica2026-04-23Especialización en Métodos Cuantitativos para la Gestión y Análisis de Datos en Organizacioneshttps://bibliotecadigital.economicas.uba.ar/handle/123456789/7414Fil: Hainze, Luciano Martín. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.Fil: Cantoni Rabolini, Nélida Mónica. Universidad de Buenos Aires. Facultad de Ciencias Económicas. Buenos Aires, Argentina.El presente trabajo consiste en el planteo y desarrollo de un proyecto de Ciencia de Datos para la clasificación binaria y multiclase de sitios web benignos y maliciosos. La investigación consiste en la comparación de la performance de los modelos de aprendizaje automático supervisado Random Forest, Adaptive Boosting Decision Trees, Logistic Regression, Neural Net y Naive Bayes evaluando las métricas ROC-AUC, Precision, Recall y F1-Score. La clasificación es realizada primeramente entre sitios benignos y maliciosos, y en segundo lugar distinguiendo entre las clases de sitios maliciosos malware, spam, phishing y defacement. Se utilizan características del léxico empleado y datos provenientes de la base WHOIS para el entrenamiento de los modelos. El modelo Random Forest alcanzó una mejor performance que los modelos restantes para la clasificación binaria y multiclase, alcanzando un ROC AUC de 0,998 y 0,999 respectivamente. El trabajo presenta una optimización del modelo seleccionado y una descripción de su funcionamiento. El trabajo finaliza con la postulación de una propuesta de arquitectura de datos para el despliegue del proyecto.application/pdfinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/ar/CiberseguridadCiencia de datosMachine learning10SobresalienteAnálisis comparativo de técnicas de Machine Learning para la detección y clasificación de sitios web maliciososinfo:eu-repo/semantics/masterThesis