Minería Web utilizando lógica difusa
Resumen
La informacióon hoy en día es materia prima muy valiosa, tanto para empresas
u organizaciones como para las personas, es por eso que en una sociedad como la actual,
se destina gran cantidad de recursos para la conservación y procesamiento de las mismas.
Ya con el internet la búusqueda de información útil se ha convertido en uno de los mayores
problemas que hay, por que aunque parezca que tuviéramos un problema de sobre información
es todo lo contrario, que padezcamos una crónica falta de información, debido a que tenemos
toneladas de datos pero no tenemos los elementos para producir conocimiento de estos datos.
La presente tesis intenta resolver el problema de la falta de información con respecto
a las preferencias de los usuarios que visitan un sitio web.
El objetivo principal es el desarrollo de un prototipo capaz de obtener conocimiento
agrupando a los usuarios de un sitio web según las páginas que haya visitado utilizando como
fuente los datos que guardan los servidores web.
El prototipo es desarrollado bajo la metodología de la programación extrema, bajo
estándares para minería de datos y la norma ISO 9126 para la funcionalidad en general.
Los datos necesarios para su análisis son archivos Access log, que es donde los
servidores de páginas web registran las peticiones realizadas al servidor, pero antes estos
datos son procesados para eliminar las entradas que no corresponden a las acciones realizadas
por los usuarios.
Entre los métodos usados se encuentran el time out para identificar sesiones; para
realizar las agrupaciones se utiliza dos algoritmos: fuzzy c mean y fuzzy c medioid, los
cuales son modificados para utilizar sesiones como datos de entrada. Para la validación
de los agrupamientos se utiliza dos métodos los cuales son el índice de realización difusa
(propia de los conjuntos difusos) y entropía de la clasificación normalizada (utilizada para
medir cuan óptimo son los grupos obtenidos).
Se realizaron dos experimentos con datos reales y uno con datos ficticios este último
para ver cuán óptimo es el prototipo.