Modelo de análisis de normas de gobiernos autónomos, basado en minería de textos e inteligencia artificial
Abstract
En Inteligencia Artificial (IA) y Procesamiento del Lenguaje Natural (PLN), la detección de temas en textos es un desafío. Esta detección es un método para organizar, comprender y resumir grandes colecciones de información textual, y puede describirse como un método para encontrar un grupo de palabras (un topic) de una colección de documentos que mejor represente la información de la colección. Un enfoque común es utilizar la Asignación de Dirichlet Latente (LDA) para modelar temas como una combinación de palabras, otro método cercano es Doc2vec, se basa en la vectorización buscando relaciones de las palabras con su contexto. La desventaja de entrenar los algoritmos mencionados anteriormente es que requieren una gran cantidad de datos de entrada y poca cantidad de tópicos a modelar, para funcionar con precisión. Esta tesis investiga el uso de técnicas de aprendizaje automático (Machine Learning) para facilitar la tarea de detección de temas en una base de datos que contiene información desde el 2010 hasta el 2019. Esta Base de Datos está compuesta por normas bolivianas de diferentes Gobiernos Autónomos (GA), y utiliza como tópicos a catalogar las 274 competencias distribuidas a los GA, las cuales se encuentran contempladas en la Constitución Política del Estado.
Los datos contienen nueve años de normas de texto recopilados y publicados por el Servicio Estatal de Autonomías, y se discuten y utilizan algoritmos para el modelado de tópicos comparándolos con redes neuronales Long Short Term Memory (LSTM), evaluando su eficiencia para el análisis de las competencias de la normativa boliviana. El modelo propuesto aumentará la precisión del análisis competencial de las normas