Visión computacional para la identificación de especies de aves a partir de registros fotográficos
Abstract
Las aves se consideran desde tiempos inmemoriales infinitamente importantes para diversos aspectos de la naturaleza, desde su relevancia en la preservación y control del medio ambiente, así como su rol como termómetro natural, pasando por todos los nobles servicios ecológicos que brindan en los lugares donde habitan; por otro lado, vale la pena reconocer la íntima relación cultural en materia de turismo, inspiración e incluso aporte nutricional hacia la sociedad humana. El presente proyecto de tesis tiene como objetivo principal el desarrollo de un prototipo, basado en técnicas de visión computacional, capaz de identificar la especie de un ave solamente con la presencia de una fotografía. Para el desarrollo del prototipo se utilizó una versión adaptada de la metodología CRISP-DM, la cual está dirigida a la minería de datos, pero que aporta y se acopla adecuadamente a los pasos necesarios para la correcta aplicación de técnicas de visión computacional. Dentro de las fases de la metodología, se hace hincapié en la fase de modelado, en la cual se realizaron diferentes experimentos con cuatro arquitecturas de red neuronal convolucional para la identificación de 450 especies de aves; la primera arquitectura fue diseñada desde cero y las siguientes tres fueron los modelos de las familias de VGG y MobileNet, previamente entrenados en el dataset de ImageNet y con el uso de la técnica de transfer learning. El prototipo final utilizó el modelo basado en la arquitectura MobileNetV2, debido a que obtuvo el mejor rendimiento entre todas las redes entrenadas, consiguiendo una precisión del 82% en la clasificación de las 450 especies de aves disponibles. El prototipo muestra a su vez las cinco especies con mayor probabilidad de estar presentes, tanto en un gráfico de barras como en imágenes de ejemplo de dichas especies, mostrando la estrecha relación visual que existe entre ciertas especies.