La utilidad de la visión computacional y segmentación de imágenes en nuestra era

Edward Cayllahua Cahuina
Docente del Departamento de Ciencia de la Computación de la Universidad Católica San Pablo

Vivimos en una época donde la cantidad de información visual que se genera cada segundo es inmensa. Poder procesar y comprender toda esta información sería un trabajo extremadamente arduo para un humano y a veces, imposible. ¿Se imaginan tener la tarea de ver todos los videos de YouTube?

Es natural, entonces, ver la necesidad de contar con una máquina/computador capaz de procesar y entender toda esta información, aliviando así estas tareas para los humanos. La respuesta a este gran desafío, desde la ciencia de la computación, fue el surgimiento del área de estudio de la visión computacional.

La visión computacional es un campo interdisciplinario en ciencia de la computación, que tiene por objetivo dotar a las computadoras con la capacidad de “ver” y extraer información relevante de las imágenes digitales y videos. Gracias a los avances en visión computacional, es posible contar con técnicas más avanzadas para la reconstrucción de escenas, detección de objetos y de eventos, reconocimiento de actividades, seguimiento de video y restauración de imágenes; que pueden ser aplicadas en diversos ámbitos, desde la medicina hasta la robótica.

En todos estos ámbitos, los algoritmos de visión computacional necesitan procesar y analizar imágenes y/o videos que contienen escenas visuales de mucha complejidad. Con el objetivo de intentar reducir esta complejidad, se puede usar técnicas como la segmentación de imágenes. Esta técnica es muy popular en visión computacional, ya que permite procesar una imagen, y simplificarla en regiones, pudiendo centrarnos en aquello que sea de nuestro interés.

De este modo, si se necesita realizar la detección de rostros en una imagen, todas aquellas regiones de la imagen que no contengan rostros serán descartadas. Este tipo de aplicación es algo que se ve cotidianamente como parte del software de las cámaras fotográficas de los celulares; donde los populares filtros de embellecimiento se aplican sólo a los rostros, y todas aquellas regiones de la imagen que no contienen el rostro de la persona no son procesadas, haciendo que la aplicación sea más veloz en dar resultados.

Los últimos avances en inteligencia artificial, especialmente en técnicas de aprendizaje profundo, han permitido que los algoritmos de segmentación de imágenes mejoren su desempeño; sin embargo, los expertos en visión computacional coinciden en que la segmentación de imágenes sigue siendo un desafío abierto.

De hecho, aunque existen casos en los que las máquinas han superado a los humanos en algunas tareas de visión, la evolución visual avanzada que posee un ser humano le permite procesar, generalizar y comprender escenas visuales en situaciones difíciles o desconocidas, que requieren un alto nivel de generalización, contextualización y abstracción.

Salir de la versión móvil