Una nueva estrategia de aprendizaje automático que podría mejorar la visión por computadora

Una nueva estrategia de aprendizaje automático que podría mejorar la visión por computadora

Posted on July, 17 2018

El modelo es capaz de aprender características que codifican bien el contenido semántico de las imágenes. Dada una consulta de imagen (imagen de la izquierda), el modelo puede recuperar imágenes que son semánticamente similares (representan el mismo tipo de objeto), aunque pueden ser visualmente diferentes (diferentes colores, fondos o composiciones). Credit: arXiv:1807.02110 [cs.CV]

Investigadores de la Universitat Autònoma de Barcelona, la Carnegie Mellon University y el International Institute of Information Technology, Hyderabad, India, han desarrollado una técnica que podría permitir algoritmos de aprendizaje profundo para aprender las características visuales de las imágenes de forma auto-supervisada, sin la necesidad de anotaciones de investigadores humanos.

 
"Nuestro objetivo es dar a las computadoras la capacidad de leer y comprender información textual en cualquier tipo de imagen en el mundo real", dice Dimosthenis Karatzas, uno de los investigadores que llevaron a cabo el estudio, en una entrevista con Tech Xplore.

Los humanos usan información textual para interpretar todas las situaciones que se les presentan, así como para describir lo que sucede a su alrededor o en una imagen particular. Los investigadores ahora intentan ofrecer capacidades similares a las máquinas, ya que esto reduciría enormemente la cantidad de recursos que se gastan en anotar conjuntos de datos de gran tamaño.

En su estudio, Karatzas y sus colegas diseñaron modelos computacionales que unen información textual sobre imágenes con la información visual contenida en ellas, utilizando datos de Wikipedia u otras plataformas en línea. Luego usaron estos modelos para entrenar algoritmos de aprendizaje profundo sobre cómo seleccionar buenas características visuales que describan semánticamente las imágenes.

Como en otros modelos basados en redes neuronales convolucionales (CNN), las características se aprenden de extremo a extremo, con diferentes capas que automáticamente aprenden a enfocarse en cosas diferentes, desde detalles de nivel de píxel en las primeras capas hasta características más abstractas en las últimas.

El modelo desarrollado por Karatzas y sus colegas, sin embargo, no requiere anotaciones específicas para cada imagen. En cambio, el contexto textual donde se encuentra la imagen (por ejemplo, un artículo de Wikipedia) actúa como la señal de supervisión.

Más ... https://techxplore.com/news/2018-07-machine-strategy-vision.html


Compartir esta noticia