Para lograr resultados notables en tareas de visión por computadora, los algoritmos de aprendizaje profundo deben ser entrenados en conjuntos de datos anotados a gran escala que incluyen
información extensa sobre cada imagen. Sin embargo, recopilar y anotar manualmente estas imágenes requiere grandes cantidades de tiempo, recursos y esfuerzo humano.
"Nuestro objetivo es dar a las computadoras la capacidad de leer y comprender información textual en cualquier tipo de imagen en el mundo real", dice Dimosthenis Karatzas, uno de los investigadores que llevaron a cabo el estudio, en una entrevista con Tech Xplore.
Los humanos usan información textual para interpretar todas las situaciones que se les presentan, así como para describir lo que sucede a su alrededor o en una imagen particular. Los investigadores ahora intentan ofrecer capacidades similares a las máquinas, ya que esto reduciría enormemente la cantidad de recursos que se gastan en anotar conjuntos de datos de gran tamaño.
En su estudio, Karatzas y sus colegas diseñaron modelos computacionales que unen información textual sobre imágenes con la información visual contenida en ellas, utilizando datos de Wikipedia u otras plataformas en línea. Luego usaron estos modelos para entrenar algoritmos de aprendizaje profundo sobre cómo seleccionar buenas características visuales que describan semánticamente las imágenes.
Como en otros modelos basados en redes neuronales convolucionales (CNN), las características se aprenden de extremo a extremo, con diferentes capas que automáticamente aprenden a enfocarse en cosas diferentes, desde detalles de nivel de píxel en las primeras capas hasta características más abstractas en las últimas.
El modelo desarrollado por Karatzas y sus colegas, sin embargo, no requiere anotaciones específicas para cada imagen. En cambio, el contexto textual donde se encuentra la imagen (por ejemplo, un artículo de Wikipedia) actúa como la señal de supervisión.
Más ... https://techxplore.com/news/2018-07-machine-strategy-vision.html