Transframer: Nova tecnologia de IA do Google pode criar vídeos curtos com base em uma única imagem
O Transframer usa imagens de contexto para gerar até 30 segundos de vídeo.
Conforme explica o site TechSpot, o nome da nova estrutura (e, de certa forma, o conceito) do Google é uma referência a outro modelo baseado em IA conhecido como Transformer. Originalmente introduzido em 2017, o Transformer é uma nova arquitetura de rede neural com a capacidade de gerar texto modelando e comparando outras palavras em uma frase. Desde então, o modelo foi incluído em estruturas padrão de deep learning, como TensorFlow e PyTorch.
Assim como o Transformer usa a linguagem para prever saídas potenciais, o Transframer usa imagens de contexto com atributos semelhantes em conjunto com uma anotação de consulta para criar vídeos curtos. Os vídeos resultantes se movem ao redor da imagem de destino e visualizam perspectivas precisas, apesar de não terem fornecido nenhum dado geométrico nas entradas da imagem original.
“O Transframer é uma estrutura generativa de uso geral que pode lidar com muitas tarefas de imagem e vídeo em um ambiente probabilístico. Novo trabalho mostra que é excelente em previsão de vídeo e síntese de visualização, e pode gerar vídeos de 30 segundos a partir de uma única imagem.”
A nova tecnologia, demonstrada usando a plataforma DeepMind AI do Google, funciona analisando uma única imagem de contexto de foto para obter dados importantes de uma figura e gerar imagens adicionais. Durante esta análise, o sistema identifica o enquadramento da imagem, que por sua vez ajuda o sistema a prever os arredores da mesma.
As imagens de contexto são então usadas para prever ainda mais como uma figura apareceria de diferentes ângulos. A previsão modela a probabilidade de quadros de imagem adicionais com base nos dados, anotações e qualquer outra informação disponível dos quadros de contexto.
A estrutura marca um grande passo na tecnologia de vídeo, fornecendo a capacidade de gerar vídeos razoavelmente precisos com base em um conjunto muito limitado de dados. As tarefas do Transframer também mostraram resultados extremamente promissores em outras tarefas e benchmarks relacionados a vídeo, como segmentação semântica, classificação de imagens e previsões de fluxo óptico.
As implicações para as indústrias baseadas em vídeo, como o desenvolvimento de jogos, podem ser potencialmente enormes. Os ambientes atuais de desenvolvimento de jogos contam com técnicas de renderização básicas, como sombreamento, mapeamento de textura, profundidade de campo e rastreamento de raios. Tecnologias como o Transframer têm o potencial de oferecer aos desenvolvedores um caminho de desenvolvimento completamente novo usando IA e machine learning para construir seus ambientes, reduzindo o tempo, os recursos e o esforço necessários para criá-los.