Transframer: Nova tecnologia de IA do Google pode criar vídeos curtos com base em uma única imagem

O Transframer usa imagens de contexto para gerar até 30 segundos de vídeo.

Conforme explica o site TechSpot, o nome da nova estrutura (e, de certa forma, o conceito) do Google é uma referência a outro modelo baseado em IA conhecido como Transformer. Originalmente introduzido em 2017, o Transformer é uma nova arquitetura de rede neural com a capacidade de gerar texto modelando e comparando outras palavras em uma frase. Desde então, o modelo foi incluído em estruturas padrão de deep learning, como TensorFlow e PyTorch.

Assim como o Transformer usa a linguagem para prever saídas potenciais, o Transframer usa imagens de contexto com atributos semelhantes em conjunto com uma anotação de consulta para criar vídeos curtos. Os vídeos resultantes se movem ao redor da imagem de destino e visualizam perspectivas precisas, apesar de não terem fornecido nenhum dado geométrico nas entradas da imagem original.

Transframer is a general-purpose generative framework that can handle many image and video tasks in a probabilistic setting. New work shows it excels in video prediction and view synthesis, and can generate 30s videos from a single image: https://t.co/wX3nrrYEEa 1/ pic.twitter.com/gQk6f9nZyg
— Google DeepMind (@GoogleDeepMind) August 15, 2022

“O Transframer é uma estrutura generativa de uso geral que pode lidar com muitas tarefas de imagem e vídeo em um ambiente probabilístico. Novo trabalho mostra que é excelente em previsão de vídeo e síntese de visualização, e pode gerar vídeos de 30 segundos a partir de uma única imagem.”

A nova tecnologia, demonstrada usando a plataforma DeepMind AI do Google, funciona analisando uma única imagem de contexto de foto para obter dados importantes de uma figura e gerar imagens adicionais. Durante esta análise, o sistema identifica o enquadramento da imagem, que por sua vez ajuda o sistema a prever os arredores da mesma.

As imagens de contexto são então usadas para prever ainda mais como uma figura apareceria de diferentes ângulos. A previsão modela a probabilidade de quadros de imagem adicionais com base nos dados, anotações e qualquer outra informação disponível dos quadros de contexto.

A estrutura marca um grande passo na tecnologia de vídeo, fornecendo a capacidade de gerar vídeos razoavelmente precisos com base em um conjunto muito limitado de dados. As tarefas do Transframer também mostraram resultados extremamente promissores em outras tarefas e benchmarks relacionados a vídeo, como segmentação semântica, classificação de imagens e previsões de fluxo óptico.

As implicações para as indústrias baseadas em vídeo, como o desenvolvimento de jogos, podem ser potencialmente enormes. Os ambientes atuais de desenvolvimento de jogos contam com técnicas de renderização básicas, como sombreamento, mapeamento de textura, profundidade de campo e rastreamento de raios. Tecnologias como o Transframer têm o potencial de oferecer aos desenvolvedores um caminho de desenvolvimento completamente novo usando IA e machine learning para construir seus ambientes, reduzindo o tempo, os recursos e o esforço necessários para criá-los.

Veja também: Em quase um ano, o Google investiu 1,5 bilhões em empresas de Blockchain

O autor: Marcelo Roncate

Redator desde 2019. Entusiasta de tecnologia e criptomoedas.

Webitcoin

Transframer: Nova tecnologia de IA do Google pode criar vídeos curtos com base em uma única imagem

O Transframer usa imagens de contexto para gerar até 30 segundos de vídeo.

*Este artigo é para fins informativos. Não visa aconselhamento de investimento, financeiro, jurídico, tributário ou outro qualquer.