A nova fronteira da Inteligência Artifical do VFX

Artigo original do VFX Voice.


A solução de rastreamento baseada em I.A. da Arraiy é utilizada para resolver tanto o match move de câmeras quanto o object tracking de uma pessoa.

Se há uma frase de efeito agora nos efeitos visuais, é "aprendizado de máquina (machine learning)”. Na verdade, há três: aprendizado de máquina, aprendizado profundo (deep learning) e inteligência artificial (I.A). Cada frase tende a ser usada de forma intercambiável para significar a nova onda de soluções de software inteligente em VFX, computação gráfica e animação que se apoiam em Técnicas I.A.


A pesquisa em máquina e aprendizado profundo ajudou a introduzir tanto a automação quanto os resultados mais físicos em computação gráfica, principalmente em áreas como tracking de câmeras, simulações, renderização, captura de movimento, animação de personagens, processamento de imagens, rotoscopia e composição.


O VFX Voice perguntou a vários participantes importantes - de estúdios a empresas de software e pesquisadores - sobre as áreas da indústria que provavelmente serão impactadas por este novo mundo de I.A.


O personagem em CG Thanos dos Vingadores: Guerra Infinita. Digital Domain dependeu em técnicas de aprendizado de máquina para ajudar a trazer o personagem a vida

O QUE É APRENDIZADO DE MÁQUINA E O QUE PODE SIGNIFICAR PARA VFX

O que exatamente é aprendizado de máquina ou aprendizado profundo? Uma autoridade sobre o assunto é Hao Li, um pesquisador e CEO e co-fundador da Pinscreen, que está desenvolvendo avatares 3D "instantâneos" via aplicativos móveis com a ajuda de técnicas de aprendizado de máquina. Ele descreve o aprendizado de máquina (do qual o aprendizado profundo é um subconjunto) como o uso de “estruturas computacionais baseadas em redes neurais artificiais que podem ser treinadas para executar tarefas altamente complexas quando existem muitos dados de treinamento”.

Neural Networks* existem há algum tempo, explica Li, mas foi apenas relativamente recentemente que as Neural Networks "profundas" (que possuem múltiplas camadas) podem ser treinadas eficientemente com GPUs e enormes quantidades de dados. "Descobriu-se que técnicas baseadas em aprendizado produnfo superaram muitos, se não a maioria, dos métodos clássicos de visão computacional para problemas relacionados ao reconhecimento de padrões fundamentais, como reconhecimento de objetos, segmentação e outras tarefas de inferência", diz Li.

Uma vez que muitos desafios relacionados a gráficos estão diretamente conectados aos relacionados à visão - como captura de movimento, animação facial 3D orientada por performance, escaneamento 3D e outros - ficou óbvio que muitas técnicas existentes se beneficiariam imediatamente de técnicas de aprendizado profundo uma vez que dados suficientes de treinamento podem ser obtidos.

“Mais recentemente”, acrescenta Li, “os pesquisadores criaram novas formas de arquiteturas de Neural Network profunda, onde imagens confiáveis de uma cena real podem ser geradas diretamente, a partir de alguma entrada do usuário ou até mesmo de ruído aleatório. Exemplos populares para esses modelos geradores profundos incluem redes geradoras de adversários (GAN) e autoencodificadores variacionais (VAE)”.


Diretor sênior de Desenvolvimento e Pesquisa de Software da Digital Domain em CG - parte de um teste do pipeline de captura facial e humanos em CG do studio.

APRENDIZADO DE MÁQUINA EM AÇÃO

Mais informações sobre a implementação desses tipos de redes pela Pinscreen estão abaixo, mas primeiro é preciso ver um dos exemplos mais avançados de onde o aprendizado de máquina tem sido usado nos últimos tempos - Thanos em Vingadores: Guerra Infinita do Digital Domain. O rosto de Josh Brolin - capturado com câmeras na cabeça olhando para marcadores de rastreamento facial - no personagem principal do filme. Isso envolve aproveitar os dados de treinamento de captura facial.

“Já sabíamos que poderíamos construir um sistema que captasse dados de captura de movimento e produzisse um resultado”, afirma Darren Hendler, diretor de humanos digitais da Digital Domain. “Com o aprendizado de máquina, podemos pegar o sistema original que construímos e agora alimentar as correções. Todos os resultados futuros serão corrigidos da maneira desejada. Esta é uma versão mais rudimentar do aprendizado de máquina, mas realmente mostra uma grande promessa em acelerar o trabalho e melhorar a qualidade.”

Desde o seu trabalho em Guerra Infinita, a Digital Domain aprimorou suas técnicas de aprendizado profundo para criar um novo sistema de captura facial. “Agora”, diz o diretor sênior de pesquisa e desenvolvimento de software, Doug Roble, “podemos ter uma única imagem e recriar em tempo real uma versão de alta resolução de qualquer ator com qualidade semelhante ao nosso resultado final no filme. Como isso funciona às vezes parece pura magia, mas como todo aprendizado de máquina, pode ser muito temperamental e imprevisível, o que torna a solução particularmente gratificante”.

Na Pinscreen, um dos objetivos da empresa tem sido gerar avatares em 3D foto realistas e animados, com detalhes precisos de pelos faciais e capilares a partir de imagens de usuários de celulares. Eles têm confiado em abordagens de aprendizado profundo para tornar isso possível, com base em dados de treinamento extensos "semi supervisionados" ou "não supervisionados". Os dados, acoplados a Neural Networks profundas, são usados para ajudar a prever os resultados corretos para a aparência de um avatar 3D - por exemplo, para descobrir qual expressão facial deve ser exibida.

Os resultados da Pinscreen às vezes são comparados a vídeos de "troca de rosto deepfakes*", que ganharam popularidade usando técnicas de aprendizado profundo para animar o rosto de uma pessoa famosa para que dissessem coisas que nunca disseram ou apareceram onde nunca apareceram. Li observa que “enquanto o código de deepfakes ainda requer uma grande quantidade de dados de treinamento, ou seja, filmagens de uma pessoa, para criar um modelo convincente de troca de face, mostramos recentemente na Pinscreen que a tecnologia paGAN (avatar foto realista GAN) precisa de uma única imagem de entrada.”

A pesquisa na qual Li faz parte da Universidade do Sul da Califórnia está procurando formas de gerar avatares 3D de nível de produção realistas e foto realistas, sem qualquer intervenção humana, e como modelar objetos 3D gerais usando modelos deep. "A longo prazo", diz ele, "acredito que vamos democratizar totalmente a capacidade de criar conteúdo 3D complexo, e qualquer um poderá capturar e compartilhar suas histórias de forma imersiva, assim como fazemos com o vídeo hoje em dia".


APRENDIZADO DE MÁQUINA EM CRIAÇÃO DE CONTEÚDOS

O uso de máquinas e técnicas de aprendizado profundo na criação de criaturas e materiais de CG ainda é relativamente novo, mas incrivelmente promissor, e é por isso que várias empresas têm mergulhado aos poucos na área. A Ziva Dynamics, que oferece softwares de simulação com base física, chamada Ziva VFX, vem explorando o aprendizado de máquina, particularmente em relação à sua tecnologia de solver em tempo real.

Modelo paGAN da Pinscreen permite um input de expressões que serão replicadas em avatares CG de outras pessoas.

Um exemplo da tecnologia de avatar 3D da Pinscreen, que é capaz de gerar um avatar 3D a partir de uma única foto.

“Esta tecnologia”, explica James Jacobs, co-CEO e co-fundador da Ziva Dynamics, “torna possível a conversão de simulações offline de alta qualidade, criadas por diretores técnicos usando o Ziva VFX, em personagens em tempo real. Nós implantamos essa tecnologia em algumas demonstrações públicas e nos envolvemos em protótipos confidenciais com várias empresas líderes em diferentes setores para explorar casos de uso e futuras estratégias de produtos.”


“Os algoritmos do aprendizado de máquina [permitem que artistas] interativamente posam personagens Ziva de alta qualidade em tempo real”, acrescenta Jacobs. “Os bakes produzidos a partir de simulações offline são combinados com dados representativos de animação através de um processo de treinamento em aprendizado de máquina.


A partir disso, nossos solucionadores rapidamente se aproximam da dinâmica natural do personagem para posições inteiramente novas. Isso resulta em um recurso de caráter rápido e interativo que atinge formas realmente consistentes, tudo em um arquivo relativamente pequeno”.

Esse leão CG incorpora simulações de músculo e carne usando o Ziva VFX

A Allegorithmic, que faz o Substance Suite de texturização 3D e ferramentas de criação de material, também vem explorando o campo de I.A. combinar vários processos relacionados ao material, como reconhecimento de imagem e extração de cores, em uma única ferramenta, chamada Alchemist.


Alchemist I.A. As capacidades são, em particular, alimentadas por GPUs NVIDIA (a própria NVIDIA está no centro de uma grande quantidade de pesquisas sobre aprendizado de máquina relacionadas a computação gráfica). Para um lado do software Alchemist, o delighter - que foi criado para ajudar os artistas a remover sombras baked de uma cor de base ou foto de referência - foi criada uma Neural Network a partir da biblioteca de materiais da Substance para treinar o sistema. Os artistas precisam que suas imagens estejam livres de tais sombras para obter controle absoluto sobre o material. O delighter alimentado por I.A. detecta as sombras, as remove e reconstrói o que está sob as sombras.

Ziva VFX é um plugin para Maya. Esse frame mostra um print do software.

No espaço de captura de movimento, várias empresas estão empregando técnicas de aprendizado de máquina para ajudar a tornar o processo mais eficiente. O DeepMotion, por exemplo, usa o I.A. de várias maneiras: para redirecionar e pós-processar dados de captura de movimento; simular deformação de corpo em tempo real; para alcançar estimativa de pose 2D e 3D; treinar personagens físicos para sintetizar o movimento dinâmico em uma simulação; e para unir vários movimentos para transição e mesclagem integração perfeita.

Resultados do Rotobot da Kognat

“Estas aplicações de I.A. resolvem uma variedade de problemas para acelerar os processos de VFX, permitindo a criação de personagens verdadeiramente interativa e expandindo pipelines para dados de animação e simulação ”, diz o fundador do DeepMotion, Kevin He. “O aprendizado de máquina tem sido usado há anos para criar efeitos interessantes na animação baseada em física e na mídia, mas estamos vendo uma nova onda de aplicativos à medida que as computações se tornam mais eficientes e abordagens inovadoras, como o aprendizado de reforço profundo, criam modelos mais escalonáveis.

Um demonstrativo do Rotobot em um número de jogadores de netball, onde somente os jogadores foram isolados na sequência.

Enquanto isso, a RADiCAL também está utilizando o I.A. em captura de movimento e, em particular, desafiando a abordagem baseada em hardware usual para captura. “Especificamente”, observa o CEO da RADiCAL, Gavan Gravesen, “nossa solução usa a entrada de câmeras de vídeo 2D convencionais para produzir animação 3D que requer pouca ou nenhuma limpeza, codificação, investimento ou treinamento”.


"Para fazer isso", acrescenta Gravesen, "não estamos contando com detecções por hardware de toneladas de pequenos pontos de dados que são agregados em somas de dados maiores que, após uma limpeza intensiva, se assemelham coletivamente à atividade humana. Em vez disso, fornecemos reconstruções de movimento humano no espaço 3D baseadas em aprendizado e software.


Nessa cena demostrativa o software da Arraiy conseguiu extrair esses segmentos.

AUTOMATIZAÇÃO COM I.A.

Uma das promessas da aprendizagem profunda e de máquina é como uma ajuda para artistas com tarefas que atualmente são trabalhosas. Uma das tarefas mais conhecidas dos artistas de efeitos visuais é a rotoscopia. A Kognat, uma empresa criada pelo desenvolvedor da pipeline de software da Rising Sun Pictures, Sam Hodge, disponibilizou seu Rotobot, uma ferramenta de aprendizado de rotoscopia e composição para uso com a NUKE.

Um demonstrativo em tempo real usando o carro de tracking Blackbird da The Mill utilizando a solução de tracking da Arraiy para resolver um tracking de alta qualidade do veículo, e depois substituir com uma versão em CG foto realista.

Uma demonstração do DeepMotion do seu I.A capacidades de captura de movimento.

A adoção por Hodge de técnicas de aprendizagem profunda e o intenso "treinamento" permitem que o Rotobot isole todos os pixels que pertencem a uma determinada classe em uma única máscara, chamada segmentação. O efeito é o isolamento de partes da imagem, assim como a rotoscopia. “Então há uma segmentação de instância”, acrescenta Hodge, “que pode isolar os pixels de uma única instância de uma classe em sua própria camada. Uma turma pode ser "pessoa", então, com a segmentação, você obtém todas as pessoas em uma camada. Com a segmentação de instância, você pode isolar uma única pessoa da multidão.

O I.A. da RADiCAL solução de captura de movimento é projetada para funcionar sem ternos e sem hardware.

“Como artista de efeitos”, continua Hodge, “talvez seja necessário colocar uma explosão atrás dos atores em primeiro plano - com a ferramenta você pode fazer uma versão aproximada sem interromper os horários dos artistas de rotoscopia, eles podem se concentrar na qualidade final e a versão temporária pode usar a máscara criada pelo IA.”


Outras empresas estão explorando I.A. técnicas de processamento de imagem, incluindo a Arraiy, que empregou vários veteranos da indústria de VFX e engenheiros para trabalhar em aprendizado de máquina e ferramentas de visão computacional. “Criamos um software que facilita para os criadores criarem algoritmos de aprendizado I.A. para automatizar os processos manuais que atualmente são necessários para gerar assets de VFX ”, diz o diretor de operações da Arraiy, Brendan Dowdle.


“Por exemplo, fornecemos uma ferramenta na qual um artista pode treinar uma neural network* para criar mattes para uma cena inteira, fornecendo às redes alguns rótulos sobre o que o artista deseja segmentar. Uma vez que essa rede é treinada para aquela cena em particular, o algoritmo pode gerar mattes para um número arbitrário de frames, e até mesmo em tempo real, ou até em conjunto, se desejado. ”


A Foundry, fabricante da NUKE, diz que também está investigando abordagens de aprendizagem profunda que poderiam ser implementadas em seu software. Isso inclui, na área de rotoscopia, o "trabalho pesado" mais mecânico no VFX e no lado do fluxo de trabalho dos projetos. "Há muitos desenvolvimentos atraentes em aprendizado profundo que se concentram no processamento de imagens", observa Simon Robinson, cofundador da Foundry e cientista chefe.


“O que é igualmente interessante é a aplicação desses algoritmos em tarefas mais organizacionais ou centradas no fluxo de trabalho. VFX moderno é um problema de gerenciamento extraordinariamente complicado, seja de recursos humanos ou computacionais. Isso é especialmente verdadeiro quando você executa vários shows sobrepondo um ao outro. Identificar padrões de agendamento e melhorar a eficiência e a utilização de recursos é uma das áreas onde melhores algoritmos podem fazer uma diferença real para a indústria. ”


EM UM FUTURO DE I.A.

Não há apenas uma coisa que I.A. ou aprendizado de máquina ou aprendizado profundo está trazendo para efeitos visuais, é muitas coisas. Darren Hendler, da Digital Domain, resume que “o aprendizado de máquina está fazendo grandes avanços na aceleração de todos os tipos de processos lentos nos efeitos visuais. Veremos sistemas de aprendizado de máquina, sistemas de cabelo e muito mais nos próximos anos. No futuro, eu realmente vejo todos esses recursos de aprendizado de máquina como ferramentas adicionais para os artistas de VFX possam usar seus talentos nas nuances para resultados finais ainda melhores ”.

Texto traduzido de: http://vfxvoice.com/the-new-artificial-intelligence-frontier-of-vfx/

*

Neural Networks: https://medium.com/data-hackers/neural-network-deep-learning-parte-1-introdução-teórica-5c6dcd2e5a79

Deepfakes: https://www.techtudo.com.br/noticias/2018/07/o-que-e-deepfake-inteligencia-artificial-e-usada-pra-fazer-videos-falsos.ghtml

Links

Ziva Dynamics (inglês)

The Meg usando Ziva Dynamics (inglês)

Allegorithmic, Substance Suite (inglês)

DeepMotion (inglês)

RADiCAL (inglês)

Kognat/Rotobot (inglês)

Rising Sun Pictures (inglês)

NUKE (inglês)

Arraiy (inglês)

Digital Domain (inglês)

  • Facebook
Se inscreva para receber os posts.

©2020 Dama Invisível por anavfx.com