OpenAI Sora Transforma Texto em Vídeo

fevereiro 15, 2024
20:45

OpenAI Sora Transforma Texto em Vídeo

fevereiro 15, 2024
20:45

Sora, o modelo de IA que gera vídeos realistas a partir de instruções textuais, abrindo novos caminhos para criativos e pesquisadores.

Sora é um modelo de inteligência artificial capaz de criar cenas realistas e imaginativas a partir de instruções textuais. Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que auxiliem pessoas a resolver problemas que requerem interação com o mundo real.

Sora: O Modelo de Texto para Vídeo:

(OpenAI) – Apresentamos o Sora, nosso modelo de texto para vídeo. Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e aderência ao prompt do usuário. Atualmente, Sora está disponível para equipes de teste adversário avaliarem áreas críticas para danos ou riscos. Também estamos concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como avançar o modelo para ser mais útil para profissionais criativos.

Avanços e Desafios:

Sora é capaz de gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo. O modelo tem uma compreensão profunda da linguagem, permitindo interpretar com precisão os prompts e gerar personagens convincentes que expressam emoções vibrantes. No entanto, o modelo atual tem fraquezas, como dificuldades em simular a física de uma cena complexa e entender instâncias específicas de causa e efeito.

[arve url=”https://hb-media-bucket.s3.us-east-2.amazonaws.com/2024/02/Sora-Demo.mp4″ title=”OpenAI – Sora Demo Video” thumbnail=”25641″ maxwidth=”800″ muted=”true” /]

Segurança e Ética:

Estamos tomando várias medidas de segurança importantes antes de tornar o Sora disponível nos produtos da OpenAI. Estamos trabalhando com especialistas em domínios como desinformação, conteúdo odioso e viés, que estarão testando adversariamente o modelo. Também estamos construindo ferramentas para ajudar a detectar conteúdo enganoso, como um classificador de detecção que pode identificar quando um vídeo foi gerado por Sora.

Técnicas de Pesquisa:

Sora é um modelo de difusão, capaz de gerar vídeos inteiros de uma vez ou estender vídeos gerados para torná-los mais longos. Utilizando uma arquitetura de transformer, semelhante aos modelos GPT, Sora desbloqueia um desempenho de escalabilidade superior. Além disso, Sora se baseia em pesquisas anteriores em modelos DALL·E e GPT, usando a técnica de recaptioning de DALL·E 3 para seguir mais fielmente as instruções textuais do usuário no vídeo gerado.

Conclusão e Futuro:

Ao compartilhar nosso progresso na pesquisa antecipadamente, começamos a trabalhar com pessoas fora da OpenAI e a dar ao público uma noção das capacidades de IA no horizonte. Engajaremos formuladores de políticas, educadores e artistas ao redor do mundo para entender suas preocupações e identificar casos de uso positivos para esta nova tecnologia. Sora serve como fundação para modelos que podem entender e simular o mundo real, um marco que acreditamos ser importante para alcançar a AGI (Inteligência Geral Artificial).