Inteligência Artificial

Azure AI Speech transforma a criação de conteúdo com avatares de texto para fala

O Avatar de Texto para Fala é um recurso avançado que combina tecnologias de texto para fala com recursos visuais, possibilitando a criação de vídeos sintéticos com avatares fotorrealistas 2D que falam. Esses avatares são treinados por meio de redes neurais profundas, utilizando amostras de gravações de vídeo humano. A voz do avatar é gerada por modelos de voz de texto para fala, proporcionando uma experiência envolvente e realista.

Por que construir avatares?

Existem duas razões fundamentais para o desenvolvimento dessa tecnologia. A primeira é a eficiência na criação de conteúdo de vídeo. Processos tradicionais, como a configuração de ambientes de gravação, filmagens e edições, demandam tempo e orçamento consideráveis. Com o Avatar de Texto para Fala, os usuários podem criar vídeos de treinamento, apresentações de produtos e depoimentos de clientes de maneira mais ágil, utilizando apenas entradas de texto.

A segunda razão é a busca pela naturalidade na interação. Com o lançamento do Azure OpenAI Service e a evolução da conversão de texto em fala neural, a conversa interativa alcança um nível de naturalidade nunca visto. Isso possibilita a criação de agentes de conversação, assistentes virtuais, chatbots e outras interações digitais envolventes.

Fluxo de trabalho do avatar

O processo de geração de conteúdo de avatar envolve três componentes principais: o analisador de texto, o sintetizador de áudio TTS e o sintetizador de vídeo de avatar TTS. O analisador de texto converte a entrada de texto em uma sequência de fonemas, enquanto o sintetizador de áudio TTS prevê características acústicas e sintetiza a voz. O modelo Neural Text to Speech Avatar, em seguida, sincroniza a imagem labial com os recursos acústicos para gerar o vídeo sintético.

Versões disponíveis do avatar de texto para fala

No lançamento, o Azure AI Speech oferece duas versões do Avatar de Texto para Fala: a pré-construída e a personalizada.

Avatar de texto para fala pré-construído

A versão pré-construída disponibiliza avatares prontos para uso no Azure, oferecendo diferentes idiomas e vozes. Os usuários podem selecionar entre diversas opções de avatares para criar conteúdo de vídeo ou interações em tempo real.

Avatar de texto para fala personalizado

Para uma experiência mais única, o recurso personalizado permite que os usuários enviem vídeos do talento do avatar desejado. O sistema utiliza essas gravações para treinar um modelo específico, proporcionando avatares personalizados com vozes pré-construídas ou personalizadas.

Ética e responsabilidade na IA

A Microsoft, comprometida com a inteligência artificial responsável, projeta o Avatar de Conversão de Texto em Fala com a intenção de proteger os direitos individuais e sociais. Essa abordagem visa neutralizar a proliferação de deepfakes prejudiciais e conteúdo enganoso. O recurso de avatar personalizado é de acesso limitado, disponível apenas mediante registro e para casos de uso específicos.

Criando avatares fotorrealistas e levantando questões éticas

No evento Microsoft Ignite 2023, a empresa surpreendeu o público ao apresentar uma ferramenta capaz de criar avatares fotorrealistas e animá-los para proferir discursos predefinidos. Denominado Avatar de Texto para Fala do Azure AI Speech, esse novo recurso está agora em visualização pública.

Potenciais aplicações

Embora essa inovação ofereça possibilidades empolgantes, também levanta questões éticas complexas. A capacidade de criar avatares que reproduzem vozes e expressões faciais levanta preocupações sobre o potencial abuso da tecnologia. A Microsoft reconhece essas preocupações e, por isso, restringe o acesso aos avatares personalizados, permitindo apenas o uso em casos específicos e com consentimento explícito.

Voz Pessoal: outra fronteira da inovação

Além do Avatar de Texto para Fala, a Microsoft lançou também a Voz Pessoal no Ignite. Esse novo recurso permite replicar a voz de um usuário em poucos segundos, abrindo possibilidades para assistentes de voz personalizados e dublagens em diferentes idiomas.

+ OpenAI: rumo a se tornar a App Store da IA

Proteções legais e critérios de acesso

Para mitigar preocupações legais, a Microsoft exige “consentimento explícito” dos usuários antes de permitir o uso de sua voz pessoal. O acesso a esse recurso é restrito, e os clientes concordam em utilizá-lo apenas em aplicativos específicos, onde a voz não lê conteúdo gerado pelo usuário.

Thiago Santos

Sou um estudante de Ciências e Tecnologia, apaixonado por inovação e sempre antenado nas últimas tendências tecnológicas. Acredito que o futuro está intrinsecamente ligado ao avanço da ciência, e estou empenhado em contribuir para esse progresso. Além dos estudos, sou um apaixonado por cinema e séries. Nos momentos de lazer, valorizo a companhia dos amigos. Gosto de compartilhar risadas, experiências e construir memórias com aqueles que são importantes para mim. Essa convivência é fundamental para equilibrar minha busca por conhecimento e meu amor pelo entretenimento e tecnologia.

Deixe uma resposta

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Botão Voltar ao topo

Adblock detectado

Olá pessoal! O acesso ao nosso site é gratuito, porém precisamos da publicidade aqui presente para mantermos o projeto online. Por gentileza, considere desativar o adblock ou adicionar nosso site em sua white-list e recarregue a página.