Azure AI Speech transforma a criação de conteúdo com avatares de texto para fala

O Avatar de Texto para Fala é um recurso avançado que combina tecnologias de texto para fala com recursos visuais, possibilitando a criação de vídeos sintéticos com avatares fotorrealistas 2D que falam. Esses avatares são treinados por meio de redes neurais profundas, utilizando amostras de gravações de vídeo humano. A voz do avatar é gerada por modelos de voz de texto para fala, proporcionando uma experiência envolvente e realista.

Por que construir avatares?

Existem duas razões fundamentais para o desenvolvimento dessa tecnologia. A primeira é a eficiência na criação de conteúdo de vídeo. Processos tradicionais, como a configuração de ambientes de gravação, filmagens e edições, demandam tempo e orçamento consideráveis. Com o Avatar de Texto para Fala, os usuários podem criar vídeos de treinamento, apresentações de produtos e depoimentos de clientes de maneira mais ágil, utilizando apenas entradas de texto.

A segunda razão é a busca pela naturalidade na interação. Com o lançamento do Azure OpenAI Service e a evolução da conversão de texto em fala neural, a conversa interativa alcança um nível de naturalidade nunca visto. Isso possibilita a criação de agentes de conversação, assistentes virtuais, chatbots e outras interações digitais envolventes.

Fluxo de trabalho do avatar

O processo de geração de conteúdo de avatar envolve três componentes principais: o analisador de texto, o sintetizador de áudio TTS e o sintetizador de vídeo de avatar TTS. O analisador de texto converte a entrada de texto em uma sequência de fonemas, enquanto o sintetizador de áudio TTS prevê características acústicas e sintetiza a voz. O modelo Neural Text to Speech Avatar, em seguida, sincroniza a imagem labial com os recursos acústicos para gerar o vídeo sintético.

Versões disponíveis do avatar de texto para fala

No lançamento, o Azure AI Speech oferece duas versões do Avatar de Texto para Fala: a pré-construída e a personalizada.

Avatar de texto para fala pré-construído

A versão pré-construída disponibiliza avatares prontos para uso no Azure, oferecendo diferentes idiomas e vozes. Os usuários podem selecionar entre diversas opções de avatares para criar conteúdo de vídeo ou interações em tempo real.

Avatar de texto para fala personalizado

Para uma experiência mais única, o recurso personalizado permite que os usuários enviem vídeos do talento do avatar desejado. O sistema utiliza essas gravações para treinar um modelo específico, proporcionando avatares personalizados com vozes pré-construídas ou personalizadas.

Ética e responsabilidade na IA

A Microsoft, comprometida com a inteligência artificial responsável, projeta o Avatar de Conversão de Texto em Fala com a intenção de proteger os direitos individuais e sociais. Essa abordagem visa neutralizar a proliferação de deepfakes prejudiciais e conteúdo enganoso. O recurso de avatar personalizado é de acesso limitado, disponível apenas mediante registro e para casos de uso específicos.

Criando avatares fotorrealistas e levantando questões éticas

No evento Microsoft Ignite 2023, a empresa surpreendeu o público ao apresentar uma ferramenta capaz de criar avatares fotorrealistas e animá-los para proferir discursos predefinidos. Denominado Avatar de Texto para Fala do Azure AI Speech, esse novo recurso está agora em visualização pública.

Potenciais aplicações

Embora essa inovação ofereça possibilidades empolgantes, também levanta questões éticas complexas. A capacidade de criar avatares que reproduzem vozes e expressões faciais levanta preocupações sobre o potencial abuso da tecnologia. A Microsoft reconhece essas preocupações e, por isso, restringe o acesso aos avatares personalizados, permitindo apenas o uso em casos específicos e com consentimento explícito.

Voz Pessoal: outra fronteira da inovação

Além do Avatar de Texto para Fala, a Microsoft lançou também a Voz Pessoal no Ignite. Esse novo recurso permite replicar a voz de um usuário em poucos segundos, abrindo possibilidades para assistentes de voz personalizados e dublagens em diferentes idiomas.

+ OpenAI: rumo a se tornar a App Store da IA

Proteções legais e critérios de acesso

Para mitigar preocupações legais, a Microsoft exige “consentimento explícito” dos usuários antes de permitir o uso de sua voz pessoal. O acesso a esse recurso é restrito, e os clientes concordam em utilizá-lo apenas em aplicativos específicos, onde a voz não lê conteúdo gerado pelo usuário.

Thiago Santos 18 de novembro de 2023Última Atualização 18 de novembro de 2023

0 0 3 minutos de leitura

Por que construir avatares?

Fluxo de trabalho do avatar

Versões disponíveis do avatar de texto para fala

Avatar de texto para fala pré-construído

Avatar de texto para fala personalizado

Ética e responsabilidade na IA

Criando avatares fotorrealistas e levantando questões éticas

Potenciais aplicações

Voz Pessoal: outra fronteira da inovação

Proteções legais e critérios de acesso

Thiago Santos

Artigos relacionados

Principais recursos do iPhone 8 são revelados

Pixel Feature Drops: a evolução contínua dos dispositivos Google Pixel

Samsung lança o celular Galaxy Note 7 no Brasil

Previsões e expectativas para o evento da Apple em setembro

Deixe uma respostaCancelar resposta

Adblock detectado