O Avatar de Texto para Fala é um recurso avançado que combina tecnologias de texto para fala com recursos visuais, possibilitando a criação de vídeos sintéticos com avatares fotorrealistas 2D que falam. Esses avatares são treinados por meio de redes neurais profundas, utilizando amostras de gravações de vídeo humano. A voz do avatar é gerada por modelos de voz de texto para fala, proporcionando uma experiência envolvente e realista.
Por que construir avatares?
Existem duas razões fundamentais para o desenvolvimento dessa tecnologia. A primeira é a eficiência na criação de conteúdo de vídeo. Processos tradicionais, como a configuração de ambientes de gravação, filmagens e edições, demandam tempo e orçamento consideráveis. Com o Avatar de Texto para Fala, os usuários podem criar vídeos de treinamento, apresentações de produtos e depoimentos de clientes de maneira mais ágil, utilizando apenas entradas de texto.
A segunda razão é a busca pela naturalidade na interação. Com o lançamento do Azure OpenAI Service e a evolução da conversão de texto em fala neural, a conversa interativa alcança um nível de naturalidade nunca visto. Isso possibilita a criação de agentes de conversação, assistentes virtuais, chatbots e outras interações digitais envolventes.
Fluxo de trabalho do avatar
O processo de geração de conteúdo de avatar envolve três componentes principais: o analisador de texto, o sintetizador de áudio TTS e o sintetizador de vídeo de avatar TTS. O analisador de texto converte a entrada de texto em uma sequência de fonemas, enquanto o sintetizador de áudio TTS prevê características acústicas e sintetiza a voz. O modelo Neural Text to Speech Avatar, em seguida, sincroniza a imagem labial com os recursos acústicos para gerar o vídeo sintético.
Versões disponíveis do avatar de texto para fala
No lançamento, o Azure AI Speech oferece duas versões do Avatar de Texto para Fala: a pré-construída e a personalizada.
Avatar de texto para fala pré-construído
A versão pré-construída disponibiliza avatares prontos para uso no Azure, oferecendo diferentes idiomas e vozes. Os usuários podem selecionar entre diversas opções de avatares para criar conteúdo de vídeo ou interações em tempo real.
Avatar de texto para fala personalizado
Para uma experiência mais única, o recurso personalizado permite que os usuários enviem vídeos do talento do avatar desejado. O sistema utiliza essas gravações para treinar um modelo específico, proporcionando avatares personalizados com vozes pré-construídas ou personalizadas.
Ética e responsabilidade na IA
A Microsoft, comprometida com a inteligência artificial responsável, projeta o Avatar de Conversão de Texto em Fala com a intenção de proteger os direitos individuais e sociais. Essa abordagem visa neutralizar a proliferação de deepfakes prejudiciais e conteúdo enganoso. O recurso de avatar personalizado é de acesso limitado, disponível apenas mediante registro e para casos de uso específicos.
Criando avatares fotorrealistas e levantando questões éticas
No evento Microsoft Ignite 2023, a empresa surpreendeu o público ao apresentar uma ferramenta capaz de criar avatares fotorrealistas e animá-los para proferir discursos predefinidos. Denominado Avatar de Texto para Fala do Azure AI Speech, esse novo recurso está agora em visualização pública.
Potenciais aplicações
Embora essa inovação ofereça possibilidades empolgantes, também levanta questões éticas complexas. A capacidade de criar avatares que reproduzem vozes e expressões faciais levanta preocupações sobre o potencial abuso da tecnologia. A Microsoft reconhece essas preocupações e, por isso, restringe o acesso aos avatares personalizados, permitindo apenas o uso em casos específicos e com consentimento explícito.
Voz Pessoal: outra fronteira da inovação
Além do Avatar de Texto para Fala, a Microsoft lançou também a Voz Pessoal no Ignite. Esse novo recurso permite replicar a voz de um usuário em poucos segundos, abrindo possibilidades para assistentes de voz personalizados e dublagens em diferentes idiomas.
+ OpenAI: rumo a se tornar a App Store da IA
Proteções legais e critérios de acesso
Para mitigar preocupações legais, a Microsoft exige “consentimento explícito” dos usuários antes de permitir o uso de sua voz pessoal. O acesso a esse recurso é restrito, e os clientes concordam em utilizá-lo apenas em aplicativos específicos, onde a voz não lê conteúdo gerado pelo usuário.