A Xiaomi será mais conhecida pelos smartphones e inúmeros produtos IoT, mas há mais substância nesta marca para lá dos seus equipamentos mais famosos. A marca revelou agora uma tecnologia Text-To-Speech desenvolvida pelo Xiaomi AI Lab que permite gerar uma voz única e personalizada para utilizadores com perturbações de fala.
Esta voz única substitui as vozes eletrónicas mais conhecidas, permitindo a alguém com uma perturbação da fala comunicar com terceiros num tom natural. A iniciativa surgiu do projeto “Own My Voice”, liderado pelo comité “Tecnologia para o Bem”, da Xiaomi.
Porque é que Xiaomi lançou este projeto?
A Xiaomi preocupa-se com as pessoas e esforça-se por satisfazer as suas necessidades através da inovação tecnológica. Descobriu o desejo de muitos utilizadores com distúrbios da fala em possuir as suas vozes únicas para a comunicação diária e criou a equipa do projeto “Own My Voice” para convidar um utilizador com distúrbios da fala como o recetor da voz. Zhu Xi, responsável do Comité Tecnológico sobre “Tecnologia para o Bem” da Xiaomi Corporation, disse: “Estamos entusiasmados por explorar os múltiplos valores que a inovação tecnológica nos traz, tais como responder às exigências dos utilizadores em relação à sua identidade e à construção da identidade”.
Como é que Xiaomi levou a cabo o projeto?
A fim de gerar a voz mais adequada e personalizada para o destinatário, a equipa recrutou mais de 200 voluntários dentro da Xiaomi para doarem as suas vozes. Utilizaram o algoritmo de correspondência de vozes para fazer corresponder as características das vozes doadas pelos voluntários com as da voz do destinatário. Através desta abordagem, encontraram a voz mais adequada como o som básico de referência de voz para o destinatário. Tendo em conta a personalização e proteção da privacidade, a voz real escolhida foi manipulada com modificações acústicas complexas para formar um som de voz novo e original.
De seguida, utilizaram a tecnologia Text-To-Speech de estilo espontâneo para treinar o modelo AI, fazendo com que esta nova voz ganhasse gradualmente um ritmo natural e uma entoação capaz de expressar com verdade a emoção e o tom de um humano.
O projeto “Own My Voice” combina uma variedade dos algoritmos mais avançados com a tecnologia de fala autodesenvolvida da Xiaomi para assegurar a especificidade, segurança e elevada genuinidade da voz sintetizada, criando uma nova ideia de síntese de fala personalizada para utilizadores com perturbações da fala.
Qual é o significado do projeto?
A espinha dorsal deste projeto é um grupo de especialistas em tecnologia da fala do Xiaomi AI Lab. Desde 2017, publicaram 37 comunicações sobre a fala nas atas de conferências internacionais de topo, tais como a Conferência Internacional sobre Acústica, Discurso e Processamento de Sinal (ICASSP). O sucesso de “Own My Voice” depende principalmente da tecnologia Text-To-Speech de estilo espontâneo desenvolvida por eles.
A tecnologia Text-To-Speech de estilo espontâneo torna a voz sintetizada como a de um verdadeiro ser humano na sua entoação, pausa, velocidade e outras características. Isto substitui a sensação monótona e antinatural da voz eletrónica por uma voz mais natural. Atualmente, esta tecnologia aplica-se a muitos dispositivos inteligentes equipados com Xiaoai, o assistente de voz AI da Xiaomi. O projeto “Own My Voice” mostra que a tecnologia Text-To-Speech de estilo espontâneo também pode ser amplamente adotada em áreas de acessibilidade e melhorar a experiência do utilizador.
Zhu Xi acrescentou: “Se notarmos e abordarmos as necessidades dos grupos minoritários numa fase inicial, o processo de difusão da tecnologia poderá ser grandemente encurtado. Isto permite que os benefícios das novas tecnologias se tornem acessíveis aos utilizadores com necessidades especiais sem demora”.
Seguindo em frente, a Xiaomi continuará a receber feedback do destinatário da voz e continuará a estudar a viabilidade deste projeto numa gama mais alargada. A Xiaomi continuará a capacitar a acessibilidade através de tecnologia de ponta, esforçando-se por satisfazer as diversas necessidades das pessoas através da inovação tecnológica.