Кoмпaния Meta прeдстaвилa гeнeрaтивную мoдeль пoд нaзвaниeм Voicebox, кoтoрaя прeoбрaзуeт тeкст в рeчь.
Рaзрaбoтчики утверждают, фигли эта модель сделает чтобы устной речи то но самое, что ChatGPT и DALL-E сделали ради текста и изображений.
Аналогично генеративным системам с целью текста и изображений, Voicebox станет создавать новые данные, продавать стили и модифицировать предоставленные образцы. Исполнение) тренировки системы было использовано 50 000 часов записей речи и стенограмм аудиокниг получи и распишись английском, французском, испанском, немецком, польском и португальском языках. Сии материалы находятся в общественном достоянии.
Вследствие Voicebox можно редактировать аудиоклипы, прочь шумы и исправлять неправильно произнесенные болтология. Кроме того, модель может изобр речь, основываясь на двухсекундном фрагменте, испытывать стиль речи между различными языками и выстраивать разнообразные синтетические наборы данных.
Meta отнюдь не публикует исходный код модели, ссылаясь нате потенциальные риски неправильного использования. В в таком случае же время разработчики отмечают тьма(-тьмущая интересных вариантов применения генеративных речевых моделей.