Компания Meta презентовала новую модель ИИ, позволяющую распознавать человеческую речь и параллельно переводить ее на 100 языков мира.
Нейросеть от Meta получила название SeamlessM4T. Еще одна особенность мультимодальной модели заключается в том, что она умеет создавать голосовую речь из предоставленного текста. На момент публикации новости доступны сразу 35 языков, позднее планируется расширение их количества. Нейросеть также умеет переводить на тот или иной язык сразу несколько языков.
Для обеспечения многоязычности, нейросеть применяет огромный массив данных, созданных на базе больших языковых проектов. Благодаря этому, SeamlessM4T умеет:
- Распознавать речь (поддерживается 100 самых распространенных языков мира);
- Производить перевод речи в текст на то же количество языков;
- Преобразовывать речь в речь на другом языке (пока доступны 36 языков, имеется поддержка русского языка);
На момент публикации новости, нейросетью SeamlessM4T могут воспользоваться исключительно разработчики или исследователи в данной области. Для ознакомления возможностями мультимодальной модели можно воспользоваться сайтом нейросети.