Дружба дружбой, а нейросети врозь. Microsoft устала платить за OpenAI и сделала свои модели
NewsMakerДешевле на 50% и быстрее секунды. Новые модели Microsoft звучат как приговор для OpenAI.
Microsoft тихо перешёл черту, за которой инвестор превращается в конкурента. Компания представила три собственные модели машинного обучения – для распознавания речи, синтеза голоса и генерации изображений. Всё это напрямую перекликается с тем, что уже предлагает OpenAI, в которую Microsoft вложила средства с оценкой около 135 миллиардов долларов.
Новые модели получили названия MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. MAI-Transcribe-1 обеспечивает распознавание речи на 25 языках при затратах на GPU примерно на 50% ниже, чем у конкурентов. MAI-Voice-1 генерирует 60 секунд аудио меньше чем за секунду на одном GPU. MAI-Image-2 – текстово-графическая модель, которая наверняка добавит головной боли цифровым художникам.
Важная деталь: модели уже работают внутри продуктов компании – Copilot, Bing, PowerPoint и Azure Speech, а теперь стали доступны разработчикам через платформу Foundry. Голосовой режим Copilot Audio Expressions работает на MAI-Voice-1, а транскрипция в Voice Mode – на MAI-Transcribe-1.
Среди очевидных сценариев применения – корпоративные голосовые ассистенты, субтитрирование мероприятий и медиаконтента, обучение персонала и анализ фокус-групп. Разработчики уже могут попробовать речевые модели через Azure Speech .
Microsoft тихо перешёл черту, за которой инвестор превращается в конкурента. Компания представила три собственные модели машинного обучения – для распознавания речи, синтеза голоса и генерации изображений. Всё это напрямую перекликается с тем, что уже предлагает OpenAI, в которую Microsoft вложила средства с оценкой около 135 миллиардов долларов.
Новые модели получили названия MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2. MAI-Transcribe-1 обеспечивает распознавание речи на 25 языках при затратах на GPU примерно на 50% ниже, чем у конкурентов. MAI-Voice-1 генерирует 60 секунд аудио меньше чем за секунду на одном GPU. MAI-Image-2 – текстово-графическая модель, которая наверняка добавит головной боли цифровым художникам.
Важная деталь: модели уже работают внутри продуктов компании – Copilot, Bing, PowerPoint и Azure Speech, а теперь стали доступны разработчикам через платформу Foundry. Голосовой режим Copilot Audio Expressions работает на MAI-Voice-1, а транскрипция в Voice Mode – на MAI-Transcribe-1.
Среди очевидных сценариев применения – корпоративные голосовые ассистенты, субтитрирование мероприятий и медиаконтента, обучение персонала и анализ фокус-групп. Разработчики уже могут попробовать речевые модели через Azure Speech .