Alibaba запустила группу больших языковых моделей (LLM) с упором на математику под названием Qwen2-Math, которые превосходят GPT-4o и Claude 3.5 в этой области.
«За последний год мы приложили немало усилий для изучения и расширения возможностей рассуждений больших языковых моделей, уделяя особое внимание их способности решать арифметические и математические задачи», — отметила команда Qwen, входящая в состав подразделения облачных вычислений Alibaba.
Модели Qwen2-Math выпущены на базе представленных в июне LLM Qwen2. Утверждается, что флагманская Qwen2-Math-72B-Instruct превзошла американских конкурентов в математике, в том числе GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic, Gemini 1.5 Pro от Google и Llama-3.1-405B от Meta Platforms.
Согласно предоставленной информации, новые ИИ-модели Alibaba протестированы на математических задачах на английском и китайском языках. Они включали:
GSM8K — это набор данных из ~8000 задач для учащихся начальной и средней школы;
OlympiadBench — задачи высокого уровня, требующие абстрактного мышления, логики и математических знаний;
GaoKao — национальный вступительный экзамен в вузы Китая, считается одним из самых сложных в мире.
По словам команды, новые ИИ-модели имеют некоторые ограничения из-за поддержки только английского языка. В ближайшее время планируется выпуск двуязычных LLM, а позже — многоязычных.
Напомним, в августе стало известно о работе Alibaba над генератором изображений Tora.
Ранее техгигант анонсировал выпуск чат-бота с искусственным интеллектом Tongyi Qianwen.