Выпущены новые модели семейства Qwen: Qwen3 с функцией размышлений

Вчера Qwen.AI (AI подразделение Alibaba Group) опубликовали свои новые открытые модели нового поколения Qwen3.

Бенчмарки двух топовых моделей Qwen3 внушают оптимизм

Все модели умеют думать и стало меньше цензуры

На этот раз линейка моделей расширена и содержит модели всех удобных размеров: 0.6B, 1.7B, 4B, 8B, 14B, 32B, 30B-MoE и 235B-MoE.

huggingface.co

Qwen3 - a Qwen Collection

Модели не мультимодальные, но зато все имеют включаемый режим размышлений. Да, даже самая маленькая 0.6B модель может размышлять.

Размер контекстного окна: 32768 для маленьких моделей и 131072 для моделей размером от 4B и больше. Это уже не рекордные значения, но будем честны - мало кто имеет столько VRAM, что бы поместить туда модель и максимальный размер контекста. Для гигантского контекста пока что есть только семейство моделей Llama-4.

Особо хочется обратить внимание на модель 30B-A3B - MoE модель с необычной конфигурацией: 128 экспертов, 8 одновременно активных (3.3B активных параметров). На первый взгляд кажется, что 3.3B активных параметров это не серьезно, но китайцы умеют в какую-то магию (скорее всего очень хороший тренировочный датасет) и эта модель показывает хорошие результаты как по бенчмаркам, так и в первых живых тестах пользователей. Наверное главные особенности этой модели - она неплохо "думает", очень быстрая, ее KV-кэш занимает меньше памяти, деградация скорости на больших контекстах должна быть незначительной.

Модель 30B-A3B может стать новой лучшей локальной LLM

Первые пользовательские тесты показывают, что в новом поколении моделей стало заметно меньше цензуры. Китайцы знают, чем привлекать людей))

Я тоже попробовал Qwen3-30B-A3B и могу сказать, что она на удивление хороша. Пока не ясно, лучше ли она текущего короля локальных LLM в виде QwQ-32B, но как минимум быстрее. Так же у этой модели заметно меньше деградация скорости генерации токенов на больших контекстах: там, где у меня QwQ-32B сдувалась до 10-15 т/с, новая Qwen3-30B-A3B выдает примерно 35-40 т/с, это несколько десятков тысяч токенов контекста.

И с цензурой все действительно лучше. Я здесь не могу выложить примеры запросов и ответов, что бы не спровоцировать роскомнадзор, но Qwen3 без проблем выдает ответы на такие вопросы по биологии, анатомии, химии, политике, на которые все остальные опенсорсные модели категорически отказываются отвечать.

Будем надеется, что через некоторое время они сделают мультимодальную модель размером 12-30B.

#qwen #llama #ai #нейросети #llm