Nikita Sushko

+3515
с 2020
6 подписчиков
32 подписки

Читают текст поста только лохи, тру мужики сразу после заголовка идут в комментарии)

2
2

Я бухал с @karasik в питере. Легендарный чувак, докучал ему совместными фотографиями.

4

А какой смысл тренить новую чистую модель с нуля?

Чтобы собрать более тщательно подобранные данные, например. Сейчас в опенсорсе нет хороших моделей-генералистов, которые бы нормально говорили по русски. Гемма не умеет в код (хоть и хорошо говорит), квен приемлемо говорит по русски и нормально пишет код, но иногда, собака такая, вставляет иероглифы, gpt-oss отвратительная в русском.

А если самому собирать дата микс, то можно попробовать получить ту самую модель, которая тебе нужна -- например, выкинуть нафиг из модели китайский и арабский (потому что мы в россии, зачем нам китайский и арабский), влить побольше кода и получить ровно то, что мы хотим.

Причём тюном это не исправится, если в претрейне знаний на другом языке не было, то модель через сфт их не выучит. Кросслингвал трансфер до сих пор не решён, к сожалению.

Вот лидерборд, он не без проблем, но в целом картину показывает:

https://huggingface.co/spaces/kristaller486/RuQualBench

Тем более что это совершенно несложно - обучить модель. Это скрипт буквально 100-150 строчек.

Толсто набрасываешь. Скрипт то 100-150 строчек, но собрать данные, нагенерить синты, провести N экспериментов, чтобы понять что работает, а что нет, собрать свою архитектуру, отладить обучение, чтобы оно было без бабблов и карты не простаивали, замерить модели, запилить пулл реквесты во все популярные движки для инференса, развернуть инфру, нарисовать интерфейс для юзеров и сделать нормальный, не падающий апи для бизнеса, etc.

Это всё равно, что упростить описание работы журналистов до "ну они на кнопки на клавиатуре нажимают, чё там сложного, любой дурак может".

YandexGPT 5 Pro это глубокий тюн квена, лайт это свой претрейн модели с архитектурой Llama 3 8b, они об этом писали в своём репорте:

https://habr.com/ru/companies/yandex/articles/885218/

У Сбера свои претрейны, не на основе других ллмок, они тоже писали об этом на хабре. Плюс, у них в опенсорсе есть (достаточно старый) GigaChat Lite, который архитектурно DeepSeek MoE, но по размеру не совпадает ни с одной моделью от дипсика, так что это тоже свой претрейн.

Комментатор выше просто долбаёб и ссылается через чатгпт на хуйню вместо источников, ничего нового.

А вот Тиньковцы, МТС, Вихри, Сайги и руадапты реально делают просто адаптации китайских и западных моделей, иногда даже через лору, а не свои претрейны.

15
2
1
1

Они есть, как и персонажи, которые рассказывают свои истории. Другой вопрос, что истории кринжовые.

Я кринжанул с хулиганов, которые ухаживают за растениями, кринжанул с челов, которые вбивают свою семью в долги, чтобы быть выстреленными из катапульты вверх и увидеть звёзды (мягкую посадку они не оплачивали, это билет в один конец), я кринжанул с осуждения челов, которые заказали через ГГ пиццу (ну заказали и заказали, вас ебать не должно как я трачу свои деньги) и игру снёс.

4

Если знать куда идти, то оригинальный наверное можно и за 4 пробежать. Суть не в этом, а в том, что игру расширили (душным) геймплеем, а сюжета не добавили.

Оригинальная игра была на 8 часов, ремейк растянули на 16-18, но количество сюжета осталось таким же.

Я дропнул через 8 часов игры, потому что сюжета давали ложку на бочку и хоть и было интересно, что будет дальше, однообразная зачистка комнат задолбала.

Допускаю, что оригинальный сх2 был офигенным (и думаю, что он бы мне зашёл, учитывая, что он короче), но ремейк они испортили своей длиной :(

Надо будет заценить, но боюсь, тоже количество гринда не будет сопоставимо с количеством моего свободного времени.

Жаль, что в сутках всего 24 часа...

1