Bakur

+4679
с 2022
3 подписчика
35 подписок

То-то и оно! По этому звучит как херня кака-то

8B модель? Ну такое. Нынешние открытые модели уже перевалили за 1.1T параметров.
+ куда складывать KV- cache?

Ну так в целом это же сюр просто признавать нежелательными результаты работ целых иностранных вузов.

1

Но фепесы выше и идет на калькуляторе

А, мне показалось что 1. - это пункт. Я перебрал ТЗ на работе

Ты в ведьмак играл 500 часов? Ладно там балдурс гейт, но ведьмак? Что там делать 500 часов?

Bakurв посте

Какая в целом разница кто ее обучил (спойлер: скорей всего китайцы)? Главное что бы работала нормально. Сама llm в инет не ходит, у ллм сервера может легко вообще не быть никакого доступа в инет. Это делает отдельный парсер который кидает ллм контекст из найденых источников в интернете. LLM тут только пишет запрос который отрабатывает парсер.

1