То-то и оно! По этому звучит как херня кака-то
8B модель? Ну такое. Нынешние открытые модели уже перевалили за 1.1T параметров.
+ куда складывать KV- cache?
Угу ток сады с 8
Дет сады до 6 вечера
Ну так в целом это же сюр просто признавать нежелательными результаты работ целых иностранных вузов.
Но фепесы выше и идет на калькуляторе
А, мне показалось что 1. - это пункт. Я перебрал ТЗ на работе
Ты в ведьмак играл 500 часов? Ладно там балдурс гейт, но ведьмак? Что там делать 500 часов?
Какая в целом разница кто ее обучил (спойлер: скорей всего китайцы)? Главное что бы работала нормально. Сама llm в инет не ходит, у ллм сервера может легко вообще не быть никакого доступа в инет. Это делает отдельный парсер который кидает ллм контекст из найденых источников в интернете. LLM тут только пишет запрос который отрабатывает парсер.
"Сиквел второй части Fallout" не лучше ли было просто написать "триквел"? Или просто "новая часть"?