GPT-5.2 вышел. Похоже, это конец RAG
Итак, OpenAI вчера выкатили GPT-5.2, и это, кажется, переломный момент для всей архитектуры RAG.
Смотрите на их графики по 4-needle challenge. GPT-5.1 начинал "терять" информацию где-то после 256K токенов. А вот GPT-5.2 держит почти 100% эффективности на всем контекстном окне в 400K токенов.
Что это значит на практике? Вы можете взять всю книгу "Harry Potter and the Order of the Phoenix" и просто задавать вопросы через API. Без векторной базы. Без чанкинга. Без BM25. Просто закидываете книгу целиком и спрашиваете.
Вывод: как я и предсказывал год назад - по мере эволюции LLM классический RAG будет вытесняться Agentic Search, где агент итеративно ищет по данным, пока не найдет лучший ответ.
А теперь самое интересное - три последствия длинного контекста:
Retrieval-инфраструктура радикально упрощается. Зачем городить пайплайн с эмбеддингами, если можно заплатить меньше доллара за запрос к целой книге? Да, это дороже на единичный запрос, но инфраструктурные косты и время разработки падают в ноль.
Агенты становятся умнее. Когда вся память агента помещается в контекст целиком, он работает с информацией как единое целое, а не собирает пазл из кусочков.
Legacy-бизнесы в выигрыше. Теперь можно брутфорсить большинство задач просто длинными промптами. Не нужна сложная архитектура - закинул документы, задал вопрос, получил ответ.
Уже обновились до 5.2?