Статья удалена
И так, перед тем как вкатываться в GenAI, определитесь с тем что вам интересно: 1) исследования 2) фреймворки и инфраструктура 3) компиляторы.
Данный список больше всего подходит инженерам и студентам которым интересно работать над фреймворками и инфраструктурой для AI, но также дает некоторое представление о том что сейчас происходит в области исследования и компиляторов.
Если у вас нет GPU от NVIDIA под рукой для самостоятельного обучения – воспользуйтесь бесплатным Nvidia T4 в Google Colab. Это что-то около RTX 2070 по производительности с 12GB VRAM (да, в отличае от геймеров, наносекам можно бесплатно пользоваться RTX 2070). Насколько я помню каких-то жестких лимитов по использованию там нет.
Общие статьи про AI и по программированию AI-систем:
- Книга "Дизайн Систем Машинного Обучения". Валерий Бабушкин, автор книги довольно известный автор и успел поработать в компаниях от X5, Яндекса и Facebook, до British Petroleum.
- Книга (бесплатная веб-версия по ссылке) "Глубокое Введение в Глубокое Обучение" от Александра Смолы.
- Бесплатная веб-книга о том как пройти собеседование на ML-инженера. Мне в свое время очень помогла.
- Мощнейший онлайн-курс от Елены Войты по NLP с кодом и иллюстрациями.
- Множество полезных ссылок от архитектора Google по GenAI которые помогли ему пройти собеседование.
Методы для распределенного машиного обучения
- Введение в тензорный параллелизм о том как можно распиливать большие модели на маленькие части для вычисления на нескольких GPU.
- Видео-лекция про распределённые AI-модели от NVIDIA.Обзор метода Pipeline Parallelism.
- Еще один материал про параллелизм AI-моделей.
- Статья про state-of-the-art метод Fully-Sharded-Data-Parallel от Meta, еще один подход к тензорному параллелизму.
- Статья про GSPMD от Google.
- Статья про Zero от Microsoft которую лучше почитать прежде чем братья за FSDP.
- Гайд от Nvidia по коллективным операторам в Никле (NCCL, collective ops) – AllReduce, All Gather, Reduce Scatter и вот это все.
Трансформеры и PyTorch
- Главная статья про трансформеры – Attention Is All You Need.
- Гайд с иллюстрациями по трансформерам.
- Еще одна статья о том как работают трансформеры с обзором токенизаторов, позиционных эмбедингов и механизма внимания.Видео-лекция про распределённое обучение на PyTorch.
- Обзор оптимизаторов: GD, SGD, Adam и вот это все.
- Еще одна статья про оптимизаторы.
- Практический курс от создателя FastAI.
- Еще один курс по AI.
- Лекции от курса Стенфорда CS231n про FlashAttention – передовой метод ускорения для механизма внимания.
- От нуля к герою – курс о том как написать и обучить трансформер с нуля от известнейшего Андрея Карпаты.
Что посмотреть / почитать на русском?
Знаете другие хорошие материалы? Кидайте в комментариях!