Такие дела
1. Модели, используемые для решения задач ИИ
В искусственном интеллекте модель — это формализованное представление предметной области, отражающее существенные свойства исследуемого объекта, процесса или системы. В ИИ применяются математические, логические, графовые и алгоритмические модели, предназначенные для аппроксимации неизвестных зависимостей, поиска оптимальных решений, классификации образов и прогнозирования на основе структурированных или неструктурированных данных.
2. Классификация моделей. Математические модели
Модели классифицируются по характеру протекающих процессов (детерминированные и стохастические/вероятностные), по способу представления (аналитические, численные, имитационные), по фактору времени (статические и динамические) и по типу решаемых задач (оптимизационные, предиктивные). Математическая модель — это абстракция, описывающая поведение или свойства системы исключительно с помощью математического аппарата (алгебраических и дифференциальных уравнений, неравенств, тензоров, логических предикатов).
3. Свойства математических моделей
К фундаментальным свойствам относятся:
адекватность (способность модели соответствовать оригиналу в рамках поставленной задачи);
точность (степень совпадения расчетных значений с эмпирическими данными);
робастность (устойчивость к шумам, выбросам и малым изменениям входных параметров);
универсальность (применимость модели к целому классу однотипных задач);
вычислительная эффективность (алгоритмическая сложность и затраты ресурсов на реализацию).
4. Точность и адекватность моделей
Адекватность определяет качественную и принципиальную способность модели отражать истинные закономерности реальной системы с учетом принятых допущений и гипотез. Точность — это количественная мера погрешности, оценивающая расхождение между результатами моделирования и реальными наблюдениями (обычно выражается через функции потерь). Высокоточная на обучающей выборке модель может быть абсолютно неадекватной в реальных условиях вследствие эффекта переобучения.
5. Обработка табличных данных как метод построения модели. Построение регрессионной модели на основе МНК
Табличные данные формализуются в виде матрицы "объекты-признаки". Построение регрессии сводится к поиску функциональной зависимости целевой переменной $y$ от вектора признаков $X$. Метод наименьших квадратов (МНК) — аналитический метод оценки коэффициентов $\beta$ для линейной регрессии $\hat{y} = X\beta$. Оптимальные веса находятся путем минимизации суммы квадратов остатков: $L = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \rightarrow \min$. Аналитическое решение МНК имеет вид $\beta = (X^T X)^{-1} X^T y$.
6. Детерминированные модели: задача о назначениях
Это частный случай транспортной задачи линейного программирования. Формулируется как задача поиска оптимального (взаимно однозначного) соответствия между элементами двух множеств (например, $N$ исполнителей и $N$ работ) с целью минимизации суммарных затрат или максимизации эффективности. Вводится булева переменная $x_{ij} \in \{0, 1\}$, а целевая функция представляет собой минимизацию суммы произведений матрицы стоимостей $C_{ij}$ на матрицу назначений $x_{ij}$ при строгих ограничениях на уникальность распределения.
7. Детерминированные модели: Задача линейного программирования. Графическое решение
ЗЛП заключается в поиске глобального экстремума (максимума или минимума) линейной целевой функции $F(x) = c^T x$ при соблюдении ограничений, заданных линейными уравнениями или неравенствами. Графический метод применим для задач в двумерном пространстве ($n=2$). Система ограничений образует на координатной плоскости выпуклый многоугольник допустимых решений. Вектор-градиент целевой функции указывает направление наискорейшего возрастания. Оптимальное решение всегда достигается как минимум в одной из крайних точек (вершин) этого многоугольника.
8. Задача линейного программирования. Симплексный метод решения
Симплекс-метод — универсальный аналитическо-итерационный алгоритм решения ЗЛП в многомерном пространстве. Геометрически он представляет собой направленный обход вершин многогранника допустимых решений. Алгебраически метод заключается в составлении симплекс-таблицы и последовательном переходе от одного базисного допустимого решения к другому путем преобразований Жордана-Гаусса. Переход осуществляется строго в направлении улучшения значения целевой функции до выполнения критерия оптимальности.
9. Понятие оптимизации и методов оптимизации
Оптимизация — это математическая дисциплина, изучающая теорию и методы нахождения экстремума целевой функции в заданной области допустимых значений. В ИИ оптимизация чаще всего сводится к минимизации функции эмпирического риска (функции потерь). Методы оптимизации — это конкретные алгоритмы поиска оптимального вектора параметров; они делятся на локальные и глобальные, условные и безусловные, нулевого, первого (градиентные) и второго порядков.
10. Аналитические и численные методы оптимизации
Аналитические методы позволяют найти точное оптимумное решение в виде замкнутой математической формулы (например, приравнивание первой производной к нулю и решение полученного уравнения относительно переменной). Численные методы применяются, когда аналитическое решение недостижимо из-за вычислительной сложности или нелинейности. Они генерируют последовательность точек, которая итеративно сходится к локальному или глобальному экстремуму с заданной степенью точности.
11. Методы градиентного спуска
Это численные методы оптимизации первого порядка для дифференцируемых функций. Суть заключается в итеративном обновлении параметров в направлении антиградиента (наискорейшего убывания) функции потерь. Правило обновления весов: $\theta_{t+1} = \theta_t - \eta \nabla L(\theta_t)$, где $\nabla L$ — вектор градиента, а $\eta$ — гиперпараметр скорости обучения (learning rate). Основные модификации в машинном обучении: стохастический (SGD), мини-пакетный градиентный спуск, а также адаптивные алгоритмы (Adam, RMSprop).
12. Машинное обучение с учителем (Supervised Learning)
Парадигма обучения, при которой алгоритм обучается на предварительно размеченном наборе данных. Вектору входных признаков $x_i$ всегда соответствует известный эталонный ответ $y_i$. Задача модели — обнаружить скрытые паттерны и аппроксимировать зависимость $y = f(x)$, чтобы способно обобщать эти знания для предсказания ответов на новых, ранее не встречавшихся данных. Основные классы задач: классификация (дискретный ответ) и регрессия (непрерывный ответ).
13. Обучение без учителя (Unsupervised Learning)
Парадигма, в которой обучающая выборка состоит исключительно из векторов входных признаков $x_i$, без заранее заданных целевых меток $y_i$. Модель должна самостоятельно обнаружить внутреннюю структуру, корреляции и скрытые закономерности в данных. Основные классы задач: кластеризация (группировка объектов), поиск ассоциативных правил, методы снижения размерности пространства признаков и обнаружение аномалий.
14. Методы машинного обучения на основе kNN. Классификация
k-Nearest Neighbors (k-Ближайших Соседей) — это метрический алгоритм ленивого обучения (lazy learning). На этапе предсказания для нового объекта вычисляются метрики расстояния от него до всех объектов обучающей выборки. Отбираются $k$ объектов с минимальным расстоянием. Новый объект относится к тому классу, который доминирует (мажоритарное голосование) среди его $k$ ближайших соседей.
15. Методы машинного обучения на основе kNN. Кластеризация
Концепция анализа расстояний до соседей адаптирована и для кластеризации (например, в плотностных алгоритмах DBSCAN или OPTICS). Объекты объединяются в единый кластер, если они находятся на расстоянии, не превышающем заданный порог $\epsilon$, и образуют области высокой плотности в признаковом пространстве, в то время как объекты с малым числом соседей идентифицируются как шум.
16. Методы машинного обучения на основе kNN. Регрессия. Понятие регуляризации
В задачах регрессии kNN прогнозирует непрерывное значение целевой переменной как среднее арифметическое (или взвешенное среднее, обратно пропорциональное дистанции) значений целевой переменной у $k$ ближайших соседей.
Регуляризация — это метод контроля сложности модели для предотвращения переобучения. В параметрических моделях (линейная регрессия) это добавление штрафа за абсолютную величину весов ($L1$ и $L2$ регуляризация). В алгоритме kNN роль регуляризатора выполняет гиперпараметр $k$: его увеличение сглаживает предсказания и уменьшает дисперсию модели.
17. Сравнение объектов, метрики близости для качественных и количественных признаков
Сравнение объектов осуществляется через вычисление расстояний в признаковом пространстве. Для количественных (непрерывных) признаков используются метрики Минковского: евклидово расстояние ($L_2$) и манхэттенское расстояние ($L_1$). Для качественных (категориальных) признаков применяются метрики сходства: расстояние Хэмминга (число несовпадающих признаков), коэффициент Жаккара (отношение мощности пересечения множеств к их объединению) или косинусное сходство после векторизации.
18. Измерение ошибок моделей машинного обучения для классификации, регрессии, кластеризации
Метрики регрессии: MSE (среднеквадратичная ошибка), MAE (средняя абсолютная ошибка), $R^2$ (коэффициент детерминации).
Метрики классификации: Accuracy (доля верных ответов), Precision (точность), Recall (полнота), F1-Score (гармоническое среднее точности и полноты), площадь под ROC-кривой (ROC-AUC).
Метрики кластеризации: Коэффициент силуэта (оценивает плотность кластеров и расстояние между ними), индекс Дэвиса-Болдина (сравнение дисперсии внутри кластера с расстоянием до других центроидов).
19. Выбор гиперпараметров. Понятие кроссвалидации
Гиперпараметры — это настройки модели, задаваемые исследователем до начала обучения (например, глубина дерева, параметр регуляризации, $k$ в kNN). Кросс-валидация (перекрестная проверка) — метод строгой оценки обобщающей способности. Выборка разбивается на $N$ непересекающихся фолдов (блоков). Модель обучается $N$ раз на $N-1$ фолдах и валидируется на оставшемся тестовом фолде. Итоговая метрика усредняется, что позволяет объективно выбрать гиперпараметры без привязки к случайному разбиению.
20. Веса признаков
Вес признака (Feature Importance) — это числовой коэффициент, отражающий степень влияния конкретного независимого признака на значение целевой функции. В линейных моделях веса — это коэффициенты при независимых переменных в уравнении регрессии. В методах, основанных на решающих деревьях, важность признака рассчитывается на основе того, насколько сильно этот признак снижает неоднородность (энтропию или индекс Джини) в узлах при разделении данных.
21. Понятие и причины переобучения
Переобучение (Overfitting) — явление, при котором алгоритм фиксирует не только фундаментальные закономерности обучающей выборки, но и случайный шум, выбросы и аномалии. В результате ошибка на обучающих данных стремится к нулю, но на тестовых (новых) данных резко возрастает. Причины: чрезмерная алгоритмическая сложность модели, недостаточный объем обучающей выборки (проклятие размерности), сильная корреляция признаков (мультиколлинеарность) и отсутствие механизмов регуляризации.
22. Настройка методов kNN
Параметрическая настройка kNN включает два основных этапа:
- Подбор оптимального числа соседей $k$ (оптимум ищется по сетке GridSearchCV с помощью кросс-валидации).
- Выбор функции расстояния (Евклидово, Манхэттенское, Чебышева).Также важным этапом является обязательное масштабирование (стандартизация или нормализация) всех входных признаков, поскольку метод критически чувствителен к разнице в абсолютных величинах (размерностях) переменных.
23. Использование методов градиентного спуска в машинном обучении
Методы градиентного спуска лежат в основе обучения всех дифференцируемых моделей (логистической регрессии, машин опорных векторов, нейронных сетей). Они позволяют итеративно обновлять матрицу весов алгоритма, двигаясь по поверхности функции потерь к ее локальному или глобальному минимуму. Градиенты вычисляются по частным производным функции ошибки по каждому весу алгоритма.
24. Построение регрессии методом машинного обучения. Использование признаков разных типов
Для работы алгоритмов все нечисловые признаки должны быть преобразованы в числовые тензоры.
Числовые непрерывные признаки: подвергаются масштабированию (MinMax Scaler или StandardScaler) для выравнивания их влияния на градиенты и расстояния.
Категориальные (порядковые и номинальные) признаки: кодируются методами One-Hot Encoding (создание фиктивных бинарных переменных для каждой категории) или Label Encoding. После унификации всех типов данных матрица подается на вход регрессионному алгоритму.
25. Построение регрессии методом машинного обучения. Функции потерь
Функция потерь (Loss Function) количественно выражает несоответствие прогноза модели истинному ответу. Основные функции для регрессии:
MSE (Mean Squared Error): $L = \frac{1}{n} \sum (y_i - \hat{y}_i)^2$ — сильно штрафует алгоритм за крупные выбросы.
MAE (Mean Absolute Error): $L = \frac{1}{n} \sum |y_i - \hat{y}_i|$ — более робастна к аномалиям, производная постоянна.
Функция потерь Хьюбера: комбинирует свойства MSE для малых ошибок и MAE для больших выбросов. Алгоритм обучается путем минимизации выбранной функции.
26. Понятие разделения на классы. Методы классификации: дерево решений, построение правил разделения
Разделение на классы — это процесс построения гиперплоскостей или сложных границ в n-мерном признаковом пространстве, изолирующих объекты разных категорий. Дерево решений (Decision Tree) производит рекурсивное бинарное разбиение пространства с помощью предикатов (правил) вида $x_j \leq t$. Порог разделения $t$ для признака $x_j$ выбирается так, чтобы максимизировать информационный выигрыш (Information Gain), тем самым максимально очищая дочерние узлы (листья) от примесей других классов.
27. Понятие разделения на классы. Методы классификации: Вероятностные методы
Вероятностные алгоритмы не строят строгих детерминированных границ, а моделируют плотности распределения данных. Они вычисляют апостериорную вероятность принадлежности объекта к конкретному классу $P(Y|X)$. Основной алгоритм — Наивный байесовский классификатор. Он опирается на теорему Байеса и "наивное" допущение о статистической независимости всех признаков. Объект классифицируется по правилу максимума апостериорной вероятности: $\hat{y} = \arg\max P(y) \prod P(x_i|y)$.
28. Понятие кластера, методы кластеризации
Кластер — это подмножество точек выборки, характеризующееся высокой внутрикластерной плотностью (объекты максимально похожи) и значительным межкластерным расстоянием (объекты разных групп отличны друг от друга).
Основные методы:
Центроидные (K-means): минимизация суммарного квадратичного отклонения точек кластеров от их центров масс (центроидов).
Иерархические (Агломеративные): последовательное объединение ближайших точек/кластеров с построением графа-дендрограммы.
Плотностные (DBSCAN): выделение связных областей высокой локальной плотности в пространстве. Стойки к кластерам сложной формы и шумам.