Подход к датасету. У меня он синтетический(это не плохо, просто я не готовил его специально, а взял первое попавшееся), они не супер похожи, он очень маленький и так же важно то что разрешение было 512, а лица на фото мелкие, для лица лучше тренировать на фотографиях примерно от верхней части груди это самое близкое и по пояс самое далекое. (Примерно!).
Как человек который пишет нейронки:
1. Learning rate это скорость движения вашей точки на градиенте. Чем больше скорость тем быстрее падает ошибка, но вырастает вероятность переобучения + не получится попасть в глобальный минимум функции. Я конечно с этой сетью не работал, но то что я вижу, здесь используется несколько сетей: одна из них учится преобразовывать текст в токены, другая юнэт (не юнит!) видимо учится по этим энкодерам выдавать какой-то результат. Так что ты в целом на интуиции правильно сказал что это стоит покрутить прежде всего)
UPD: ну да, Stable Diffuison использует U-net как backbone.
2. seed обычно используется для фиксирования результатов прогона. Опасно тем, что если его выставить и забыть про него, оптимизатор может свалиться в локальный минимум и не достигнуть нужных значений по ошибке. То есть грубо говоря если тебе мягко говоря не повезёт и оптимизатор пойдет куда-то не туда это будет всегда так на это seed.
3. Learning rate scheduler это не то что бы кривая обучения, это скорее параметр который в какой-то момент заставляет твою learning rate замедляться по какой-то из траекторий. Это необходимо если ты хочешь выжать максимум из своей сети.
4. Stop text encoding training это скорее всего early stop, он обычно применяется если твоя сеть начинает в какой-то момент переобучаться и ты мог остановить её в своем пике
5. Clip skip это скорее всего заморозка слоев. Это нужно если ты хочешь уже готовую сеть натренировать на новой задаче (Transfer learning), либо заморозить пару слоёв и обучить сеть для улучшения результатов (fine-tuning).
6. Оптимизатор это то как будет считаться ваша ошибка. Зачастую если ваши данные говно то эта шутка не спасёт) На моем опыте опять же нужна чтобы вытянуть лучше результаты.
Надеюсь не сильно задушнил но надеюсь будет интересно почитать людям и тебе, спасибо за пост!
Спасибо за комментарий, полезные пояснения, на 90% подтверждают то что я читал. А вот 4 все равно не понял. По какому критерию он тормозит? Когда произошло что?
Нейросети это просто говорили они) Гайд годный. Как раз хотел разобраться в этом.
Да просто, кроме разве что вот этого моментика. В нем полностью кажется не разобрался еще никто. Но мы пытаемся
О, наконец то гайд на человеческом по Лорам, а то эмбеды особо уже не справляются с нужными мне вещами
А если в обучающую модель добавить сканы учебника по рисованию/позингу? Это поможет победить 8-е пальцы?
Вроде как есть лоры обученные на хороших рука, а так же лоры обученные на плохих руках, НО, руки один хер кривые иногда. Но уже есть куча способов этого избежать, вопрос в том хочешь ли ты заморачиваться