А если серьёзно, спасибо RLHF. Методики обучения с подкреплением на основе обратной связи от человека. Процесс, в котором модель учится генерировать ответы, которые нравятся аннотаторам. А этим самым аннотаторам нравится лесть приводит к тому, что ии поддерживает даже самую чушь.