В какой среде ИИ генерирует изображения ?

Я конечно понимаю что возможно это глупый вопрос, но в какой среде ИИ генерирует изображения ? Ему разве не нужна дополнительная программа позволяющая ему работать с файлами изображений. Я понимаю как он работает с текстом, но как он взаимодействует с другими типами файлов, с изображениями, со звуковыми файлами, и 3д моделями ?

Ну вообще, ему не нужны отдельные программы для генерации изображений или аудио. Он может буквально писать их в бинарном коде. Это человеку нужен посредник.
Но теперь мне тоже интересно как оно вообще работает.