В какой среде ИИ генерирует изображения ?

Я конечно понимаю что возможно это глупый вопрос, но в какой среде ИИ генерирует изображения ? Ему разве не нужна дополнительная программа позволяющая ему работать с файлами изображений. Я понимаю как он работает с текстом, но как он взаимодействует с другими типами файлов, с изображениями, со звуковыми файлами, и 3д моделями ?

Внутри для нейросетей это все цифры. Вы точно понимаете как работает тот же токенизатор для текста? Изображения в цифры переводятся даже проще это же координаты точек и их цвет.