Обычно ей «скармливают» большие сегменты изображения из оригинала, рассчитывая, что это поможет лучше определить контекст. Однако создатели данной технологии обучают сеть на небольших фрагментах из двух массивов данных, где находятся примерно одни и те же объекты — например, кусок асфальта или неба, столб, велосипедист или прохожий. Поэтому на конечном результате нет «галлюцинаций» вроде деревьев в небе или логотипов «Мерседес» на капоте автомобиля.