Именно что копируют, но не все целиком, а отдельные части (пиксели если хочешь), а если быть точнее то последовательности пикселей...
Никакие последовательности пикселей не копируются. Там именно по сути тоже обучение, как у человека, когда запоминаются какие-то размытые слабые образы или вообще эмоции вместо самой картинки, что потом ложится в основу его (человека) творчества.
База данных какой-нибудь LLM, способная генерить ответы и картинки на большинство тематик, занимает сколько-то десятков гигабайт. Чисто текстовые даже меньше 10 гб есть. И обучилась она при этом на терабайтах или петабайтах данных, вычисляя всякие закономерности и научившись понимать контекст. И никаких там пикселей из конкретных просмотренных текстов, картинок или видео она не хранит - для этого чисто физически нет места, да и в целом итоговая структура там другая, основанная на всяких весовых коэффициентах, а не на четком запоминании исходных данных.
Попроси такую сетку сделать копию картинки/видео, на которой она обучена, и ты получишь исключительно вариации на тему, а не копию. Там будет заметна некая основа, но результат станет полностью оригинальный (от сетки).