Ты говоришь про грубые переборы всех возможных вариантов, но на деле можно действовать более эффективно. Если вместо фоток участка со 100500 ракурсов на вход подать пару общих планов и какую-нибудь небольшую 3д-геометрию отдельно от картинок, то при правильном обучении этого будет достаточно, чтобы сгенерировать изображения этого места под любым углом.
ну научишь ты нейросетку, что коробка красная, но:
1) у тебя миллионы разных коробок всяких разных цветов.
2) у тебя все равно размер сетки из-за этого будет большой и ресурсов она будет жрать не мало
3) как ты намерен передавать данные о сцене целиком?
вот у тебя 1000 объектов в кадре, вполне ок сценарий.
и тебе надо передать сетке где точно находится каждый объект и какой именно этот объект.
ты прикинь сколько времени нейросетка будет рабирать этот промпт и рисовать по нему кадр?
а еще тут замечу, что чтобы тебе хоть как-то генерировать кадры - это надо минимум за 16мс успевать сгенерить кадр.
4) а еще вопрос качества.
генерацию кадров будут делать явно для 4к.
поэтому чтобы сгенерированный такой нейросеткой кадр был в теории не хуже текущих фреймгенов - он тоже должен быть в 4к.
а в примере нейросетка генерит в лучшем случае 480p кадр!
при этом даже если будет в 4к - я крайне сомневаюсь, что рисуемые таким образом кадры будут ощущаться лучше текущих фреймгенов.
5) учитывая все эти расходы для генерации - в любом случае всегда будет выгоднее не использовать такую генерацию, т.к. подобный метод генерации никогда не будет давать больше фпс чем натив.
6) также делать игры с подобной фигней не будет легче и проще.
банально визуально расставить ассеты по локации - намного проще, чем добиться того чтобы нейроговно расставляло примерно правильно как ты хотел.