現在の画像生成AIで生成した画像を人間の活動内容に例えると、体で描く絵ではなく、睡眠中に見る夢に近いのかもしれない、と思う。
現在の画像生成AIが学習する対象は、まず立体ではなく平面に投影された視覚情報で、さらには、おそらく大部分が静止画像であろうと思う。
平面に投影される時点で、三次元情報が大幅に削ぎ落とされ、異なる角度からの情報を追加することもできなくなる。
「三次元情報を直接得られない」「能動的に変化を起こせない」といった特徴を持つ視覚情報は、人間で言えば「過去の記憶」が近いように思える。
そうした情報、つまり過去の記憶を整理して出力する行為は、人間で言えば、「睡眠中に夢を見る」という行為に近いような気がする。