Scribble at 2024-03-19 08:33:45 Last modified: unmodified

添付画像

Introducing Stable Video 3D: Quality Novel View Synthesis and 3D Generation from Single Images

去年から生成 AI の新しい実装が続々と登場しているけれど、このたび静止画から 3D の動画をつくる技術が公開されたという。最初に Hacker News のリンクからアクセスしたときは、このページにアクセスすらできなくて、ようやく見られたと思ったら、サンプルのわずか8秒の動画が読み込めないという状況で、さきほど1日くらいが経過して動画までやっと見られた次第だ。

余談として書いておくと、科学哲学には "scientific realism" という定番の話題があって、円筒を床面から眺める図(要するにただの円)を見せて、これが球の図なのか円の図なのか円筒の図なのか、あるいはもっと別の図なのかを、実際に調べてみることなく知ることなどできないという具合に議論を進めていって、それが何の図であるかは「最初から決まっている」という実在論に対抗する立場というのがある。しばしば、イージーに「反実在論(antirealism)」なとと自称しているのだが、これは僕は哲学者として不適切な呼称だと思っている。言葉というものは、よく馬鹿にしてるけど分析哲学の色々な成果が教えるように、人の思考を規制したり歪める場合がある。それはつまり言葉に適した認知能力の限界だろうし、言葉を使うという能力にかかわる経験の限界だと思うのだが、何にしても自分で自分の思っていることを正確に言葉でいつも表現できているはずだというのは、哲学においてはかなり深刻な(そして、実は初歩的な)思い込みである。

なんで科学的実在論の話をしたかというと、正面の画像だけを入力すれば背後の画像も推測できるという仮定があってこそ、こういう技術が成立するわけなので、そこにどういう設定や理屈があるのかはともかく、こういうアプローチは scientific realism とこれに対抗する antirealism なり経験主義との複合的な理屈だと言ってもいいのかもしれない。なぜなら、そもそも機械「学習」の理論とは、その大半がいまやベイズ主義の統計学を応用していて、それ自体の妥当性についてはともかくフィードバックの仕組みがあるため、背後の画像を推測する精度もどんどん変わっていくからだ(「改善」だという保証はない)。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook