画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている
なにより衝撃的だったのは、「アニメ風の少女と猫が遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性ですね。Stable Diffusionでは「猫と紐」、「少女と紐」などの関係性が破綻しやすいので、それが破綻なく、バシッと出てきたことに「おおっ!?」と驚きました。画風をリアルにして、猫だけで背景を雨で映画のワンシーンに、背景を日本風にして傘を指した少女を立たせて、といろいろ注文していくが、それに対応して、画像が作られていくSNSでもさっそく様々なユーザーが色々と試している様子が出てきますが、なかでも話題になっていたのは「ラーメンを食べる女の子」ですね。Stable Diffusionなどでは苦手とされていたモチーフですが、DALL·E...
それなら意地悪しようということで女の子をサイボーグにしてみましたが、ちゃんと食べてくれました。さらに体を半透明にして、虹色に光らせてくださいと指示をしても大丈夫。おまけに背景をサイバーパンクにしてくれと言ってもついてきてくれました(笑)。これはすごいなと。一方、Stable Diffusion XLはどうかというと、相変わらず麺と箸がぐちゃぐちゃに混ざっている。ラーメンの形状もちょっとあやしい感じで、背景のラーメン屋も破綻しているような気がします。圧倒的な性能差を見せつけられました。画像生成AIではこれまでここまでしっかりとオブジェクト間の関係性を表現できたツールはなったように思います。 記事によれば、Stable Diffusionのような画像生成AIは基本的に、エンコードのときノイズを増やして、単語に紐付けている。デコードのときは特徴点空間のなかから特徴的なワードを出しているだけなので、関係性が存在していない。そのため、画面に登場する構成物をそのまま描写してしまい、ぶつ切りの状態になってしまうと。
一方、DALL·Eは学習のプロセスは似ているんだけど、画像を生成するときに「コーギー犬が炎を上げるトランペットを演奏している」といったテキストの場合、まず、可能性空間のなかで、文章からオブジェクト同士の関係性がどのようなものなのかを予測をさせて、抽象的な概念図的なものを作らせたうえでデコードをかけて画像にしていく。それによってモノとの関係性が的確に生成できるようになっていると。そのためプロンプトに忠実で、かつ、オブジェクト同士の関係性が整理された最終画像になるという仕組みのようです。 DALL-Eの処理方法の概念図。上が学習のやり方と既存の方法による生成プロセスで、下がDALL·E 3が採用している生成プロセス。上は、単語を分析してそのまま画像にしているが、下は、生成時には、まず言葉を分析して、それぞれの関係性を予測させてから、画像を生成している(OpenAIのDALL-Eの理論的な基礎を解説している論文"Hierarchical Text-Conditional Image Generation with CLIP Latents"より)
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
OpenAI、画像生成AI「DALL·E 3」発表 ChatGPTから利用可能にOpenAIは最新版の画像生成AI「DALL·E 3」を発表。有料版の「ChatGPT Plus」と10月に連携させる予定だ。
続きを読む »
AOSデータ社、「クリエイティブテック×AI/DXフォーラム」開催〜メタバース、XR、ブロックチェーン、画像生成AI、クリエイターエコノミーのDX事例〜AOSデータ株式会社のプレスリリース(2023年9月14日 13時00分)AOSデータ社、[クリエイティブテック×AI/DXフォーラム]開催~メタバース、XR、ブロックチェーン、画像生成AI、クリエイターエコノミーのDX事例~
続きを読む »
テキストで指定した音楽を自動で生成するAI「Stable Audio」が登場画像生成AI「Stable Diffusion」の開発で知られるAI開発企業のStability AIが音楽生成AI「Stable Audio」をリリースしました。Stable Audioを使えば文章で指示するだけで音楽を生成できるとのこと。ただし、記事作成時点ではアクセス過多によって音楽生成が失敗する状況に陥っています。
続きを読む »
アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化 (1/3)画像生成AI「Stable Diffusion」などで使える新技術「AnimateDiff」の進化がすごい。アニメーションのいわゆる「中割」が作成できて、アニメの常識を変える可能性が出てきた。
続きを読む »
【画像生成AI無制限無料】GPT-4・Bard無料「AIOne」画像生成AI「Stable Diffusion」(改良版)を無制限で無料提供【8/31まで】Topaz合同会社のプレスリリース(2023年8月25日 21時06分) 画像生成AI無制限無料 GPT-4・Bard無料[AIOne]画像生成AI[Stable Diffusion](改良版)を無制限で無料提供 8/31まで
続きを読む »