1年前の2023年6月、画像生成AIである「Stable Diffusion」はまだバージョン1.5。LLM(大規模言語モデル)は「GPT-4」などが既にあったものの、この時点では各々独立して動いており、同じAIと言ってもあまり関係がなかった。
SD 1.5初期の頃、画像として描きたいものを指示する=Promptは、たとえば“1girl, camisole, shorts, at park, sitting on bench”と言った感じで、「タグ」と呼ばれるものをぶつ切りで入れる形式だった。これは学習時、それぞれの画像に多くのタグが付いており、該当するものを引っ張り出すキーワードとなるためだ。ところがSD3 Mediumや最近リリースされたStability AI以外のモデルは、2B程度の理解度と表現力があり、潜在能力を引き出すには「英文での入力」が必要になってきたのだ。“1girl, camisole, shorts, at park, sitting on bench”と入力、ボタンを押し、いったん英文化した後、UpscaleされたPromptは以下のようになる。The image captures a serene moment at a park with a girl as the focal point.
と、画面をざっくり9分割して指示できる。加えてそれぞれのマス目をまた9分割して「slightly to the left」といった感じで指定可能。さらにそのサイズ/縦横比も「large square area」といった感じで指定できる。さすがにここまで細かく書くのも面倒なので、単純に左右に分けて出してみた。ご覧の通りバッチリ出る。Seed違いの画像を生成したい時は、Seedを入力し、の方のボタンを押す。“日本人美女のポートレート撮影。服装はカラフルなサマードレス。背景に夏空。”と書いたところ、直訳は”A portrait of a beautiful Japanese woman in a colorful summer dress with a summer sky as the background.”となっており、それをUpscaleしたものをPromptとして使っている。
ローカルPCの場合、どちらも同時に動かすにはVRAM 24GBでも厳しい状況。これが理由で、LLMは「leliuga/Phi-3-mini-4k-instruct-bnb-4bit」、つまり4bit版を使用している。少し前にご紹介したLM Studioが動いていればOpenAI APIも使えるので、それ用に書き換えるのもありだろう。加えてSD3 Mediumのマージモデル、ptx0/sd3-reality-mixも実行可能にした。
AI Stable Diffusion 記事集約用 レビュー
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
LLM(大規模言語モデル)で、問い合わせ工数を約97%短縮し、海事産業のDXと働き方改革を推進するソリューションを開発〜Amazon Bedrockを利用し、回答精度を30%向上〜LLM(大規模言語モデル)で、問い合わせ工数を約97%短縮し、海事産業のDXと働き方改革を推進するソリューションを開発〜Amazon Bedrockを利用し、回答精度を30%向上〜 株式会社JDSCのプレスリリース
続きを読む »
IQ100超えを達成したAIモデルのClaude 3は「いい性格」を持つようにトレーニングされている元OpenAIのエンジニアが設立したAIスタートアップのAnthropicは、大規模言語モデル(LLM)ベースのチャットAIである「Claude」を開発しており、2024年3月にリリースされた「Claude 3」は推定IQが人間の基準値である「100」を上回ったとして注目を集めています。そんなAnthropicが、「AIモデルに有益な性格特性を持つようにトレーニングする」という試みについて報告しました。
続きを読む »
マイクロソフト「新型PC」にアップルの反撃あるか アップル先行のAI技術領域で勢力図変わる?ChatGPTの登場以降、大規模言語モデル(LLM)がテクノロジー業界の話題を席巻した。グーグルのGemini 1.5やOpenAIのGPT-4oなど、その進化の流れは大方の予想を超える速度で進んでいる。言語モデルを起点に、画像生…
続きを読む »
経済アナリスト vs. GPT-4──生成AIは金融投資にどれくらい使える? 米シカゴ大が研究報告:Innovative Tech(AI+)米シカゴ大学に所属する研究者らは、大規模言語モデル(LLM)、特にGPT-4が企業の財務諸表分析においてどのような能力を発揮するかを検証した研究報告を発表した。
続きを読む »
GPT-4は財務諸表から将来の収益の伸びを予測する点で人間のアナリストよりも優れていることが研究により明らかにOpenAIが開発する大規模言語モデル(LLM)の「GPT-4」は、道徳テストで人間の大学生より優れたスコアをたたき出したり、セキュリティ勧告を読むことで実際の脆弱性を悪用できたりと、すでに一部の分野で人間の能力を超えることが示されています。そんなGPT-4が、プロのアナリストに匹敵する精度の財務諸表分析を行えることが実証されました。
続きを読む »
患者や看護師、医師が全員AI 病院のシミュレーション技術、中国の研究チームが提案:Innovative Tech(AI+)中国の清華大学に所属する研究者らは、大規模言語モデル(LLM)を用いて、患者、看護師、医師などの役割を持つ自律的なエージェントによって構成された病院のシミュレーション環境を提案した研究報告を発表した。
続きを読む »