GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?

日本 ニュース ニュース

GPT-4oはどのように画像をエンコードしてトークンに分解しているのか?
日本 最新ニュース,日本 見出し
  • 📰 gigazine
  • ⏱ Reading Time:
  • 13 sec. here
  • 2 min. at publisher
  • 📊 Quality Score:
  • News: 8%
  • Publisher: 51%

AIチャットサービス「ChatGPT」のモデルの1つ、GPT-4oは、人間から受け取ったテキストをまず「トークン」に処理した後、AIが扱いやすい数値ベクトルに変換して計算を行います。画像でも同様の処理を行いますが、その際にどのような処理をしているのか、プログラマーのオラン・ルーニー氏が推測しました。

GPT-4oが高解像度の画像を処理する際は、画像を512x512ピクセルのタイルに切り分けて処理し、1タイル当たり170トークンを消費します。この「170トークン」という数字に着目したルーニー氏は、「OpenAIが使う数字にしては中途半端すぎる」と指摘し、なぜ170という数字が出てくるのかを調査しました。

画像をベクトル空間にマッピングする単純な方法として、まず512x512の画像を64個の「ミニタイル」に分割する方法があります。各ミニタイルは64×64ピクセルで、それぞれRGBの3つのカラーチャネルを持っています。これらのピクセルを平坦に並べると、64×64×3の1万2288次元に変換されます。この状態は、512x512の画像が64個の連続した1万2288次元のベクトルに変換されたと表現できます。これを処理するには64トークンで済みます。

このニュースをすぐに読めるように要約しました。ニュースに興味がある場合は、ここで全文を読むことができます。 続きを読む:

gigazine /  🏆 80. in JP

日本 最新ニュース, 日本 見出し

Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。

編集長からSZメンバーへ:「尋ねること、の再未来化」SZ Newsletter VOL.237編集長からSZメンバーへ:「尋ねること、の再未来化」SZ Newsletter VOL.237OpenAIによる最新のAIモデル「GPT-4o」のお披露目デモは、リビングルームのソファで行なわれた。AIエージェントが日常空間にあたりまえにある時代には、わたしたちの会話の質は確実に変わるのだろう。今週のSZ会員向けニュースレター。
続きを読む »

ChatGPTが、もっと“人間”らしく進化 OpenAIの最新モデル「GPT-4o」の実力ChatGPTが、もっと“人間”らしく進化 OpenAIの最新モデル「GPT-4o」の実力OpenAIが新しいAIモデル「GPT-4o」を発表した。この新しいモデルで「ChatGPT」が動作することで、チャットボットとのスムーズかつ自然な音声会話が…
続きを読む »

ロゼッタ「Metareal AI LLM 2」に「GPT-4o」搭載完了。高速、高性能な最先端大規模言語モデルの実装を企業に提供 メタリアル・グループロゼッタ「Metareal AI LLM 2」に「GPT-4o」搭載完了。高速、高性能な最先端大規模言語モデルの実装を企業に提供 メタリアル・グループロゼッタ「Metareal AI LLM 2」に「GPT-4o」搭載完了。高速、高性能な最先端大規模言語モデルの実装を企業に提供 メタリアル・グループ 株式会社ロゼッタのプレスリリース
続きを読む »

GPT-4o搭載、契約書の検索性を向上する「TOKIUM契約管理」を提供開始GPT-4o搭載、契約書の検索性を向上する「TOKIUM契約管理」を提供開始GPT-4o搭載、契約書の検索性を向上する「TOKIUM契約管理」を提供開始 株式会社TOKIUMのプレスリリース
続きを読む »

TOKIUM、GPT-4oを搭載した契約管理クラウド「TOKIUM契約管理」--検索性を向上TOKIUM、GPT-4oを搭載した契約管理クラウド「TOKIUM契約管理」--検索性を向上TOKIUMは5月29日、電子および紙の契約書をクラウド上で一元管理できる契約管理クラウド「TOKIUM契約管理」を、6月3日から新たに提供を開始すると発表。このサービスは、契約書に記載されている取引先名や契約期間などの契約内容を、GPT-4oが自動で抽出し、データ化するというものとなっている。
続きを読む »

マネーフォワード、「GPT-4o」を活用し契約書をAI-OCRで読み取る「AI自動入力機能」マネーフォワード、「GPT-4o」を活用し契約書をAI-OCRで読み取る「AI自動入力機能」マネーフォワードは5月29日、電子契約・契約書管理サービス「マネーフォワード クラウド契約」において、契約書の情報をAI-OCRで読み取り、管理項目を自動入力する「AI自動入力機能」のβ版の提供を開始した。この機能には、OpenAIが2024年5月に発表した最新AIモデル「GPT-4o」を使用している。
続きを読む »



Render Time: 2025-02-24 19:57:58