スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 ニュース

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開
プレスリリースニュースリリース配信
  • 📰 PRTIMES_JP
  • ⏱ Reading Time:
  • 26 sec. here
  • 10 min. at publisher
  • 📊 Quality Score:
  • News: 42%
  • Publisher: 51%

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 富士通株式会社のプレスリリース

東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル(注1)「Fugaku-LLM」を2024年5月10日に公開した。

Fugaku-LLMは国内で多く開発されている70億パラメータ(注4)より一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Bench(注5)で最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。 本研究では、「富岳」を用いることで、大規模言語モデルを学習する際の演算速度を既存技術の6倍、通信速度を3倍に高速化することに成功した。演算高速化についてはTransformerの性能を「富岳」上で最適化するため、深層学習フレームワークMegatron-DeepSpeedを「富岳」へ移植、密行列積ライブラリのTransformer向け高速化を行った。通信高速化については3種類の並列化を組み合わせた「富岳」向け通信性能最適化とTofuインターコネクトD上での集団通信の高速化を行った。

このニュースをすぐに読めるように要約しました。ニュースに興味がある場合は、ここで全文を読むことができます。 続きを読む:

PRTIMES_JP /  🏆 114. in JP

プレスリリース ニュースリリース 配信 サイト サービス 方法 代行 PR TIMES

日本 最新ニュース, 日本 見出し

Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。

PyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされるPyTorchやPythonなしの純粋なC言語を使用した大規模言語モデルトレーニングツール「llm.c」がリリースされるAIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。
続きを読む »

NTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIにNTT、大規模言語モデルを使った視覚読解技術を実現、図表などを含む「文書」を読めるAIに日本電信電話株式会社(NTT)は4月12日、大規模言語モデル(LLM)により、図表やグラフ、文字修飾やレイアウトといった情報を含む文書を読解する、視覚読解技術を実現したと発表した。同社製のLLM「tsuzumi」のアダプタ技術として採用・導入されている。
続きを読む »

Meta、最新AIモデル「Llama 3」を発表Meta、最新AIモデル「Llama 3」を発表Metaは米国時間4月18日、強化された大規模言語モデル(LLM)の「Llama 3」を発表した。自社の生成AIアシスタント「Meta AI」に搭載している。
続きを読む »

陰謀論者 vs. 生成AI──大規模言語モデルは陰謀論を説得できるか? 米MITなどが2000人以上で検証:Innovative Tech(AI+)陰謀論者 vs. 生成AI──大規模言語モデルは陰謀論を説得できるか? 米MITなどが2000人以上で検証:Innovative Tech(AI+)米MITや米コーネル大学に所属する研究者らは、大規模言語モデル(LLM)を用い、陰謀論者の考えを説得できるかを検証した研究報告を発表した。
続きを読む »

メタ、最新AI「Llama 3」業界トップ級の性能メタ、最新AI「Llama 3」業界トップ級の性能SNS大手メタは4月18日、新しい大規模言語モデル(LLM)の「Llama 3」を発表した。一部地域ではAIアシスタント「Meta AI」として、FacebookやInstagram上でも利用できる。
続きを読む »

生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた(1/3 ページ)生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた(1/3 ページ)米Microsoftの研究チームが発表した「BitNet」、通称「1bit LLM」と呼ばれる論文が波紋を呼んでいる。これまで必須だと思われていたGPUが不要で、CPUでもLLMが動作することを示唆している。そもそも“1bit”とは何が1bitなのか、どうして1bitになるとGPUが不要になるのか、AIソリューションの開発・提供を行うLaboro.AIの椎橋徹夫CEOに聞いた。
続きを読む »



Render Time: 2025-02-25 01:53:33