AIの本体と言える大規模言語モデル(LLM)のトレーニングはほとんどの場合PyTorchやPythonを使用して行われていますが、そうしたトレーニングを純粋なC言語のみで実装したツール「llm.c」が登場しました。まだ最適化が行われておらず従来の手法に速度面では敗北していますが、GPT-2のトレーニングを行う実装を約1000行のクリーンなコードで行えています。
Have you ever wanted to train LLMs in pure C without 245MB of PyTorch and 107MB of cPython? No? Well now you can! With llm.c:To start, implements GPT-2 training on CPU/fp32 in only ~1,000 lines of clean code. It compiles and runs instantly, and exactly…You'll see that we allocate all the required memory a single time in the beginning in one large block of 1D memory.
From there on during training, no memory gets created or destroyed, so we stay at…Once you have all the layers, you just string all it all together. Not gonna lie, this was quite tedious and masochistic to write because you have to make sure all the pointers and tensor offsets are correctly arranged.
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
小説家らがNVIDIAを提訴。生成AIのトレーニングに著書の無断使用で小説家などの著書らが、NVIDIAの大規模言語モデル(LLM)構築用フレームワーク「NeMo」のトレーニングにおいて自身の著作物が無断で利用されたとし、NVIDIAに対し訴訟を起こしていると海外メディアArs Technicaなどが報じた。
続きを読む »
ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。
続きを読む »
東大ベンチャーELYZA、GPT-3.5 Turboレベルの日本語LLM発表東大松尾研究室発のAIベンチャー「ELYZA」は3月13日、700億パラメーターの最新日本語大規模言語モデル(LLM)「ELYZA-japanese-Llama-2-70b」を発表した。
続きを読む »
マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載マイクロソフトは、「Copilot」の無料版に搭載していた大規模言語モデル(LLM)「GPT-4」を「GPT-4 Turbo」に置き換えたと発表した。
続きを読む »
グーグル、「Fitbit」データを基に提案できる「Gemini」ベースのAIモデルを開発中グーグルは、「Fitbit」や「Pixel」デバイスのデータを分析し、健康関連のアドバイスや提案を提示できる大規模言語モデル(LLM)「Personal Health Large Language Model」を同社の「Gemini」をベースにして開発中だと発表した。
続きを読む »
NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長日本電信電話(NTT)は3月25日、独自に開発した大規模言語モデル(LLM)「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。
続きを読む »