Microsoftは検索エンジンのBingで、これまでGoogleが開発した機械学習モデルの「Transformer」を採用してきました。しかし、Transformerに限界が訪れたとして、大規模言語モデル(LLM)と小規模言語モデル(SLM)の組み合わせに移行すると発表しています。さらに、ワークフローにNVIDIAが開発している「TensorRT-LLM」を統合することで、検索の最適化も実施すると発表しています。
この体験には、ユーザーのクエリの意図を理解し、ウェブ検索結果の関連性と品質を確保するなど、いくつかのステップが含まれます。SLMは複数のステップを実行するのに時間がかかるため、できるだけ早く検索結果を表示するための高速化が必要です。Microsoftによると、TensorRT-LLMを活用することで結果の品質を犠牲にすることなく、モデルの推論時間を短縮し、結果としてエンドツーエンドのエクスペリエンスのレイテンシーを短縮することができるとのこと。でLLMをホストおよび実行しています。TensorRT-LLMによる最適化前、元のTransformerモデルの95パーセンタイルレイテンシーはバッチあたり4.76秒、インスタンスあたりのスループットは1秒あたり4.2クエリでした。なお、各バッチは20クエリで構成されます。これに対して、TensorRT-LLMを統合したところ、95パーセンタイルのレイテンシーがバッチあたり3.03秒に短縮され、インスタンスあたりのスループットが1秒あたり6.
この体験には、ユーザーのクエリの意図を理解し、ウェブ検索結果の関連性と品質を確保するなど、いくつかのステップが含まれます。SLMは複数のステップを実行するのに時間がかかるため、できるだけ早く検索結果を表示するための高速化が必要です。Microsoftによると、TensorRT-LLMを活用することで結果の品質を犠牲にすることなく、モデルの推論時間を短縮し、結果としてエンドツーエンドのエクスペリエンスのレイテンシーを短縮することができるとのこと。でLLMをホストおよび実行しています。TensorRT-LLMによる最適化前、元のTransformerモデルの95パーセンタイルレイテンシーはバッチあたり4.76秒、インスタンスあたりのスループットは1秒あたり4.2クエリでした。なお、各バッチは20クエリで構成されます。これに対して、TensorRT-LLMを統合したところ、95パーセンタイルのレイテンシーがバッチあたり3.03秒に短縮され、インスタンスあたりのスループットが1秒あたり6.6クエリに向上しています。これにより、検索結果が速くなりユーザーエクスペリエンスが向上するだけでなく、LLMを実行するための運用コストが57%削減されることも判明しました。
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
AnthropicのMCP:AIと外部データソースの接続を容易にする新プロトコルAnthropicは、MCPと呼ばれるオープン標準を公開しました。これは、大規模言語モデル(LLM)アプリケーションが外部データソースと直接やりとりするための新たなプロトコルで、開発者の負担を軽減します。このプロトコルは、GitHub、Slack、Git、Postgres、Puppeteerなどのサービスと連携可能です。
続きを読む »
Alli LLM App Market: 生成AI・LLMを活用した業務効率化を推進Alli LLM App Marketは生成AI・LLMの企業活用に必要な要素を一括提供します。プロンプト不要で、契約書の条項チェックや報告書作成などの業務にすぐに活用できます。また、複数の社内データや業務システムと連携し、業務フローを効率化・高度化します。
続きを読む »
中国テンセント、3890億パラメータのオープンソース大規模言語モデル「Hunyuan-Large」発表:Innovative Tech(AI+)中国Tencentに所属する研究者らは、TransformerベースのMixture of Experts(MoE)モデルであるオープンソース大規模言語モデル(LLM)を提案した研究報告を発表した。
続きを読む »
GaiXer:生成AI技術を活用した行政・企業向けサービスGaiXerは、生成AI技術を活用した行政・企業向けのサービスを提供します。特に、大規模言語モデル(LLM)の比較機能やセキュリティ機能が特徴的で、クラウドサービスとの連携により多岐にわたる分野での活用が可能です。
続きを読む »
Allganize、生成AI・LLMアプリプラットフォーム「Alli LLM App Market」に個人情報・プライバシー情報の入力ブロック機能を実装Allganize、生成AI・LLMアプリプラットフォーム「Alli LLM App Market」に個人情報・プライバシー情報の入力ブロック機能を実装 Allganize Japan株式会社のプレスリリース
続きを読む »
AppleがChatGPTに対抗できるほど高性能な「LLM Siri」を2026年にリリースすることを考えているAppleがiOSやmacOSに搭載されるデジタルアシスタント「Siri」のより対話を重視したバージョン「LLM Siri」の開発を急いでおり、OpenAIのChatGPTやGoogle Geminiに追い付くことを目指していると、Apple関連の情報に詳しいBloombergのマーク・ガーマン記者が報じています。
続きを読む »