Enterprise AI applications that handle large documents or long-horizon tasks face a severe memory bottleneck. As the context grows longer, so does the KV cache, the area where the model’s working ...
グーグル、AIのメモリー消費を大きく削減する技術「TurboQuant」を提案の画像 メモリーをはじめとするコンピューター部品の値上がりで人工知能(AI)のコストが跳ね上がる中、Googleが「TurboQuant」と呼ばれる革新的な技術を提案した。 Googleの研究チームが ...
Google Researchは大規模言語モデルとベクトル検索エンジンのための新しい圧縮技術群として、「TurboQuant」「PolarQuant」「Quantized Johnson-Lindenstrauss(QJL)」を2026年3月24日に発表しました。AIで大きな負担になっているメモリ使用量を減らしつつ、処理速度と検索性能 ...
推論高速化のためのKVキャッシュ– 履歴メモリデータを使用することで、より高速で効率的な推論を可能にします KVキャッシュにインテリジェントな階層化と管理を適用することで、コンテキストウィンドウを大幅に拡大し、冗長な計算を削減します。
今年も3月16日からGTCが開催された。今年の主な発表をまとめると、ハードウェアとしてはVera RubinとDGX Stationに加え、まったく予想していなかったGroq 3 LPXが発表された。
MacBook Neoの8GBメモリでAIをなんとかするシリーズ。前回は1ビットLLM「Bonsai 8B」を導入して、1.1GBで8Bパラメータ相当の品質を手に入れた話を書きました。 今回はGoogleが出したGemma 4を追加して、さらに独自開発エージェンティックAIのmazzaineoに「目」を与えた話 ...