コスト最適化
要約済み 2
-
google-blog-ai 13日前 3Google、Gemini APIに2段階推論モードを導入New ways to balance cost and reliability in the Gemini API
GoogleはGemini APIに「Flex」と「Priority」の2つの推論モードを新たに提供開始。 Flexは低コスト優先、Priorityは高信頼性・低レイテンシ優先で、用途に応じて使い分け可能。 コストと品質のトレードオフを開発者自身が制御できる柔軟性が、実運用での採用を後押しする。
-
anthropic-engineering 5ヶ月前 4MCPコード実行でトークン消費を98%削減する新手法が登場Code execution with MCP: Building more efficient agents
AIエージェントがMCPツールを直接呼ぶ代わりにコードを生成・実行する手法が提案された。 ツール定義と中間結果のトークン消費を15万→2千と約98.7%削減することに成功。 プライバシー保護やスキル再利用も実現し、エージェント開発の効率化に貢献する。