AI安全性
要約済み 9
-
openai-news 21日前 3OpenAI、モデル行動指針「Model Spec」の設計思想を公開Inside our approach to the Model Spec
OpenAIはAIモデルの行動を規定する公開フレームワーク「Model Spec」の取り組みを詳述した。 安全性・ユーザーの自由・説明責任のバランスを軸に設計され、AIの進化に合わせ継続更新される。 モデル開発の透明性向上に向けた業界標準化の議論に影響を与える可能性がある。
-
openai-news 27日前 4OpenAI、社内AIエージェントの思考監視システムを公開How we monitor internal coding agents for misalignment
OpenAIが社内コーディングエージェントの不整合検出に向け、思考連鎖(CoT)監視の手法を詳報。 実運用環境での展開を通じ、AIの意図しない挙動やリスクをリアルタイムで特定する仕組みを紹介。 AI安全性の実践的アプローチとして、エージェント開発・運用現場に直接役立つ知見を提供。
-
google-blog-ai 29日前 3GoogleがAI時代のOSSセキュリティ強化に本格投資Our latest investment in open source security for the AI era
GoogleはAIを活用したオープンソースセキュリティへの新たな投資計画を発表した。 AI駆動のセキュリティツール導入でOSSの脆弱性検出・対応を自動化・高速化する。 セキュリティコミュニティとの連携強化により、AI時代のソフトウェア供給網防御に貢献。
-
anthropic-news 1ヶ月前 4AnthropicがAI研究機関を設立、安全性と社会影響を専門研究Introducing The Anthropic Institute
AnthropicがAIの社会的・制度的課題を研究する「Anthropic Institute」を設立した。 安全性・経済影響・法制度の3チームを統合し、Jack Clark共同創業者が率いる学際組織。 DC初オフィス開設と公共政策チーム拡大も同時発表し、政策面での影響力強化を図る。
-
stability-blog 2ヶ月前 3Stability AI、児童安全推進のTech Coalitionに加盟Stability AI Joins the Tech Coalition
Stability AIが児童オンライン安全を推進する業界横断組織Tech Coalitionへの参加を表明した。 AI画像生成企業として初めて同連合に加わり、生成AIの悪用防止に向けた業界標準策定に関与する。 生成AIの規制議論が高まる中、自主的な安全対策への取り組みが業界全体で加速している。
解説 Tech Coalitionは、児童性的虐待素材(CSAM=Child Sexual Abuse Material)のオンライン拡散を防ぐことを主目的とした非営利団体で、Google・Microsoft・Meta・Appleなど大手テック企業が加盟している。Stability AIの加盟は、同社が提供するStable Diffusionなどの画像生成AIが性的コンテンツの悪用リスクを抱えるという批判に応える形で、業界標準の安全対策フレームワークへの参加を意味する。具体的には、ハッシュ照合技術(PhotoDNA等)や機械学習を用いた違法コンテンツ検出システムへのアクセス共有、インシデント報告の標準化などが期待される。オープンソースモデルを多数公開してきたStability AIにとって、モデルの悪用防止は技術的・倫理的な課題であり続けており、今回の加盟は単なるPRにとどまらず、生成AIベンダーに対するコンプライアンス圧力が高まる中での戦略的判断とも読める。開発者にとっては、APIや公開モデルの利用規約・安全フィルタが今後強化される可能性を示唆する動きである。 -
anthropic-news 2ヶ月前 4AnthropicがClaudeの新憲法を公開、CC0で提供Claude's new constitution
AnthropicがAIアシスタントClaudeの行動指針となる「新憲法」を一般公開した。 安全性・倫理・有用性の優先順位を明確化し、行動の理由まで理解させる設計に刷新。 CC0ライセンスで誰でも利用可能とし、AI開発における透明性の新たな基準を示した。
-
anthropic-news 3ヶ月前 3Anthropic、Claudeに危機検出AIを実装Protecting the wellbeing of our users
AnthropicがClaudeに自殺・自傷の危機検出分類器を導入し、170カ国以上のホットライン連携バナー機能を公開。 Opus 4.5は単一ターンで98.6%の精度で危機対応に成功し、過度な同意(シコファンシー)も大幅削減を達成。 AIの安全・倫理設計の新基準となる可能性があり、業界全体のユーザー保護指針に影響を与えそうだ。
-
anthropic-news 5ヶ月前 3AnthropicがClaudeの政治的中立性を定量評価、GPT-5超えMeasuring political bias in Claude
Anthropicは独自の「ペアド・プロンプト」手法でClaudeの政治的偏りを測定・公開した。 Claude Sonnet 4.5は均衡性スコア94%を達成し、GPT-5(89%)やLlama 4(66%)を上回る結果に。 評価手法をOSS公開し、業界横断でのバイアス測定標準化を推進する狙い。
-
stability-blog 7ヶ月前 2Stability AI、年次透明性レポートを公開Stability AI’s Annual Integrity Transparency Report
Stability AIが2025年度の年次インテグリティ・透明性レポートを公開した。 CSAM検出・削除件数、法執行機関への協力状況、不正利用対応などを詳細に報告。 AI企業における安全運用の透明性確保に向けた取り組みの一例として注目される。
解説 Stability AIが年次インテグリティ・透明性レポートを公開した。このレポートは、同社の生成AIモデル(Stable Diffusionなど)がどのように悪用されているか、またそれに対してどのような対策を講じているかを社会に開示するものである。一般的に此種のレポートでは、CSAM(児童性的虐待素材)の検出・削除件数、ディープフェイクや非合意的な画像生成の防止策、APIの不正利用事例への対応、政府・法執行機関からの情報開示要請件数などが報告される。Stability AIはオープンソースモデルを多数公開しているため、他社と比べてモデルの悪用リスクが高く、透明性の確保が特に重要視されている。本レポートはステークホルダーや規制当局に向けた説明責任の一環であり、EU AI法やその他規制への対応姿勢を示す意味でも重要な位置づけとなる。開発者や企業がStability AIのAPIやモデルを利用する際の信頼性評価にも役立つ。