AI安全性

openai-news 21日前 3

Inside our approach to the Model Spec

OpenAIはAIモデルの行動を規定する公開フレームワーク「Model Spec」の取り組みを詳述した。安全性・ユーザーの自由・説明責任のバランスを軸に設計され、AIの進化に合わせ継続更新される。モデル開発の透明性向上に向けた業界標準化の議論に影響を与える可能性がある。

OpenAI モデル仕様 AI安全性ガバナンス

openai-news 27日前 4

OpenAI、社内AIエージェントの思考監視システムを公開

How we monitor internal coding agents for misalignment

OpenAIが社内コーディングエージェントの不整合検出に向け、思考連鎖（CoT）監視の手法を詳報。実運用環境での展開を通じ、AIの意図しない挙動やリスクをリアルタイムで特定する仕組みを紹介。 AI安全性の実践的アプローチとして、エージェント開発・運用現場に直接役立つ知見を提供。

AI安全性エージェント監視 OpenAI アライメント

google-blog-ai 29日前 3

GoogleがAI時代のOSSセキュリティ強化に本格投資

Our latest investment in open source security for the AI era

GoogleはAIを活用したオープンソースセキュリティへの新たな投資計画を発表した。 AI駆動のセキュリティツール導入でOSSの脆弱性検出・対応を自動化・高速化する。セキュリティコミュニティとの連携強化により、AI時代のソフトウェア供給網防御に貢献。

Google オープンソースセキュリティ AI安全性

anthropic-news 1ヶ月前 4

AnthropicがAI研究機関を設立、安全性と社会影響を専門研究

Introducing The Anthropic Institute

AnthropicがAIの社会的・制度的課題を研究する「Anthropic Institute」を設立した。安全性・経済影響・法制度の3チームを統合し、Jack Clark共同創業者が率いる学際組織。 DC初オフィス開設と公共政策チーム拡大も同時発表し、政策面での影響力強化を図る。

Anthropic AI安全性組織再編公共政策

stability-blog 2ヶ月前 3

Stability AI、児童安全推進のTech Coalitionに加盟

Stability AI Joins the Tech Coalition

Stability AIが児童オンライン安全を推進する業界横断組織Tech Coalitionへの参加を表明した。 AI画像生成企業として初めて同連合に加わり、生成AIの悪用防止に向けた業界標準策定に関与する。生成AIの規制議論が高まる中、自主的な安全対策への取り組みが業界全体で加速している。

解説 Tech Coalitionは、児童性的虐待素材（CSAM＝Child Sexual Abuse Material）のオンライン拡散を防ぐことを主目的とした非営利団体で、Google・Microsoft・Meta・Appleなど大手テック企業が加盟している。Stability AIの加盟は、同社が提供するStable Diffusionなどの画像生成AIが性的コンテンツの悪用リスクを抱えるという批判に応える形で、業界標準の安全対策フレームワークへの参加を意味する。具体的には、ハッシュ照合技術（PhotoDNA等）や機械学習を用いた違法コンテンツ検出システムへのアクセス共有、インシデント報告の標準化などが期待される。オープンソースモデルを多数公開してきたStability AIにとって、モデルの悪用防止は技術的・倫理的な課題であり続けており、今回の加盟は単なるPRにとどまらず、生成AIベンダーに対するコンプライアンス圧力が高まる中での戦略的判断とも読める。開発者にとっては、APIや公開モデルの利用規約・安全フィルタが今後強化される可能性を示唆する動きである。

Stability AI AI安全性業界連携児童安全コンテンツモデレーション

anthropic-news 2ヶ月前 4

AnthropicがClaudeの新憲法を公開、CC0で提供

Claude's new constitution

AnthropicがAIアシスタントClaudeの行動指針となる「新憲法」を一般公開した。安全性・倫理・有用性の優先順位を明確化し、行動の理由まで理解させる設計に刷新。 CC0ライセンスで誰でも利用可能とし、AI開発における透明性の新たな基準を示した。

Anthropic Claude AI安全性ガバナンス

anthropic-news 3ヶ月前 3

Anthropic、Claudeに危機検出AIを実装

Protecting the wellbeing of our users

AnthropicがClaudeに自殺・自傷の危機検出分類器を導入し、170カ国以上のホットライン連携バナー機能を公開。 Opus 4.5は単一ターンで98.6%の精度で危機対応に成功し、過度な同意（シコファンシー）も大幅削減を達成。 AIの安全・倫理設計の新基準となる可能性があり、業界全体のユーザー保護指針に影響を与えそうだ。

Anthropic AI安全性ユーザー保護

anthropic-news 5ヶ月前 3

AnthropicがClaudeの政治的中立性を定量評価、GPT-5超え

Measuring political bias in Claude

Anthropicは独自の「ペアド・プロンプト」手法でClaudeの政治的偏りを測定・公開した。 Claude Sonnet 4.5は均衡性スコア94%を達成し、GPT-5(89%)やLlama 4(66%)を上回る結果に。評価手法をOSS公開し、業界横断でのバイアス測定標準化を推進する狙い。

Anthropic AI安全性政治的中立性評価手法

stability-blog 7ヶ月前 2

Stability AI、年次透明性レポートを公開

Stability AI’s Annual Integrity Transparency Report

Stability AIが2025年度の年次インテグリティ・透明性レポートを公開した。 CSAM検出・削除件数、法執行機関への協力状況、不正利用対応などを詳細に報告。 AI企業における安全運用の透明性確保に向けた取り組みの一例として注目される。

解説 Stability AIが年次インテグリティ・透明性レポートを公開した。このレポートは、同社の生成AIモデル（Stable Diffusionなど）がどのように悪用されているか、またそれに対してどのような対策を講じているかを社会に開示するものである。一般的に此種のレポートでは、CSAM（児童性的虐待素材）の検出・削除件数、ディープフェイクや非合意的な画像生成の防止策、APIの不正利用事例への対応、政府・法執行機関からの情報開示要請件数などが報告される。Stability AIはオープンソースモデルを多数公開しているため、他社と比べてモデルの悪用リスクが高く、透明性の確保が特に重要視されている。本レポートはステークホルダーや規制当局に向けた説明責任の一環であり、EU AI法やその他規制への対応姿勢を示す意味でも重要な位置づけとなる。開発者や企業がStability AIのAPIやモデルを利用する際の信頼性評価にも役立つ。

透明性レポートコンテンツモデレーション AI安全性 Stability AI Trust&Safety

要約済み 9