生成AI評価
要約済み 1
-
hf-papers 1日前 4生成AIの芸術評価に記号論で革新、既存手法を大幅超えOn Semiotic-Grounded Interpretive Evaluation of Generative Art
研究者らが記号論に基づく生成アート評価フレームワーク「SemJudge」を発表。 パースの三項記号論で「階層的記号関係グラフ」を構築し、935枚の画像データセットで検証、CLIPやPickScoreを大幅に上回る人間との一致率を達成。 抽象・象徴・比喩を捉えられない既存AI評価の盲点を突き、生成AI品質評価の新基準となる可能性。
解説 本論文は、テキスト→画像生成モデルの評価における根本的な問題に取り組む。CLIPScore・HPSv2・PickScoreなどの既存評価器は「アイコン性バイアス」を持ち、写実的な表現は正しく評価できるが、象徴(Symbol)や指標(Index)に依拠する抽象・比喩的作品を適切に評価できないことを理論的・実証的に示す。 提案手法SemJudgeは、哲学者パースの三項記号論(記号・対象・解釈項)を形式化した「階層的記号関係グラフ(HSG)」を構築し、生成画像の意味を解釈プロセスとして再構成する。評価はプロンプトのテキスト範囲と画像領域の両方に根拠づけられる。 実験では187モチーフ・935枚画像のデータセットSemiosisArtを構築。Qwen-9Bベースのは既存手法(VIEScore, ArtCoT, LMM4LMMなど)を上回り、Gemini-Flashをジャッジとして用いるとKRCC=0.73・VQA精度92.4%を達成。人間評価でも因果的合意・解釈深度・証拠根拠の全軸でベースラインを有意に上回る。アイコン性バイアス検定でも既存手法が偏りを示す中、SemJudgeは有意差なし。生成AIの芸術的表現力評価に新たなパラダイムをもたらす研究。