コーパス分析
要約済み 1
-
arxiv-cs-ai 3日前 2埋め込み×logprobでニュースを定量スコアリングText-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
ニュース記事を埋め込みとlogprobで定量的な意味シグナルに変換するパイプラインが公開された。 約1.2万件のAIニュースに6次元の意味辞書を適用し、UMAPと異常検出でコーパス構造を可視化。 LLMを使わずに低コストでテキスト監視・分析を実現できる実践的手法として注目される。
解説 本論文はテキストコーパスを定量的な意味シグナルへ変換する実用的なエンジニアリングパイプラインを提案する。各文書をQwen埋め込みモデルで全文ベクトル化し、「位置辞書(positional dictionary)」と呼ぶ設定可能な意味次元の定義に対してlogprobスコアリングを行うことで、各文書の意味座標値を数値化する。続いてUMAP(非線形次元削減)で低次元多様体に射影し、ノイズ除去と3段階の異常検出手順を適用することでコーパス全体の構造的解釈を可能にする。ケーススタディとしてポルトガル語AI関連ニュース11,922件に6つの意味次元を適用し、文書レベルの意味的位置づけとコーパス全体の集約プロファイルの両立を実証した。GPT-4oやClaudeとの直接比較はないが、既存LLMのAPI出力(logprob)をラベルなしで意味スコアに活用できる点が特徴的であり、人手アノテーション不要でコーパス監視・下流分析への導入が容易な点に実用的意義がある。ただし特定言語・特定ドメインへの適用事例であり、汎化検証は今後の課題といえる。