LLMが研究論文の「母語の痕跡」を消す——NLI分析で判明

arxiv-cs-ai 2026-04-13 04:00 ★2

LLMが研究論文の「母語の痕跡」を消す——NLI分析で判明

Can We Still Hear the Accent? Investigating the Resilience of Native Language Signals in the LLM Era

自然言語処理著者識別 LLM影響分析言語学論文分析

要約

研究者がACL Anthologyの論文を分析し、LLM普及後に著者の母語識別精度が低下したことを確認。母語識別（NLI）タスクで3時代を比較、LLM後は言語的多様性が失われる傾向が明らかに。執筆支援AIが学術界の言語的均質化を促進する可能性を示唆し、研究倫理の議論を呼ぶ。

解説・分析

本研究は、機械翻訳からLLMまでの執筆支援ツールの進化が、学術論文における著者の母語シグナル（言語的指紋）をどれほど消去しているかを定量的に調査したものです。分析対象はACL Anthology（自然言語処理分野の主要論文集）の論文で、ニューラルネットワーク以前・LLM以前・LLM以降の3期に分類したデータセットを半自動フレームワークで構築し、母語識別（NLI: Native Language Identification）分類器をファインチューニングして評価しています。結果として、時代が進むにつれてNLI性能は一貫して低下しており、LLMによる文章の均質化が進んでいることが示されました。注目すべき点は言語間の非対称性で、中国語・フランス語話者の論文はLLM後も予想外に母語の痕跡を保持しているのに対し、日本語・韓国語話者の論文では識別性能の低下が特に顕著でした。これはLLMへの依存度や利用スタイルが言語文化圏によって異なることを示唆します。学術的誠実性や著者帰属の観点、また多言語話者がLLMを使いこなす方法の文化差を理解する上で示唆に富む研究です。

AIフロントライン

LLMが研究論文の「母語の痕跡」を消す——NLI分析で判明

要約

解説・分析

関連する読者