要約
約8BパラメータのLLM3種(Llama-3.1、Mistral-7B、Qwen3)をローマ字ネパール語で体系的に比較した研究が発表。 ゼロショットとQLoRAファインチューニングの両条件下で、流暢性・音声的一貫性・意味整合性など7指標を測定。 低資源言語への適応能力の差異を明らかにし、多言語LLM開発の指針となる知見を提供。
公式ソースだけを集めたAI最前線(日本語要約)
Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali
約8BパラメータのLLM3種(Llama-3.1、Mistral-7B、Qwen3)をローマ字ネパール語で体系的に比較した研究が発表。 ゼロショットとQLoRAファインチューニングの両条件下で、流暢性・音声的一貫性・意味整合性など7指標を測定。 低資源言語への適応能力の差異を明らかにし、多言語LLM開発の指針となる知見を提供。
本研究はネパールで非公式デジタルコミュニケーションの主流であるローマ字ネパール語(ネパール語をラテン文字で表記したもの)に特化し、Llama-3.1-8B・Mistral-7B-v0.1・Qwen3-8Bの3モデルを比較する。1万件の翻字済み指示追従サンプルからなる2言語対訳データセットを独自構築し、PPL(流暢性)・BERTScore(意味的類似度)・chrF++(文字n-gram一致)・ROUGE系列・BLEUの合計7指標で評価する。ファインチューニングはQLoRA(量子化低ランク適応)にrsLoRA(ランク安定化)を組み合わせたランクr=32の設定で実施し、デュアルT4 GPUでの効率的な学習を実現している。GPT-4oやClaudeなどの大規模クローズドモデルとの直接比較は行っていないが、オープンウェイト小型モデルの言語適応可能性を示す点に意義がある。低資源言語への公平なAIアクセスという観点から実用的価値があり、同様の非標準表記を持つ他言語への応用展開も期待される。