古代文字解読
要約済み 1
-
arxiv-cs-ai 3日前 3古代未解読語の解析にML活用、新データセット公開Curation of a Palaeohispanic Dataset for Machine Learning
古イベリア語の機械学習向け構造化データセットが新たに公開された。 ローマ征服以前のイベリア半島の未解読文字をML手法で分析可能にする設計。 計算的アプローチによる古代語解読研究の加速が期待される。
解説 本論文は、紀元前3世紀のローマ征服以前にイベリア半島で使われた古イベリア諸語(Palaeohispanic languages)を対象に、機械学習向けの構造化データセットを構築した研究である。古イベリア諸語はイベリア語やケルティベリア語などを含み、複数の半音節文字(semi-syllabary)で記されている。Gómez Morenoによるイベリア・レバント文字の解読を契機に研究が進んだが、現在も完全解読には至っていない。既存資料は言語学的な記述形式で提供されており、MLやNLPのパイプラインに直接投入できる形式ではなかった。本研究ではこれらの碑文資料を収集・整理し、モデル学習・評価に使えるデータセットとして再構成した。GPT-4oやClaudeなどの既存LLMとの直接比較は行われていないが、計算論的アプローチの基盤整備として意義が大きい。低資源かつ未解読要素を含む古代言語へのML適用という点で、文字解読・系統解析・言語モデリングなど多様な研究の出発点となりうる。