古代言語解読

1件の記事

要約済み 1

arxiv-cs-ai 2日前 2
古代ヒスパニア語データセット、ML解読に向け公開
Curation of a Palaeohispanic Dataset for Machine Learning

ローマ以前のイベリア半島で使われた古代語群を機械学習で解析するための構造化データセットが公開された。形式が不統一だった既存の言語学資料を整備し、ML技術に適した統一フォーマットに変換している。未解読文字体系の解読加速が期待され、計算言語学の新たな研究分野を切り開く。

解説本論文は、紀元前3世紀以前にイベリア半島で使用されていた古代ヒスパニア語群（イベリア語、ケルティベリア語など）を対象とした、機械学習向け構造化データセットの構築を報告する。これらの言語はゴメス・モレノによるイベリア・レバント文字の解読を契機に研究が進んだが、半音節文字（子音と母音が区別されない文字体系）を含む複数の表記体系が存在し、今日においても完全には解読されていない。従来の研究は純粋に言語学的アプローチに限られており、計算的手法の適用が著しく遅れていた最大の理由は、既存資料が分散・非構造化されMLに不適な形式であった点にある。本研究ではこれを解決すべく、碑文データ等を統一フォーマットに整備し、文字認識・文字解読・言語分類などのタスクに利用可能なデータセットを作成した。GPT-4oやClaude等の大規模言語モデルとの比較実験は報告されていないが、今後の計算言語学・文字解読研究の基盤資源として位置づけられる。低資源・消滅危機言語のデジタル化・ML化という観点でも意義がある。

データセット低資源言語古代言語解読 NLP