言語モデル
要約済み 2
-
hf-blog 2日前 3mRNA言語モデル、165ドルで25種対応を実現Training mRNA Language Models Across 25 Species for $165
RoBERTaベースのコドン最適化モデルを25生物種対応の単一モデルとして構築・公開。 4×A100 GPUで55時間・約165ドルという低コストで学習を完了し、CAIスピアマン相関0.404を達成。 既存の専用モデルを上回る性能を低予算で実現し、生物情報学AIの民主化に貢献。
解説 本研究はOpenMedが公開した、mRNAコドン最適化に特化したトランスフォーマー言語モデル群の構築報告。コドン最適化とは、同じアミノ酸をコードする複数のDNA配列(同義コドン)の中から特定生物で高発現が期待されるものを選ぶ技術で、mRNAワクチンや遺伝子治療の効率化に直結する。人間・大腸菌・CHO細胞など25種の生物から38万件超のCDS(タンパク質コード配列)を収集し、種トークン([HUMAN]など)を語彙に追加した94トークン体系で単一モデルに条件付き学習させる手法を採用。アーキテクチャ比較ではRoBERTaがModernBERTや既存CodonBERT(6Mパラメータ)を大幅に上回り、パープレキシティ4.10・CAIスピアマン相関0.404を達成。GPT-4oやClaudeなど汎用LLMとの直接比較はないが、bioinformatics専用の既存モデルmRNABERTやNUWAと比べ、単一モデルで多生物種に対応しつつApache 2.0で完全オープンソース化している点が優れる。AWS A100スポットインスタンス4台・計55GPU時間・165ドルという破格のコストは、研究リソースの乏しい機関でも再現可能なことを示しており、実用上の意義が大きい。 -
arxiv-cs-ai 2日前 3研究者ら、EMAだけの文脈圧縮の限界を情報理論で解明EMA Is Not All You Need: Mapping the Boundary Between Structure and Content in Recurrent Context
EMA(指数移動平均)のみを用いた循環文脈が言語モデリングに失敗することを実証的に示した基礎研究が発表された。 EMAは時間的構造を捉えられるが、トークン同一性を破壊するためLM損失が改善しないことを情報理論的に証明。 ゲートや内容検索機構の必要性を裏付け、次世代RNN・SSMアーキテクチャ設計に重要な指針を提供する。
解説 本研究は、EMA(指数移動平均)を「制御された探索ツール」として活用し、効率的系列モデル(SSMやRNNなど)が単純な時間平均に対して何を得ているかを体系的に調査した基礎研究です。 EMAはゲーティングも内容参照もない最もシンプルな循環文脈であり、この性質を利用して「固定係数累積が表現できる限界」を測定しています。 実験では2つの対照的な結果が示されました。①文法的役割割り当てタスクでは、多タイムスケールEMAトレースを用いたヘッブ学習(Hebbian)アーキテクチャが、ラベルなしでも教師あり双方向GRUの96%を達成し、構造依存的役割では上回りました。これはEMAが時間的構造を有効にエンコードできることを示します。②一方、1.3億パラメータの言語モデルでEMAのみを文脈として使用すると、C4データセットの困惑度(perplexity)が260に達し、GPT-2の8倍もの悪化となりました。線形予測器を完全なSoftmax Attentionに置き換えても損失は変わらず、ボトルネックが予測器ではなくEMAトレース自体にあることを特定しました。 これは情報理論の「データ処理不等式」により理論的にも裏付けられており、EMAの非可逆・データ非依存な圧縮特性が根本的な制限となっています。GPT-4oやClaudeのような大規模Transformerとは異なり、EMAベースモデルは構文処理には有用ですが、語彙レベルの予測には本質的に不適切であることが明確化されました。SSMやLinear Attention等の設計判断に理論的根拠を提供する研究です。