ML Notes — 日本語

Small Recursive Reasoning Models

Naoto Iwase — Sun, 24 May 2026 00:00:00 GMT

数百万から数千万 parameters の小規模ニューラルネットを test-time に深く再帰展開して reasoning を実行する、まったく別系統の reasoning model 群が 2025–2026 年に脚光を浴びている。Hierarchical Reasoning Model（HRM）、Tiny Recursive Model（TRM）、Probabilistic Tiny Recursive Model（PTRM）、Generative Recursive reAsoning Models（GRAM）、Lattice Deduction Transformers（LDT）の 5 論文はいずれも、千例規模の学習データで Sudoku や ARC-AGI を解き、特定タスクでは 671B parameters の Frontier LLM を上回ったと主張する。

本書はこの recursive reasoning model という研究プログラムを、技術的中身・前史・評価・批判のすべての面から立体的に把握することを目的とする。主要 5 論文 (HRM, TRM, PTRM, GRAM, LDT) を各章で深掘りし、補助 4 章で系譜・latent reasoning の分類・CoT scaling との比較・ARC-AGI 動向を扱い、最後の 2 章で実装ガイドと未解決問題を整理する。

Reliable Reasoning

Naoto Iwase — Tue, 19 May 2026 00:00:00 GMT

大規模言語モデル（LLM）の reasoning 能力を「信頼できる形で」引き出す研究が 2025–2026 年に急速に発展している。本書は 訓練側の信号（RLVR、GRPO、Process Reward Model）、推論 (inference) 側の信号（Self-consistency、Confidence、Test-time scaling）、構造的アプローチ（Tree search、Reasoning 構造の分析、Diffusion LLM）の 3 軸で、ICLR 2026 / ACL 2026 / ICML 2026 / NeurIPS 2025 / EMNLP 2025 など最近の主要研究 190 本超を体系化する。

本書を貫く問いは 3 つある。

Q1: RLVR は base モデルの能力を本当に拡張しているのか、それとも既存能力の re-weighting か。
Q2: ground truth なしに reasoning trace の「正しさ」をどう推定するか。
Q3: 限られた inference compute をどこに投資すべきか。

これらの問いに対して独立に発展してきた複数の研究系統が、2025–2026 年に急速に重なり始めている。

Diffusion Language Models

Naoto Iwase — Fri, 15 May 2026 00:00:00 GMT

Diffusion Language Models（DLLM）は、画像生成で成功した拡散モデルの考え方を言語モデリングに持ち込む試みであり、近年 LLaDA や Dream といった大規模な実装例、Mercury や Gemini Diffusion といった商用クラスの実装例が登場している。本書は、現代的な DLLM を理解するための主要文献と、Li et al. 2025 のサーベイで提示された taxonomy を統合し、定式化・サンプリング・連続拡散との対応・AR からの適応・派生 discrete モデル・ハイブリッド・推論加速・guidance・事後学習・マルチモーダル化・応用領域までを体系的にまとめる。

One-Step Generation

Naoto Iwase — Wed, 11 Feb 2026 00:00:00 GMT

2025〜2026年にかけて、拡散モデルや Flow Matching の多ステップ推論を克服し、1回のネットワーク評価（1-NFE）で高品質な画像を生成する手法が急速に発展している。本シリーズでは、この分野を牽引する4つの論文をキュレートし、Flow Matching の拡張から全く新しいパラダイムまでの技術的進化を追う。

Molmo2

Naoto Iwase — Tue, 03 Feb 2026 00:00:00 GMT

Molmo2 (Multimodal Open Language Model 2) は、Allen Institute for AI (AI2) とワシントン大学が開発した完全オープンな Vision-Language Model (VLM) ファミリーである。最大の特徴は、ビデオグラウンディング（video grounding） 機能を備え、動画内の「いつ、どこで」特定のイベントや物体が発生したかを正確に指し示すことができる点である。

9つの新規データセット（完全にプロプライエタリモデルに依存せず構築）を使用し、オープンソースモデルの中で最高水準の性能を達成している。特に、ビデオポインティングとトラッキングでは、Gemini 3 Pro などのプロプライエタリモデルを上回る性能を示している。

論文: arXiv:2601.10611

コード: github.com/allenai/molmo2

Demo: playground.allenai.org

Olmo 3

Naoto Iwase — Mon, 02 Feb 2026 00:00:00 GMT

Olmo 3 は、Allen Institute for AI (AI2) が開発した 7B および 32B パラメータスケールの完全オープンな言語モデルファミリーである。このリリースは、モデルの全ライフサイクル（すべてのステージ、チェックポイント、データポイント、依存関係）を含む「モデルフロー (Model Flow)」全体を公開している。

論文: arXiv:2512.13961