chapter2code

research notes on ml topics

about

The author is an AI Resident at Google DeepMind, working on enhancing Gemini's cross-lingual and cross-modal transfer capabilities. His research focuses on multilingual learning and post-training. This blog documents his learning journey through short, accessible code-annotated articles on foundational concepts, written whenever time allows alongside full-time research.

notebooks

dynamic programming for reinforcement learning

november 2025

reinforcement learning dynamic programming MDP

Exploring dynamic programming for reinforcement learning.

forward diffusion process

november 2025

diffusion models generative AI DDPM

Forward diffusion is the process of gradually adding Gaussian noise to data over multiple timesteps. This is the foundational concept in diffusion models like DDPM (Denoising Diffusion Probabilistic Models).

monte carlo control

november 2025

reinforcement learning monte carlo control

Exploring monte carlo control.

multi-armed bandits

november 2025

reinforcement learning bandits exploration

Exploring multi-armed bandits.

sampling methods

november 2025

sampling monte carlo statistics

Exploring sampling methods.