Skip to content

衍微的知识库

GAIT

GAIT

Generating Aesthetic Indoor Tours with Deep RL — 用深度强化学习生成室内美学游览路径

Overview

GAIT 是辉少的研究项目，使用视觉 Actor-Critic 深度强化学习（DrQ-v2 和 CURL）在室内 3D 场景中生成美学相机轨迹。核心挑战在于：如何让智能体学会「美」的概念，并生成平滑、多样、不重复的游览路径。

Key Facts / Claims

框架架构

数据循环：Actor 与环境交互，存储 transition 到 Replay Buffer
更新工作器：从 Replay Buffer 采样，基于 RL 损失更新 Actor 和 Critic
共享存储：同步数据和更新步骤，维持 2:1 的数据-更新比率

使用的 RL 算法

DrQ-v2：基于 Q 学习和 DDPG，critic 估计 \(Q(s_t,a_t)\)，actor 最大化期望回报
CURL：加入策略熵项（SAC 风格），增强探索性

奖励函数设计（四维）

出界惩罚：\(r_B = -10\)，防止相机离开场景
视图美学：用神经网络美学模型评估单帧质量（240×240 高分辨率渲染）
时间平滑性：惩罚动作突变，生成平滑轨迹
多样性正则化：避免不同初始姿态收敛到同一最优姿态
排除姿态：前 4 个回合的最终姿态
距离惩罚：\(r_t^D = \min_j(\min(\frac{\|x_t^P - \bar{x}_j^P\|_2}{d_j}, 1))\)

多 GPU 设置

Actor 持续与环境交互
Update Worker 并行更新网络
通过共享存储同步，保持 actor 网络最新

[[machine-learning-basics]] — RL 的基础数学
[[diffusion-model]] — 另一大生成模型范式
[[llm-rl-algorithms]] — DrQ-v2 和 CURL 算法
[[projects-overview]] — 辉少的项目索引

Counter-arguments & Data Gaps

单帧美学模型无法评估序列整体美感（时间维度）
美学评估依赖人群数据，主观性强
与基于优化的路径规划方法的对比不足

Sources

GAIT: Generating Aesthetic Indoor Tours — 2023-10-26