Constitutional AI(CAI,宪法 AI)是由 entities/anthropic 提出的一种 AI 对齐方法。其核心思想是让 AI 系统遵循一组明确的"宪法原则"(Constitutional Principles)来指导自身行为,通过 AI 反馈代替人类反馈来实现规模化对齐,是 Anthropic 安全方法论的核心组成部分。
动机
传统的 RLHF(基于人类反馈的强化学习)依赖大量人类标注者对模型输出进行偏好评判。这一方式面临三个瓶颈:人类标注成本高昂且难以规模化;标注者对有害内容的判断标准不一致;更根本的问题——当模型变得比人类更擅长生成看似合理的回答时,人类是否还能提供可靠的监督?CAI 正是为了解决这些问题而提出的。
2026/5/29大约 3 分钟