标签: alignment

Constitutional AI

Constitutional AI（CAI，宪法 AI）是由 entities/anthropic 提出的一种 AI 对齐方法。其核心思想是让 AI 系统遵循一组明确的"宪法原则"（Constitutional Principles）来指导自身行为，通过 AI 反馈代替人类反馈来实现规模化对齐，是 Anthropic 安全方法论的核心组成部分。

动机

传统的 RLHF（基于人类反馈的强化学习）依赖大量人类标注者对模型输出进行偏好评判。这一方式面临三个瓶颈：人类标注成本高昂且难以规模化；标注者对有害内容的判断标准不一致；更根本的问题——当模型变得比人类更擅长生成看似合理的回答时，人类是否还能提供可靠的监督？CAI 正是为了解决这些问题而提出的。

zhuonixian2026/5/29大约 3 分钟

AI 安全全景

随着 AI 能力的快速提升，安全问题已从学术讨论上升为全球性政策议题。本页面梳理 AI 安全的核心问题、主要方法和监管动态。

AI 对齐问题的核心

对齐（Alignment）的核心问题是：如何确保 AI 系统的行为符合人类意图和价值观。这包含三个子问题：

价值对齐（Value Alignment）：AI 系统是否理解并尊重人类的价值偏好？挑战在于人类价值本身是多元且动态变化的
能力控制（Capability Control）：如何在保持 AI 有用的同时，限制其产生有害行为的能力？包括物理世界行动能力和信息影响力
可解释性（Interpretability）：我们能否理解 AI 做出某个决策的内部原因？黑箱模型在高风险场景中难以建立信任

zhuonixian2026/5/29大约 3 分钟