随着 AI 能力的快速提升,安全问题已从学术讨论上升为全球性政策议题。本页面梳理 AI 安全的核心问题、主要方法和监管动态。
AI 对齐问题的核心
对齐(Alignment)的核心问题是:如何确保 AI 系统的行为符合人类意图和价值观。这包含三个子问题:
- 价值对齐(Value Alignment):AI 系统是否理解并尊重人类的价值偏好?挑战在于人类价值本身是多元且动态变化的
- 能力控制(Capability Control):如何在保持 AI 有用的同时,限制其产生有害行为的能力?包括物理世界行动能力和信息影响力
- 可解释性(Interpretability):我们能否理解 AI 做出某个决策的内部原因?黑箱模型在高风险场景中难以建立信任
2026/5/29大约 3 分钟