学术前沿｜「价值对齐」（Value Alignment）是什么？

value alignment problem_价值对齐_AI alignment

价值对齐（value ）是人工智能研究中的新兴方向与热点问题。斯图尔特·罗素（）曾在“人工智能的神话”（The Myth Of AI）访谈中提出价值对齐问题（value ），即人们需要构建可证明符合人类价值观的智能，而不是纯粹的智能。价值对齐是人机协作团队的必要前提，价值对齐的关键在于构建与人类价值观一致的自治系统。

具体来说，“价值对齐”就是应确保人工智能追求与人类价值观相匹配的目标，确保AI以对人类和社会有益的方式行事，不对人类的价值和权利造成干扰和伤害。

对齐问题（）可追溯到20世纪中期的控制论研究，1960年，“控制论之父”诺伯特·维纳（）在文章《自动化的道德和技术后果》（Some Moral and of ）中提到两则寓言故事：一则来源于德国诗人歌德（）的一首叙事诗《魔法师学徒》（Der ）；另一则来自于英国作家雅各布斯（W. W. ）的《猴爪》（The ’Paw）。作者将这两个故事同“人类和机器的关系”联系在一起，指出“随着机器学习进一步发展，它们可能会以超出程序员预期的速度制定出未曾预见的策略”。并将人工智能对齐问题定义为：“假如我们期望借助机器达成某个目标，而它的运行过程是我们无法有效干涉的，那么我们最好确认，这个输入到机器里的目标确实是我们希望达成的那个目标。”

对齐（）是机器目标与人类需求之间的协同，即机器代理（agent）了解用户的意图（），并稳健运行以实现这些意图。具体而言，对齐需要机器与人类指令、偏好、利益、价值等维度保持一致性。拆解其概念可以发现，对齐的主体是人，对齐的客体是机器，对齐的内容是多维度的意图。对齐本身强调的是动机，而非知识多寡或能力强弱。随着对齐的客体升级演化，对齐的概念进一步向人工智能对齐（AI ）、大模型对齐（LLM ）延展。

随着大模型（又称为基础模型）开始像人类一样从事广泛的语言理解和内容生成任务，人们需要直面一个最根本的、颇具科学挑战的问题：如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人类与人工智能协作过程中的安全与信任。这个问题被称为“价值对齐”（value ，或AI ）。价值对齐是AI安全的一个核心议题。