
价值对齐(value )是人工智能研究中的新兴方向与热点问题。斯图尔特·罗素( )曾在“人工智能的神话”(The Myth Of AI)访谈中提出价值对齐问题(value ),即人们需要构建可证明符合人类价值观的智能,而不是纯粹的智能。价值对齐是人机协作团队的必要前提,价值对齐的关键在于构建与人类价值观一致的自治系统。
具体来说,“价值对齐”就是应确保人工智能追求与人类价值观相匹配的目标,确保AI以对人类和社会有益的方式行事,不对人类的价值和权利造成干扰和伤害。
对齐问题( )可追溯到20世纪中期的控制论研究,1960年,“控制论之父”诺伯特·维纳( )在文章《自动化的道德和技术后果》(Some Moral and of )中提到两则寓言故事:一则来源于德国诗人歌德()的一首叙事诗《魔法师学徒》(Der );另一则来自于英国作家雅各布斯(W. W. )的《猴爪》(The ’Paw)。作者将这两个故事同“人类和机器的关系”联系在一起,指出“随着机器学习进一步发展,它们可能会以超出程序员预期的速度制定出未曾预见的策略”。并将人工智能对齐问题定义为:“假如我们期望借助机器达成某个目标,而它的运行过程是我们无法有效干涉的,那么我们最好确认,这个输入到机器里的目标确实是我们希望达成的那个目标。”
对齐()是机器目标与人类需求之间的协同,即机器代理(agent)了解用户的意图(),并稳健运行以实现这些意图。具体而言,对齐需要机器与人类指令、偏好、利益、价值等维度保持一致性。拆解其概念可以发现,对齐的主体是人,对齐的客体是机器,对齐的内容是多维度的意图。对齐本身强调的是动机,而非知识多寡或能力强弱。随着对齐的客体升级演化,对齐的概念进一步向人工智能对齐(AI )、大模型对齐(LLM )延展。
随着大模型(又称为基础模型)开始像人类一样从事广泛的语言理解和内容生成任务,人们需要直面一个最根本的、颇具科学挑战的问题:如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致,确保人类与人工智能协作过程中的安全与信任。这个问题被称为“价值对齐”(value ,或AI )。价值对齐是AI安全的一个核心议题。