微软的伦理AI黑客提供了一些答案也提出了更多问题
来源:Who is Danny Shutterstockcom
海外npv加速试用重点总结
这篇文章围绕微软AI红队的工作进行深入探讨,强调在构建安全的AI系统时,需要持久的努力和不断的改进。团队分享了与AI生成系统安全相关的八个建议,并指出技术的发展引发了对AI风险评估的新思考。
微软负责对100多种生成性AI产品进行红队评估的团队得出结论,构建安全和可靠的AI系统的工作将永无止境。最近发布的一篇论文中,包括微软Azure首席技术官Mark Russinovich在内的作者介绍了该团队的一些工作,并提出了八项建议,旨在“使红队评估与现实世界风险对齐”。
负责该研究的首席作者之一Blake Bullwinkel微软AI红队的研究员及其25位合著者在论文中写道:“随着生成性AIgenAI系统在越来越多的领域被采用,AI红队评估已成为评估这些技术安全性的重要实践。”他们表示:“AI红队评估力求超越模型层面的安全基准,通过模拟针对端到端系统的真实攻击进行评估。然而,对于红队评估的操作方式以及当前努力的有效性仍有许多未解之问。”
论文指出,微软AI红队AIRT成立于2018年,最初关注传统安全漏洞和对经典机器学习模型的规避攻击。“自那时以来,”作者们表示,“微软的AI红队评估的范围和规模因两大主要趋势而显著扩大。”
首先,AI技术变得更加复杂;其次,微软最近在AI领域的投资导致开发了许多需要红队评估的新产品。“这种数量上的增加和范围的扩大使得完全人工测试变得不切实际,因此我们必须借助自动化来扩大我们的操作规模,”作者们写道。
为了实现这一目标,我们开发了PyRIT,一个开源的Python框架,供我们的操作人员在红队评估中广泛使用。通过增强人类的判断力和创造力,PyRIT帮助AIRT更快地识别重要漏洞,并覆盖更广泛的风险领域。

基于自身经验,Bullwinkel和团队分享了八个他们所学到的教训,并在论文中通过详细解释和案例研究进行了阐述,其中包括:
教训说明了解系统的功能及其应用场景AI红队评估的第一步是确定要针对的漏洞。作者建议:“从潜在的下游影响出发,而不是攻击策略,更可能得到与现实世界风险相关的有用发现。”不必计算梯度即可破解AI系统该文引用了一项关于对抗性机器学习研究与实践之间差距的研究,强调现实世界攻击者常使用更简单的技巧而非复杂攻击。AI红队评估与安全基准测试不同尽管这两者不同,但二者都是有用的,且可以互补。AI红队评估需要更多人工努力,但可以发现新类别的危害。自动化可以帮助覆盖更广的风险领域由于AI风险环境的复杂性,各种工具应运而生,可更快速地识别漏洞和进行更大规模的测试。人类因素至关重要尽管自动化重要,但人类的文化背景和领域知识仍然不可或缺。责任AIRAI伤害普遍但难以衡量RAI伤害的模糊性使其难以与传统安全漏洞相比。作者强调,意外生成有害内容的良性用户同样重要。LLM放大现有安全风险并引入新风险随着生成性AI模型的整合,新的攻击媒介和安全风险的出现。确保AI系统安全的工作永无止境