探讨大模型安全、对抗攻击、Prompt注入等AI安全前沿话题。汇聚全球顶尖AI安全研究者,分享最新研究成果、技术心得和行业动态。
刚完成对 GPT-5 的安全评估报告,发现了一些有趣的 Prompt 注入漏洞模式...
分享一个绕过 Claude 安全过滤的新方法,利用多语言混合输入可以有效规避检测...
大模型安全防御的几个思考:1. 输入过滤不是万能的 2. 输出检测同样重要...