一種用於生成式大語言模型的雙階中文指令越獄框架

作者

  • 穎坤 黃 中國電子信息數據產業集團有限公司 作者
  • 曉如 莊 深圳職業技術大學 作者
  • 世豪 宋 中國電子信息數據產業集團有限公司 作者

DOI:

https://doi.org/10.70695/IAAI202504A5

關鍵詞:

Large Language Models; Prompt Injection; Jailbreak; Chinese Cotext; Security Evaluation

摘要

配備先進推理能力的大語言模型(LLMs)已在各類自然語言任務中展現出不俗性能,但面對依賴上下文或部分模糊化的安全敏感指令時,仍存在易受影響的問題,在中文場景下尤爲如此。爲系統性評估這類風險,本文提出了雙階指令安全評估框架(DISEF),該框架包含虛擬場景嵌入(VSE)與結構化載荷拆分(FPS)兩大模塊:前者將查詢語句嵌入語義無害的上下文,用於檢驗場景驅動的語境變化下模型的對齊穩定性;後者則是一種受控診斷技術,用於分析模型在處理碎片化或隱式編碼的風險相關內容時的魯棒性。本研究基於IJCAI 2025 生成式大語言模型安全攻防基準對該框架開展驗證,驗證工作覆蓋提示詞多樣性、風險一致性評估,以及多類典型大語言模型的內容級風險分佈情況。實驗結果表明,不同模型在對齊魯棒性方面存在顯著差異,同時也揭示了跨模型的漏洞規律,以及中文指令處理流程中的風險暴露點。本文提出的框架所提供的切實可行的洞見,可助力增強模型的安全對齊能力、完善威脅檢測機制,併爲下一代生成式人工智能系統標準化評估方案的研發提供支持。

已發表

2025-12-31