面向老字號品牌的多模態 AIGC 定製化研究——基於Stable Diffusion 的視覺生成與評估框架

作者

  • 新寶 張 廣州南方學院 作者
  • 進健 李 廣州南方學院 作者
  • 世楨 張 湖北文理學院 作者
  • Yuwei Chen Nanfang College Guangzhou 作者

DOI:

https://doi.org/10.70695/IAAI202504A6

關鍵詞:

Time-honored Brand; Stable Diffusion; Cultural Feature Embedding; Multimodal Control; Efficient Parameter Fine-Tuning; Reliability Calibration; Visual Generation

摘要

爲滿足老字號品牌視覺設計中文化表達與工程實現的雙重需求,本研究提出一種基於 Stable Diffusion 的適應性優化架構。該架構採用文本嵌入(Textual Inversion)技術獲取可組合的文化表徵單元,藉助 LoRA/DreamBooth 參數實現通用風格與專屬風格的高效微調。通過集成 ControlNet 與 IP-Adapter,系統實現了佈局與風格先驗知識的融合,同時採用雙通道門控機制實現語義與構圖的協同控制。在推理階段,通過 CFG-Rescale、注意力重加權及溫度縮放等方法對提示詞遵循度的可靠性進行校準。基於公開多模態數據集及真實品牌場景的大量實驗表明,該方法在客觀指標與人工評價的一致性方面實現顯著提升;魯棒性測試與組件消融實驗證實了方法的穩定性及各組件的必要性,而 A/B 測試則凸顯其在成本效益與運行效率方面的顯著優勢。本研究最終爲文化遺產及商業品牌的視覺生成需求提供了一套可復現、可驗證的技術方案。

已發表

2025-12-31