本研究以《營造法式》建築資料為案例,探討 Image-to-3D 模型 TripoSR 在特定領域 3D 重建的適應性。 TripoSR 為一種能透過單一視圖輸入快速生成完整 3D 模型的技術,但在面對風格特殊或結構複雜的影像時,輸出品質可能受限, 因此本研究首次引入 LoRA 微調 與 跨架構知識蒸餾 兩種策略進行優化。LoRA 用於輕量化強化模型在特殊風格資料下的生成能力,知識蒸餾則透過 Trellis 提供語意與幾何層次的輔助指導。 搭配指標評估驗證,兩種策略皆能有效提升 TripoSR 的結構保真度與生成品質,並證實其於低資源環境與專業領域應用的可行性,為未來影像轉 3D 模型的優化提供技術參考。
本研究採用 TripoSR - 單視圖 3D 重建模型,其特色在於以高效推論流程,從單張輸入影像快速生成結構完整的三維模型。 而為進一步提升模型在特定領域的表現,引入由微軟提出的 Trellis,為一項具強大的多模態輸入處理能力與精確的幾何結構捕捉能力之 3D 重建技術, 可生成高品質點雲作為 TripoSR 的引導模型 。本研究使用 LoRA(Low-Rank Adaptation)技術,透過低秩矩陣分解僅更新少量權重,現輕量化且高效的模型適應; 更利用知識蒸餾 (Knowledge Distillation)的教師-學生模型概念,將 Trellis 的語意與幾何特徵作為教師模型引導 TripoSR (學生模型),可兼顧精度與泛化能力,並確保在接收《營造法式》影像輸入下仍能穩定生成高品質 3D 結果。
將 TripoSR 的單圖 3D 重建架構與 LoRA 的低秩適應微調方法,在 TripoSR 的原始架構之影像到三平面解碼器 (Image-to-Triplane Decoder) 中應用 LoRA 微調技術。 實驗過程中針對 Decoder 內多層 Transformer 中的自注意力與交叉注意力模組主要依賴查詢 (Query)、鍵 (Key) 與值 (Value) 三者間的關聯性進行特徵學習, 以適應《營造法式》建築模型的 3D 生成需求。
本研究以 Trellis 作為教師模型,將其生成的高階 3D 表示作為知識來源,輔助學生 模型 TripoSR 的訓練。訓練過程中,除引入教師模型所提供的語意與幾何資訊,使學生 模型能透過軟標籤 (Soft Targets) 學習大型模型對相同輸入的理解與預測分布外,亦同時 搭配 Ground Truth 作為監督信號,以進一步強化 TripoSR 對結構與細節的掌握能力。 為實現此蒸餾過程,訓練中整合了蒸餾損失函數 (Distillation Loss),用以衡量學生 模型與教師模型之間輸出結果的差異,並將其作為輔助訊號,與原本的重建損失共 同進行優化。此設計有助於 TripoSR 在原始資料集上學習到更具語意一致性 (Semantic Consistency) 與視覺穩健性 (Visual Robustness) 的 3D 重建能力。