建模师们有福了!
无用在建模、UV、贴图软件之间反复横跳,一个责任台就能得到:

这是腾讯专为3D联想师、游戏开采者、建模师等打造的专科级AI责任台混元3D Studio。
一个平台科罚整套联想经过,不论是前期的主见联想、几何建模,照旧进一步的组件拆分、低模拓扑,以及后续贴图、绑骨蒙皮、动画等都能全掩盖。
这下真让3D金钱坐褥周期从几天变因素分钟了。
那它是如何作念到的呢?让咱们来个深度剖析。
中枢架构
混元3D Studio举座是一个规章且模块化的责任经过。
其中每个阶段都会对金钱进行处理,并为下一个阶段提供至关弊端的数据输入。从最初的创意到最终的游戏金钱,这一联想确保了总共这个词过程的无缝衔尾与自动化。

混元3D Studio责任流
总共这个词责任流共包含:
组件拆分:诓骗连通性分析和语义分割算法,复杂模子概况被自动拆解为逻辑上和功能上寂然的组件(举例:步枪的弹匣、枪管和枪托),从而完了组件的寂然剪辑和动画制作。
可控图像生成(主见联想):文本或图像皆可当作输入模态,救援文生图和图生多视图功能。此外,专用的A-Pose标准化模块确保变装模子骨架姿势的一致性,作风迁徙模块则用于诊疗图像视觉后果,以匹配方向游戏的好意思术作风。
高保真几何生成:基于刻下先进的扩散模子架构,凭据单视图或多视图图像生成精致的三维网格模子(高模)。收货于雄伟的奴隶才调,概况确保生成的几何结构与输入prompt高度一致,并极地面收复物体的3D名义细节。
低模拓扑生成(PolyGen):该模块舍弃传统的基于图形学的重拓扑要领,剿袭自回首模子逐面地生成低多边形金钱。通过将几何名义的点云当作条目输入,PolyGen概况智能生成高保真网格对应的拓扑结构,适用于游戏金钱等应用场景,傲气低极点数、结构合理以及细密变形妥当的边流散播。
语义UV伸开:不同于传统的语义性差的传统UV伸开要领与东谈主工UV伸开。语义UV伸开模块完了了具备高下文语义感知的UV切线生成,不错依据模子的现象与布线散播进行结构分析,晋升UV拆分的语义性、合感性与可用性,进而故意于高质料纹理的生成。
纹理生成与剪辑:集成了生成式大模子,可凭据文本或图像prompt生成物理准确的PBR纹理,并通过无损剪辑层,救援用户使用当然谈话指示对纹理进行精致化二次诊疗。
绑骨蒙皮&动画殊效:在自动化的临了阶段,该模块概况推断骨骼重要位置与层级结构,并筹画极点权重,生成可径直用于标准游戏引擎的可驱动动画金钱。
共七个中枢本事模块,其中每个模块都对应金钱制作经过中的某一关键阶段,底下一个个来看。
组件拆分
团队提议了一种用于打造可参加坐褥、可剪辑且结构合理的三维金钱的新范式。
给定一张输入图片,早先使用Huyuan3D获取举座现象。然后,将举座网格传递给部件检测模块P3-SAM,以取得语义特征和部件的领域框(bounding boxes)。临了,由X-Part将举座现象明白为各个部件。

组件拆分举座经过
其中,P3-SAM(原生3D语义分割)是组件拆分生成经过中的关键才能。
P3-SAM包含一个特征索求器、三个分割头和一个IoU(交并比)展望头。

混元3D Studio责任流
PointTransformerV3当作特征索求器,并交融其不同层级的特征当作点级特征。
输入的点指示和特征信息会被交融,并传递至分割头,用于展望三个多标准掩码。
同期,IoU展望头用于评估掩码质料。为完了物体的自动分割,诓骗FPS(最远点采样)生成点指示,合营NMS(非极大值扼制)合并冗余掩码。
点级掩码随后被投影到网格面上,从而取得部件分割末端。
本要领的另一关键翻新在于,完好意思舍弃2D SAM的影响,依赖于原生3D部件监督,进行原生3D分割模子的闇练。
还提议了一个可控且可剪辑的扩散框架X-Part。

X-Part经过
早先,为完了可控性提议了一个基于部件级指示的特征索求模块,诓骗包围盒当作指示,指示部件的位置和尺寸,而不是径直将分割末端当作输入。
其次,将语义特征以全心联想的特征扰动款式引入到框架中,这有助于完了存真理的部件明白。
为了考证X-Part的有用性,在多个基准数据集上进行了广博实验。末端标明,X-Part在组件级明白和生成方面取得了刻下最优的进展。

横向量化比较
组建拆分横向后果对比
可控图像生成包含图像作风化与姿态标准化两大模块。
图像作风化模块允许用户在3D建模前,通过确立选项一键生成多种主流游戏好意思术作风的3D联想图。
用户可提供任务对象图像,并通过文本的作风化指示。容貌为"Change the style to {style type} 3D model. White Background.",从而生成内容保捏一致且艺术作风精确恰当指示要求的作风化输出。
闇练数据以三元组现象构建: {输入参考图像,作风类型,作风化3D联想图},完了对写实图像与作风化作品的精确映射。
针对无参考图像的文本到图像作风化的应用场景,系统先用自研通用文本图像生成模子合成参考图像,再经过图像作风化活水线,最终输出作风化作品。

作风化后果展示
针对苟且变装参考图像的姿态标准化(如A-pose),需兼顾姿态精确甩手和变装一致性的严格保捏,并需完了对参考图像中配景媾和具的摒除。
为此,团队将含苟且姿态/视角的变装图像当作条目输入,注入来领导生成过程。

姿态标准化经过图
数据集构建:早先基于变装渲染数据,构建[苟且姿态/视角变装图像,标准A-pose正面图像]的图像对。
随后,将含有谈具(如手捏火器、基座等)的渲染数据输入剪辑模子,剥离变装实践以外的谈具与配景,保证形象一致性。最终所得图像对经东谈主工筛选,纳入数据集,使模子具备谈具与配景剔除才调。
闇练战略剿袭了分辨率递进想路,自512×512起步,逐步升至768×768,促使模子更好地学习细粒度特征,显耀晋升生成图像在面部、复杂衣饰等细节部分的保真度。
此外,针对统一变装在不同场景下的参考图像进行迅速条目输入,晋升姿态泛化才和洽生成一致性。
团队还极度网罗了高质料数据集,涵盖半身像、非东谈主型类东谈主物及拟东谈主化变装等难度类型,并在后期剿袭SFT和DPO进一步微调,增强模子泛化性与鲁棒性。

姿态标准化后果高保真几何生成
高保真几何生成的责任活水线基于业界率先的Hunyuan3D框架,举座结构包含如下两个子模块:
Hunyuan3D-ShapeVAE:一种变分编码–解码式的Transformer结构,先对三维几何体进行压缩,再进行重构。
该模块的编码器输入带有三维位置和名义法向的点云,经过基于Vector-Set Transformer的弊端性采样,镶嵌为紧凑的现象潜变量z。解码器则诓骗z查询基于均匀网格的三维神经场,位置网格为,最终将神经场Fg映射为标记距离函数(SDF)值。

几何生成经过
Hunyuan3D-DiT:一种基于流的扩散模子,径直在ShapeVAE的潜空间操作。
汇集由21层Transformer堆叠而成,每层包含Mixture-of-Experts (MoE)子层,有用晋升模子容量与抒发力。
Hunyuan3D-DiT通过流匹配方向闇练,将高斯噪声映射到现象潜变量,完了现象生成的高效及高质料采样。
Hunyuan3D-DiT主要以单张输入图像为条目进行生成。该图像早先被诊疗至518×518尺寸,配景被移除,随后通过冻结的DINOv2主干汇集[7]编码为图像潜变量,并通过交叉提神力交融到生成的现象潜变量中。
为了进一步提供几何和先验领导,Hunyuan3D-Studio引入了两项补充甩手信号:
包围盒条目甩手。对于给定的包围盒,将其高、宽、长编码为,具体款式为两层 MLP。随后,将与图像潜变量次序列维度拼接,造成最终条目向量。
在闇练过程中,故意对图像或点云进行轻捷的形变,使得图像中的物体比例与对应点云不完好意思一致,从而促使模子学会反映包围盒这一甩手信号。
多视图图像生成条目。为充分诓骗图像生成模子的雄伟才调,将多视角图像(由扩散模子生成)当作变装建模的独特条目经管。

多视图生成经过
单图到多视图图像生成。如图所示,为了从单张输入图像高保真地合成多视角视图,本决议在预闇练文本到图像基础模子之上引入轻量LoRA适配层。闇练数据集由苟且视角录像机采集的物体中心视图极度对应的多视图确切图像对构成。
闇练时,通过模子原生的变分自编码器(VAE)分别将单视图输入与多视图方向编码为潜在抒发。
LoRA层以两个信息源为条目:一是无噪单视图图像的潜变量(与加噪的多视图潜变量拼接用于结构领导);二是借助预闇练 SigLIP 视觉编码器索求的输入图像语义条目向量。最终用标准流匹配耗损优化LoRA参数。
多视图条目注入。与单图条目类似,早先将总共视角图像编码为图像潜变量。每个除原始图像外的视图都注入一个带固定索引的正弦位置编码。自后,总共生成视图的潜变量与原始图像潜变量在序列维度拼接,造成最终条目向量。

包围盒条目甩手生成后果

多视图条目甩手生成后果展示低模拓扑
在几何生成高模或用户提供的模子基础上,低模拓扑模块的方向是生成干净、恰当好意思术范例的拓扑结构。
尽管在高保真几何生成模块或组件拆分模块还是生成了精致的现象,这些现象时常由广博杂沓的三角面构成,难以径直用于下贱应用(如语义UV伸开和绑定)。
因此,剿袭自回首模子,径直从生澄净象的点云展望低模拓扑的极点和面。

低模拓扑举座结构图
网格分词化(Mesh Tokenization)。为了以下一个token展望范式建模网格,第一步是将其分词为一维序列。
剿袭了Blocked and Patchified Tokenization (BPT)当作网格的基础分词要领。具体来说,BPT结合了两个中枢计制:
1)块级索引(Block-wise Indexing),它将三维坐标离别为闹翻空间块,将笛卡尔坐标波折为块偏移索引,以诓骗空间的局部性;
2)Patch团聚(Patch Aggregation),通过登第高度数极点当作patch中心,将相连面片团聚为结伴的patch,进一步压缩面片级数据。每个patch以中心极点极度外围极点的规章进行编码,减少了极点的类似,提高了空间一致性。通过BPT,模子的闇练和推理遵循都得到了显耀晋升。
汇鸠合构。低模拓扑模块的汇鸠合构由点云编码器和自回首网格解码器构成。点云编码器主要受到Michelangelo和 Hunyuan3D系列的启发,剿袭Perceiver架构,将点云编码为条目编码cp。
随后,剿袭Hourglass Transformer当作网格解码器主干,通过交叉提神力层以点云token当作条目进行解码。
闇练和推理战略。网格token的散播由带参数的Hourglass Transformer建模,通过最大化对数概率进行闇练。不同的条目cp通过交叉提神力(cross-attention)交融进模子。

为了进一步诓骗高多边形网格数据并晋升闇练遵循,本决议剿袭了截断闇练战略(truncated training strategy)。具体来说,每次闇练迭代时,会迅速登第长度为固定面数(如4k面)的网格序列片断进行闇练。而在推理阶段,咱们应用滚动缓存(rolling cache)战略,以寂静闇练和推理阶段之间的各异。
基于拓扑感知掩码的DPO网格生成后闇练。本决议建立了一条用于第二阶段微调的偏好数据集构建经过,该经过包含候选生成、多诡计评估和偏好排序。对于每个输入点云P ,咱们诓骗预闇练模子生成八个候选网格。
每个候选网格和会过三项诡计进行评估:领域边比(Boundary Edge Ratio, BER)和拓扑分数(Topology Score, TS)用于算计拓扑质料,豪斯多夫距离(Hausdorff Distance, HD)用于算计几何一致性。
当且仅当傲气以下条目时,偏好干系被界说:

从总共两两比较中整理出偏好三元组,以构建数据集。
为了解决局部几何劣势和面密度不一致的问题,剿袭了掩码直达偏好优化(Masked Direct Preference Optimization, M-DPO),它在DPO的基础上扩张了质料感知的定位掩码。本节界说了一个二值掩码函数,该函数用于凭据每个面的质料评估将高质料区域(值为1)与低质料区域(值为0)区分开来。
每个区域对应于块补丁分词(block patch tokenization, BPT)中的一个子序列。只好当子序列中的总共面片的四边形比例越过预设阈值且平均拓扑分数超出另一阈值时,该子序列才会被判定为高质料区域。令为冻结的参考模子,为可闇练战略。M-DPO的方向函数为:
其中,正项和负项分别是:

这里,示意元素逐位相乘,是范数。M-DPO完了了对低质料区域的有针对性的细化,同期保捏了质料令东谈主自在的区域。
下图展示了后闇练后的考订后果,实验末端标光泽闇练阶段对于晋升生成网格的完好性和拓扑质料至关弊端。

预闇练预后闇练后果对比
如图所示,本决议与现存的低模拓扑要领对比如下。从图中不错看出,本决议概况生成结构更复杂且拓扑质料和领悟性显耀晋升的网格。

与其他决议后果对比

基于组件拆分Mesh的低模拓扑生成后果

不同面数级别低模拓扑后果对比语义UV伸开
传统UV伸开要领的末端时常枯竭语义真理,这将显耀影响后续贴图的质料与资源诓骗遵循。
因此,这些传统要领难以径直应用于游戏开采、影视制作等专科活水线。为应答这一挑战,本节提议了一个通过自回首款式生成艺术家作风裁切缝的新式框架SeamGPT。
将曲面裁切问题建模为序列展望任务,将裁切缝示意为有序的三维线段序列。给定输入彀格M,方向是生成缝边。SeamGPT的举座经过如下图所示。

SeamGPT举座架构图
本决议剿袭两种耗损函数进行模子闇练:用于token展望的交叉熵损构怨用于正则化现象镶嵌空间的KL散度耗损,确保该空间保捏紧凑且一语气。模子经过一周闇练后拘谨。
闇练时辰,早先将总共样本缩放至一个立方体领域框内,范围为−1到1。随后应用数据增强本事,包括在 [0.95,1.05]区间内的迅速缩放、迅速极点抖动和迅速旋转。

与其它要领的量化比较

可视化对比纹理生成与剪辑
混元3D团队提议了一种高保真的纹理合成要领:将二维扩散模子扩张为几何条目下的多视角生成模子,并通过视图投影将其末端烘焙为高分辨率的纹理贴图。
该体绑缚构系统性地解决了多视角纹理生成的两个中枢挑战:
跨视角一致性与几何对皆;
RGB纹理向光照确切PBR材质纹理的扩张
本节将纹理生成框架扩张为救援多模态纹理剪辑的玄虚系统。
早先,增强了现存的多视角基于物理渲染(PBR)材质生成模子,以救援文本和图像领导的多模态剪辑。
其次,提议了一种基于材质的三维分割要领,概况从仅含几何信息的输入彀格中生成按部件离别的材质分割图,完了局部纹理剪辑。
临了,引入了一种4K材质球生成模子,概况凭据文本指示合成高分辨率的可平铺纹理球,包括基础色(Base Color)、金属度(Metallic)、粗拙度(Roughness)和法线贴图(Normal),以救援专科的艺术创作经过。
多模态纹理剪辑。本节引入了一种文本领导的纹理剪辑模子,该模子基于全心整理的包含8万份高质料PBR材质三维金钱的数据集进行闇练。
这些金钱被渲染成多视角的HDR图像,并借助视觉-谈话模子(Vision-Language Model, VLM)生成了纹理形色性标题和剪辑指示。
诓骗图像剪辑模子框架,构建了掩盖多视角的大领域图像剪辑对。
随后,纹理基础模子从这些图像对中推断出一致的多视角纹理,合成了广博文本-纹理配对,用于微调剪辑模子。在闇练过程中,将文本指示和参考图像特征结伴编码为皆集潜变量序列。
基于基础纹理生成模子,系统通过3万对文本-纹理样本完了端到端优化,最终得到一个概况在文本和视觉领导下进行纹理合成与剪辑的结伴模子。
针对图像领导的纹理剪辑模子,提议了一种简化的内行羼杂(Mixture of Experts,MoE)架构,以处理各样化的图像输入。
为判断输入图像是否与方向几何体匹配,团队筹画几何渲染视图与输入图像之间的CLIP通常度。当领导图像与方向网格具有较高的几何对应干系时,通过变分自编码器(VAE)编码器注入图像特征;
不然,剿袭CLIP图像镶嵌进行特征交融,类似于IP-Adapter的要领。这种自妥当条目机制确保在职意图像条目下完了鲁棒的纹理剪辑。

文本和图像领导的纹理剪辑
上图展示了令东谈主咋舌的多模态剪辑后果,标明概况对游戏中的物体(如谈具和变装)进行各样作风的材质剪辑,且救援全局和局部修改。
基于材质的3D分割。对于分割任务,本决议剿袭了类似于PartField的分割框架。
该框架早先从输入的点云或网格数据中索求特征,随后基于索求的三维点特征进行聚类,将三平面(triplane)示意波折为更紧凑的VecSet示意。
特征索求模块通过包含30万个三维金钱的数据集进行端到端闇练。
在零件标注方面,诓骗了原始三维金钱中镶嵌的材质槽和零件标注,同期过滤掉不成靠的零件数据。
在聚类过程中,剿袭SAM来确定动手的聚类中心数目,从而保证聚类的鲁棒性和性能。

材质图生成经过
4K材质图生成。本节翻新性地改编了底本用于编码一语气视频帧的3D VAE框架,将多域材质数据(包括渲染图、基础色、盘曲、粗拙度、金属度等)压缩为结伴的潜在示意,从而完了可扩张的4K分辨率纹理合成。
具体而言,通过带有纹理的三维金钱对3D VAE进行微调,以完了域不变的特征索求,得到一个PBR-VAE模块。随后,使用材质球数据集对3D扩散变压器(Diffusion Transformer,DiT)进行微调,构建了材质球生成模子的中枢架构。
绑骨蒙皮&动画殊效
本节先容了绑骨蒙皮与动画殊效模块,该模块由两大部分构成:东谈主形变装动画模块和通用变装动画模块。
每个变装输入早先经过检测模块处理。要是输入被判定为东谈主形变装,则进入东谈主形动画分支;不然,转入通用动画分支。
东谈主形分支包括基于模板的自动绑定模块和动作重定向模块。
为在骨骼生成的准确性与易用性之间取得均衡,团队剿袭22个身体重要当作模板骨骼。类似构建绑定与蒙皮模子,但与其在蒙皮展望中未交融绑定不竭信息不同,本决议的模子同期整合骨骼特征和极点特征,以完了更精确的末端。
此外,系统还包含姿势标准化模块,将用户提供的苟且姿势模子波折为标准的T型姿势。将T型姿势模子输入动作重定向模块,可取得更可靠且精确的后果。
相较之下,通用分支交融了自回首骨骼生成模块与几何拓扑感知蒙皮模块。由于通用变装在骨骼拓扑和重要数目上存在各异,大多数现存骨骼生成要领基于自回首本事,本盘考模块即建立在这些自回首要领之上。
对于蒙皮模块,以往算法时常仅将网格极点和骨骼重要当作输入特征,较少祥和它们之间的拓扑干系。比拟之下,团队的蒙皮模块显式交融了这些拓扑干系,从而带来更郑重和领悟的末端。

与其它要领的绑骨蒙皮后果对比

动作驱动后果展示
以上模块通过结伴的金钱图进行协同管理,各阶段输出的元数据会传递至下贱经过。
这种机制完了了参数化甩手,使高眉目的好意思术诊疗概况联接总共这个词管线,同期具备可逆性,救援增量式更新而无需全量重算。
最终输出不错凭据方向游戏引擎(如Unity或Unreal Engine)的范例进行确立与导出。
感酷好的一又友可戳下方邻接体验~
体验地址:https://3d.hunyuan.tencent.com/studio
本事解说:https://arxiv.org/pdf/2509.12815
一键三连「点赞」「转发」「着重心」
迎接在批驳区留住你的主张!
— 完 —
🏆 年度科技风向标「2025东谈主工智能年度榜单」评比报名开启啦!咱们正在寻找AI+时间领航者 点击了解确定
❤️🔥 企业、居品、东谈主物3大维度,共竖立了5类奖项,迎接企业报名参与 👇
一键祥和 👇 点亮星标
科技前沿进展逐日见开云app下载官方网站
