华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。