Deep floyd

打开网站

核心功能与特点： DeepFloyd IF是一个模块化的级联像素扩散模型，由一个冻结的文本编码器和三个级联的像素扩散模块组成：一个基于文本提示生成64x64像素图像的基础模型，以及两个超分辨率模型（分别生成256x256像素和1024x1024像素图像）。模型的所有阶段都利用基于T5 transformer的冻结文本编码器来提取文本嵌入，然后将其输入到通过交叉注意力和注意力池化增强的UNet架构中。该模型在COCO数据集上实现了6.66的零样本FID分数，超越了当前最先进的模型，突显了级联扩散模型第一阶段中较大UNet架构的潜力。

主要模式与用例：

Dream（文生图）：基于文本提示生成图像，支持自定义guidance_scale和sample_timestep_respacing等参数。
零样本图像到图像转换（风格迁移）：输出图像呈现出support_pil_img的风格，支持折纸、油画、塑料积木、经典动漫等风格。
超分辨率：可以对非IF模型生成的图像运行IF-II和IF-III（或Stable x4）进行级联放大处理，将低分辨率图像提升至高分辨率。
零样本修复：基于提供的原始图像和修复遮罩，根据文本提示进行图像局部重绘。

使用说明与集成：

集成Hugging Face Diffusers库，支持模型CPU卸载以在低至14GB VRAM下运行整个IF流水线。若使用torch>=2.0.0，需删除所有enable_xformers_memory_efficient_attention()函数。
使用前需拥有Hugging Face账号，接受模型卡上的许可协议，并使用huggingface_hub登录获取访问权限。
也提供本地Python库deepfloyd_if的安装方式，需配合xformers及CLIP使用。

硬件要求：

运行IF-I-XL (4.3B) & IF-II-L (1.2B) 至少需要16GB显存；若同时运行Stable x4上采样器至1024x1024则需要24GB显存，并需安装xformers及设置环境变量FORCE_MEM_EFFICIENT_ATTN=1。

模型库与规模：包含多种参数规模的模型，如IF-I-M (400M)、IF-I-L (900M)、IF-I-XL (4.3B)、IF-II-M (450M)、IF-II-L (1.2B)和IF-III-L (700M)。

许可与收费：代码在定制许可下发布（包含特定限制条款），初始发布版本仅限研究用途，未来计划发布完全开源的模型。模型权重可通过Hugging Face免费获取。

访问量: 416.2M

国家: United States

计价模式: Free

AI绘画生成 AI资源导航 Free Open Source

分享