Deep floyd
核心功能与特点: DeepFloyd IF是一个模块化的级联像素扩散模型,由一个冻结的文本编码器和三个级联的像素扩散模块组成:一个基于文本提示生成64x64像素图像的基础模型,以及两个超分辨率模型(分别生成256x256像素和1024x1024像素图像)。模型的所有阶段都利用基于T5 transformer的冻结文本编码器来提取文本嵌入,然后将其输入到通过交叉注意力和注意力池化增强的UNet架构中。该模型在COCO数据集上实现了6.66的零样本FID分数,超越了当前最先进的模型,突显了级联扩散模型第一阶段中较大UNet架构的潜力。
主要模式与用例:
- Dream(文生图):基于文本提示生成图像,支持自定义guidance_scale和sample_timestep_respacing等参数。
- 零样本图像到图像转换(风格迁移):输出图像呈现出support_pil_img的风格,支持折纸、油画、塑料积木、经典动漫等风格。
- 超分辨率:可以对非IF模型生成的图像运行IF-II和IF-III(或Stable x4)进行级联放大处理,将低分辨率图像提升至高分辨率。
- 零样本修复:基于提供的原始图像和修复遮罩,根据文本提示进行图像局部重绘。
使用说明与集成:
- 集成Hugging Face Diffusers库,支持模型CPU卸载以在低至14GB VRAM下运行整个IF流水线。若使用torch>=2.0.0,需删除所有enable_xformers_memory_efficient_attention()函数。
- 使用前需拥有Hugging Face账号,接受模型卡上的许可协议,并使用huggingface_hub登录获取访问权限。
- 也提供本地Python库
deepfloyd_if的安装方式,需配合xformers及CLIP使用。
硬件要求:
- 运行IF-I-XL (4.3B) & IF-II-L (1.2B) 至少需要16GB显存;若同时运行Stable x4上采样器至1024x1024则需要24GB显存,并需安装xformers及设置环境变量FORCE_MEM_EFFICIENT_ATTN=1。
模型库与规模: 包含多种参数规模的模型,如IF-I-M (400M)、IF-I-L (900M)、IF-I-XL (4.3B)、IF-II-M (450M)、IF-II-L (1.2B)和IF-III-L (700M)。
许可与收费: 代码在定制许可下发布(包含特定限制条款),初始发布版本仅限研究用途,未来计划发布完全开源的模型。模型权重可通过Hugging Face免费获取。
访问量:
416.2M
国家:
United States
计价模式:
Free
评论