Replicate

核心功能

methexis-inc/img2prompt 提供近似文本提示(approximate text prompts)生成功能,带有艺术风格,可用于Stable Diffusion重新创建与输入图像/绘画相似的版本。该工具针对Stable Diffusion(clip ViT-L/14)进行了优化。它使用OpenAI CLIP模型针对各种艺术家、媒介和风格测试给定图像,研究不同模型如何查看图像内容,并结合BLIP字幕结果建议文本提示。

使用说明与流程

  1. 输入:上传本地图像文件或提供图像URL。
  2. 处理:模型使用ViT-L/14进行图像 interrogating(询问/解析)。
  3. 输出:生成一段包含图像内容、风格、艺术家等信息的文本提示词(如:"a cat wearing a suit and tie with green eyes, a stock photo by Hanns Katz, pexels, furry art, stockphoto, creative commons attribution, quantum wavetracing")。

运行方式

  • API调用:支持Node.js、Python和HTTP API。需设置REPLICATE_API_TOKEN环境变量,使用模型版本ID 50adaf2d3ad20a6f911a8a9e3ccf777b263b8596fbd2c8fc26e8888f8a0edbb5 进行运行。
  • 本地运行:可通过Cog或Docker在本地环境下载并运行模型,需Nvidia T4 GPU硬件支持。

定价与成本

  • 该模型在Replicate上运行每次大约花费$0.011,或约90次运行/$1,具体取决于输入。
  • 预测通常在49秒内完成,首次API调用会启动模型(冷启动),可能需要更长时间,后续响应会变快。

技术背景与来源

该工具是@pharmapsychotic的CLIP Interrogator notebook的微调版本,开源并遵循相关License,源码托管在GitHub(pharmapsychotic/clip-interrogator)。

访问量: 9.9M
国家: India
计价模式: Free

评论

登录 After Sign In, you can make comments