Replicate
核心功能
methexis-inc/img2prompt 提供近似文本提示(approximate text prompts)生成功能,带有艺术风格,可用于Stable Diffusion重新创建与输入图像/绘画相似的版本。该工具针对Stable Diffusion(clip ViT-L/14)进行了优化。它使用OpenAI CLIP模型针对各种艺术家、媒介和风格测试给定图像,研究不同模型如何查看图像内容,并结合BLIP字幕结果建议文本提示。
使用说明与流程
- 输入:上传本地图像文件或提供图像URL。
- 处理:模型使用ViT-L/14进行图像 interrogating(询问/解析)。
- 输出:生成一段包含图像内容、风格、艺术家等信息的文本提示词(如:"a cat wearing a suit and tie with green eyes, a stock photo by Hanns Katz, pexels, furry art, stockphoto, creative commons attribution, quantum wavetracing")。
运行方式
- API调用:支持Node.js、Python和HTTP API。需设置
REPLICATE_API_TOKEN环境变量,使用模型版本ID50adaf2d3ad20a6f911a8a9e3ccf777b263b8596fbd2c8fc26e8888f8a0edbb5进行运行。 - 本地运行:可通过Cog或Docker在本地环境下载并运行模型,需Nvidia T4 GPU硬件支持。
定价与成本
- 该模型在Replicate上运行每次大约花费$0.011,或约90次运行/$1,具体取决于输入。
- 预测通常在49秒内完成,首次API调用会启动模型(冷启动),可能需要更长时间,后续响应会变快。
技术背景与来源
该工具是@pharmapsychotic的CLIP Interrogator notebook的微调版本,开源并遵循相关License,源码托管在GitHub(pharmapsychotic/clip-interrogator)。
访问量:
9.9M
国家:
India
计价模式:
Free
评论