Replicate

打开网站

核心功能

methexis-inc/img2prompt 提供近似文本提示（approximate text prompts）生成功能，带有艺术风格，可用于Stable Diffusion重新创建与输入图像/绘画相似的版本。该工具针对Stable Diffusion（clip ViT-L/14）进行了优化。它使用OpenAI CLIP模型针对各种艺术家、媒介和风格测试给定图像，研究不同模型如何查看图像内容，并结合BLIP字幕结果建议文本提示。

使用说明与流程

输入：上传本地图像文件或提供图像URL。
处理：模型使用ViT-L/14进行图像 interrogating（询问/解析）。
输出：生成一段包含图像内容、风格、艺术家等信息的文本提示词（如："a cat wearing a suit and tie with green eyes, a stock photo by Hanns Katz, pexels, furry art, stockphoto, creative commons attribution, quantum wavetracing"）。

运行方式

API调用：支持Node.js、Python和HTTP API。需设置REPLICATE_API_TOKEN环境变量，使用模型版本ID 50adaf2d3ad20a6f911a8a9e3ccf777b263b8596fbd2c8fc26e8888f8a0edbb5 进行运行。
本地运行：可通过Cog或Docker在本地环境下载并运行模型，需Nvidia T4 GPU硬件支持。

定价与成本

该模型在Replicate上运行每次大约花费$0.011，或约90次运行/$1，具体取决于输入。
预测通常在49秒内完成，首次API调用会启动模型（冷启动），可能需要更长时间，后续响应会变快。

技术背景与来源

该工具是@pharmapsychotic的CLIP Interrogator notebook的微调版本，开源并遵循相关License，源码托管在GitHub（pharmapsychotic/clip-interrogator）。

访问量: 9.9M

国家: India

计价模式: Free

AI艺术创作 Free

分享