ابزار مرتبط به این سوال

ChatGPTچت جی پی تی

چت با هوش مصنوعی

چت صوتی با هوش مصنوعی سخنگو

نوشتن متن با هوش مصنوعی

تبدیل عکس به متن با هوش مصنوعی

Midjourneyمیدجرنی

تبدیل متن به عکس با هوش مصنوعی

ادیت عکس با هوش مصنوعی

ساخت عکس با هوش مصنوعی

تبدیل عکس به عکس با هوش مصنوعی

VEOوی ای او

تبدیل متن به ویدیو با هوش مصنوعی

ساخت ویدیو با هوش مصنوعی

تبدیل عکس به ویدیو با هوش مصنوعی

ElevenLabsالون لبز

soraسورا

ادیت ویدیو با هوش مصنوعی

تبدیل متن به ویدیو با هوش مصنوعی

تبدیل عکس به ویدیو با هوش مصنوعی

ساخت ویدیو با هوش مصنوعی

Soundfulسوندفول

تبدیل متن به صدا با هوش مصنوعی

ترکیب صدا با هوش مصنوعی

@user-xpto

25 شهریور 1404

کدوم ابزار برای ساخت عکس دست آدم رو بیشتر باز می‌ذاره؟

من چند وقتیه دارم با ابزارهای ساخت تصویر کار می‌کنم، ولی چیزی که برام مهمه اینه که بشه بیشتر روی خروجی کنترل داشت. مثلا اینکه یه بخش از تصویر رو عوض کنم، یا مدل مخصوص خودمو روش بریزم، یا حتی یه جورایی دقیق مشخص کنم چی کجا باشه. کسی تجربه داره بگه کدوم ابزارها برای سفارشی‌سازی و کنترل بهترن؟ فقط پرامپت ساده زدن مد نظرم نیست، بیشتر دنبال اونایی‌ام که دست آدم رو حسابی باز می‌ذارن.

به گفت‌وگو بپیوندید !

فرمت‌های MP3، JPG، PNG، WEBP، MP4، MKV تا ۱۰ مگابایت

@user-PNOx

25 شهریور 1404

ببین، من تقریباً با بیشتر ابزارهای معروف کار کردم. چیزی که تو عمل فهمیدم اینه که اگه بخوای دستت واقعاً باز باشه و بتونی ریز به ریز روی خروجی کنترل داشته باشی، Stable Diffusion انتخاب اول حساب می‌شه. چون اوپن‌سورسه و همه‌جوره می‌تونی باهاش ور بری. مثلا با افزونه‌هایی مثل ControlNet می‌تونی بهش یه اسکلت یا تصویر مرجع بدی و دقیق مشخص کنی سوژه چه حالتی داشته باشه یا کجا قرار بگیره. با inpainting و outpainting هم می‌تونی بخش‌های خاصی از تصویر رو تغییر بدی یا گسترشش بدی. حتی اگه بخوای جدی‌تر بشی، می‌تونی با LoRA یا DreamBooth مدل رو روی دیتای خودت آموزش بدی تا سبک یا کاراکتر مخصوص خودتو همیشه تحویل بده. البته این آزادی عمل یه هزینه هم داره: باید سخت‌افزار قوی داشته باشی (مخصوصاً کارت گرافیک)، و یه کم حوصله تنظیمات و یاد گرفتن رابط‌هایی مثل Automatic1111 یا ComfyUI رو داشته باشی. ComfyUI خیلی حرفه‌ایه، تقریباً مثل اینه که خودت بلوک‌های مدل رو بچینی و ترکیب کنی، برای همین کنترلش بی‌نظیره ولی یاد گرفتنش راحت نیست. از اون طرف اگه نخوای درگیر نصب و منابع سخت‌افزاری بشی، سرویس‌های ابری مثل Leonardo یا Runway یه جور تعادل خوب می‌دن. مثلا تو Leonardo می‌تونی همون inpainting/outpainting رو بزنی، یا حتی مدل سبک خودتو آموزش بدی، بدون اینکه کارت گرافیک داشته باشی. Runway هم بیشتر روی ویرایش ویدیو و ادیت تصویری تمرکز داره، ولی ابزارهای ساده و کاربردی برای تغییر بخش‌های تصویر داره. اما Midjourney و DALL·E یه فلسفه دیگه دارن. اینا رو طوری طراحی کردن که ساده باشن: پرامپت می‌دی و سریع یه تصویر آماده می‌گیری. برای کسی که دنبال خروجی خوشگل و فوریه خیلی خوبن، ولی اگه بخوای دقیق بگی فلان چیز کجای تصویر باشه یا یه قسمت خاص رو تغییر بدی، محدود می‌شی. Midjourney جدیداً یه قابلیت region edit گذاشته، ولی هنوز با چیزی مثل ControlNet قابل مقایسه نیست. خلاصه تجربه من این بوده: Stable Diffusion برای کنترل کامل و سفارشی‌سازی جدی بی‌رقیبه، ولی راحتی نداره. Midjourney و DALL·E خیلی راحتن، ولی کنترل زیادی بهت نمی‌دن. سرویس‌های وسط مثل Leonardo برای خیلیا بهترین بالانس رو ایجاد می‌کنن.