در دو سال گذشته، استفاده از مدلهای هوش مصنوعی برای تولید تصاویر به صورت گستردهای رواج یافته است و موانع فنی استفاده از آنها تقریباً برطرف شده است. با این حال، این مسئله به معنای پایدار شدن و به دست آوردن سطح مناسبی از کارایی مدلها نیست. در حقیقت، متا ادعا میکند که با معرفی مدل CM3Leon، بهبود قابل توجهی در این حوزه رخ داده و بهترین نمونه تولید تصاویر با استفاده از هوش مصنوعی را به دست آورده است.
در ادامه با سرویس اخبار و مقالات فناوری سیبما همراه باشید...
متا با معرفی مدل جدید هوش مصنوعی به نام CM3Leon، که به عنوان Chameleon یا "آفتابپرست" هم شناخته میشود، ادعا میکند که این سیستم توانایی بهترین عملکرد در تبدیل متن به تصویر را دارد. علاوه بر این، این مدل یکی از اولین مدلهایی است که میتواند توضیح یا کپشن برای تصاویر بنویسد.
CM3Leon یک مدل مبدل یا "ترنسفورمر" است که با استفاده از مکانیزم "توجه"، تلاش میکند تا ارتباط دادههای موجود از جمله متن و تصاویر را با یکدیگر ارزیابی کند. این توجه در کنار ویژگیهای معماری دیگر مربوط به مدلهای ترنسفورمر، میتواند سرعت آموزش مدلها را افزایش دهد. در حال حاضر، ساخت مدلهای ترنسفورمر بزرگتر با افزایش توان پردازشی ممکن است.
به گفته متا، CM3Leon از بیشتر مدلهای ترنسفورمر بهینهتر است و توان پردازشی مورد نیاز آن پنجبرابر کمتر از مدلهای مشابه است، همچنین میتواند با پایگاه کوچکتری از دادهها آموزش داده شود. برای آموزش این مدل، متا از میلیونها تصویر از شرکت Shutterstock استفاده کرده است.
CM3Leon با حدود 7 میلیارد پارامتر، یکی از قویترین نسخههای مدلهای ترنسفورمر است که تقریباً دوبرابر مدل DALL-E 2 از شرکت OpenAI است. استفاده از تکنیک بهینهسازی نظارتی (SFT) نیز از قابلیتهای کلیدی CM3Leon است که به افزایش قدرت آن کمک میکند.
این مدل هوش مصنوعی میتواند فرمانهای مربوط به ویرایش تصاویر را نیز درک کند و همچنین برای تصاویر توضیح کوتاه یا بلند بنویسد. عملکرد CM3Leon در این زمینه حتی از مدلهای مخصوص خلق کپشن برای تصاویر مثل Flamingo و OpenFlamingo بهتر است.
هنوز قطعی نشده که متا قصد عرضه CM3Leon را دارد یا نه و در صورت مثبت بودن پاسخ، زمان عرضه آن نیز مشخص نشده است.