
مرجع ARC-AGI-2 به گونه ای طراحی شده است که یک آزمایش دشوار برای مدل های AI باشد
تصاویر stust_super / getty
پیشرفته ترین مدل های هوش مصنوعی که امروزه وجود دارد ، مرجع جدیدی را به دست آورده اند که برای اندازه گیری پیشرفت آنها به سمت هوش مصنوعی عمومی (سن) طراحی شده است – و قدرت رایانه نیروی بی رحمانه برای بهبود کافی نخواهد بود ، زیرا ارزیاب ها اکنون هزینه مدیریت مدل را در نظر می گیرند.
تعاریف رقابتی زیادی از سن وجود دارد ، اما به طور کلی در نظر گرفته می شود که به یک هوش مصنوعی مراجعه می شود که می تواند هر کار شناختی را که انسان می تواند انجام دهد انجام دهد. برای اندازه گیری این ، بنیاد جایزه ARC قبلاً تست ظرفیت استدلال به نام ARC-AGI-1 را راه اندازی کرده بود. دسامبر گذشته ، Openai اعلام کرد که مدل O3 وی به شدت این آزمایش را نشان داده است ، و همین باعث شد برخی از آنها سؤال کنند که آیا این شرکت قصد دارد به AG برسد یا خیر.
اما اکنون ، یک آزمایش جدید ، Arc-Agi-2 ، نوار را بالا برده است. بسیار دشوار است که هیچ سیستم هوش مصنوعی فعلی در بازار نتواند با یک عدد در 100 در آزمون به نمره برسد ، در حالی که هر سؤال حداقل در دو بار در کمتر از دو تلاش برطرف شده است.
در یک مقاله وبلاگ با اعلام ARC-AGI-2 ، رئیس قوس ، گرگ کامراد ، گفت که مرجع جدید برای آزمایش مهارت های مختلف تکرار قبلی لازم است. وی نوشت: “برای ضرب و شتم آن ، شما باید هم سطح بالایی از سازگاری و هم کارآیی زیادی را نشان دهید.”
مرجع ARC -AGI -2 با سایر تست های مرجع در هوش مصنوعی متفاوت است زیرا بر ظرفیت های مدل های هوش مصنوعی برای انجام کارهای ساده گرا – مانند تکثیر تغییرات در یک تصویر جدید بر اساس نمونه های قبلی تفسیر نمادین – به جای توانایی آنها برای مطابقت با عملکرد دکتری در جهان متمرکز است. مدل های فعلی در “یادگیری عمیق” خوب هستند ، که ARC-AGI-1 اندازه گیری کرده است ، اما در کارهای ظاهراً ساده تر ، که به فکر و تعامل دشوارتر هستند ، در ARC-AGI-2 خوب نیستند. به عنوان مثال ، O3-BA از مدل OpenAI ، 75.7 ٪ در ARC-AGI-1 را نشان می دهد ، اما تنها 4 ٪ در ARC-AGI-2 است.
این مرجع همچنین با بررسی اثربخشی آن در حل مسئله ، ابعاد جدیدی را برای اندازه گیری ظرفیت های هوش مصنوعی اضافه می کند ، همانطور که با هزینه مورد نیاز برای انجام یک کار اندازه گیری می شود. به عنوان مثال ، در حالی که AC برای هر کار 17 دلار برای آزمایش کنندگان خود پرداخت کرده است ، وی تخمین می زند که هزینه O3-Low 200 دلار در هزینه های مشابه برای همان کار باز می کند.
گفت: “من فکر می کنم که تکرار جدید ARC-AGI اکنون روی تعادل عملکرد با کارآیی متمرکز شده است ، گامی بزرگ برای ارزیابی واقع بینانه تر از مدل های هوش مصنوعی است.” جوزف امپریال در دانشگاه حمام ، انگلستان. “این نشانه ای است که ما از یک تست ارزیابی یک بعدی می رویم که فقط بر عملکرد متمرکز است ، بلکه با توجه به قدرت محاسبه کمتری نیز در نظر گرفته شده است.”
هر مدلی که قادر به عبور از ARC-AGI-2 باشد ، نه تنها باید بسیار صالح باشد ، بلکه کوچکتر و سبک تر نیز شناخته می شود ، به عنوان امپریال-اثربخشی مدل یک عنصر اصلی مرجع جدید است. این می تواند به نگرانی در مورد نگرانی هایی که مدل های هوش مصنوعی با شدت زیاد انرژی تبدیل می شوند کمک کند جدید بعضی اوقات ، تا حد زباله – برای به دست آوردن نتایج بزرگتر.
با این حال ، همه متقاعد نشده اند که اقدام جدید مفید است. می گوید: “کل این موضوع به دلیل آزمایش اطلاعات ، قاب مناسب نیست.” کاترین فلیک در دانشگاه Staffordshire ، انگلستان. در عوض ، او می گوید که این معیارها به سادگی توانایی یک هوش مصنوعی در انجام یک کار واحد یا مجموعه ای از کارها را ارزیابی می کنند ، که سپس برای نشان دادن ظرفیت های کلی از طریق یک سری از کارها ، برون یابی می شود.
به خوبی کار کردن بر روی این معیارها نباید یک لحظه مهم در جهت AG در نظر گرفته شود ، می گوید: “شما می بینید که رسانه ها از سر می گیرند که این مدل ها این آزمایشات اطلاعاتی را در سطح انسانی می گذرانند ، جایی که آنها در واقع نیستند ؛ آنچه انجام می دهند دقیقاً به یک ارسال ویژه پاسخ می دهد.”
و دقیقاً چه اتفاقی می افتد اگر یا وقتی ARC-AGI-2 گذشت ، سؤال دیگری است که ما به یک مرجع دیگر نیاز داریم؟ “اگر آنها مجبور به توسعه ARC-AGI-3 بودند ، من فرض می کنم که آنها محور دیگری را در نمودار نشان می دهند که نشان می دهد [the] حداقل تعداد انسان ها – خواه متخصص باشند و چه نباشند – علاوه بر عملکرد و کارآیی ، لازم است وظایف را نیز حل کند. “به عبارت دیگر ، بحث AC احتمالاً به زودی حل نمی شود.
سوژه ها:
منبع: https://www.newscientist.com/article/2473622-leading-ai-models-fail-new-test-of-artificial-general-intelligence/?utm_campaign=RSS%7CNSNS&utm_source=NSNS&utm_medium=RSS&utm_content=home