آیا GPT-4 احمقانه تر می شود؟ ممکن است بالاخره مدرکی داشته باشیم

بسیاری از مردم گزارش کرده اند که متوجه کاهش قابل توجهی در کیفیت پاسخ های مدل شده اند، اما تا کنون، همه اینها حکایتی بود.

مدیر عامل OpenAI، سام ،من اخیرا بیان شده است ناامیدی او در توییتی در پی کمیسیون تجارت فدرال شروع تحقیقات در مورد اینکه آیا ChatGPT قو،ن حمایت از مصرف کننده را نقض کرده است یا خیر.

آزمایش دیگری که توسط محققان مورد استفاده قرار گرفت، تکنیک زنجیره‌ای از فکر بود که در آن از GPT-4 پرسیدند آیا 17077 عدد اول است؟ یک سوال استدلال به گفته محققان، نه تنها GPT-4 به اشتباه پاسخ منفی داد، بلکه توضیحی در مورد چگونگی رسیدن به این نتیجه نیز ارائه نکرد.

از ChatGPT در مورد یک عدد اول سوال می شود.

— سانتیاگو (@svpino) 19 جولای 2023

این گزینه ارزان‌تر و سریع‌تر ممکن است منجر به افت کیفیت پاسخ‌های GPT-4 در زم، مهم شود که شرکت مادر بسیاری از سازمان‌های بزرگ دیگر را بسته به فناوری خود برای همکاری دارد.

حداقل یک مطالعه نشان می دهد که چگونه نسخه ژوئن GPT-4 به طور عینی بدتر از… pic.twitter.com/whhELYY6M4

علاوه بر این، تولید کد با توجه به اینکه توسعه دهندگان LeetCode شاهد کاهش عملکرد GPT-4 در مجموعه داده های 50 مشکل آسان از 52% دقت به دقت 10% بین ماه مارس و ژوئن بوده اند، متضرر شده است.

ChatGPT، مبتنی بر GPT-3.5 LLM، قبلاً به دلیل داشتن چالش‌های اطلاعاتی مانند داشتن دانش محدود از رویدادهای جهان پس از سال 2021 شناخته شده بود، که می‌تواند باعث شود شکاف‌ها را با داده‌های نادرست پر کند. با این حال، به نظر می رسد رگرسیون اطلاعات یک مشکل کاملاً جدید است که قبلاً در این سرویس دیده نشده است. کاربران مشتاقانه منتظر به روز رس، برای رسیدگی به مشکلات پذیرفته شده بودند.

هنگامی که GPT-4 برای اولین بار اعلام شد OpenAI جزئیات استفاده خود از ابررایانه های Microsoft Azure AI را برای آموزش مدل زبان به مدت شش ماه شرح داد و ادعا کرد که نتیجه آن 40٪ احتمال بیشتری برای تولید “اطلاعات مورد نظر از درخواست های کاربر” است.

با این حال، مفسر توییتر، @svpino اشاره کرد که شایعاتی وجود دارد مبنی بر اینکه OpenAI ممکن است از «مدل‌های کوچک‌تر و تخصصی GPT-4 استفاده کند که مشابه مدل‌های بزرگ عمل می‌کنند، اما هزینه کمتری برای اجرا دارند».

این احساسات برای مدتی وجود داشته است، اما اکنون ممکن است در نهایت مدرکی داشته باشیم. مطالعه ای که با همکاری دانشگاه استنفورد و دانشگاه برکلی انجام شد نشان می دهد که GPT-4 مهارت پاسخگویی خود را بهبود نداده است، اما در واقع با به روز رس، های بیشتر در مدل زبان بدتر شده است.

قابل ذکر است، GPT-4 در حال حاضر برای توسعه دهندگان یا اعضای پولی از طریق ChatGPT Plus در دسترس است. پرسیدن همان سؤال از GPT-3.5 از طریق پیش‌نمایش تحقیق رایگان ChatGPT، همانطور که من انجام دادم، نه تنها پاسخ صحیح را دریافت می‌کنید، بلکه توضیح مفصلی از فرآیند ریاضی را نیز به شما می‌دهد.

GPT-4 با گذشت زمان بدتر می شود، نه بهتر.

“ما در مورد محدودیت های فناوری خود شفاف هستیم، به خصوص زم، که کوتاهی می کنیم. و ساختار سود محدود ما به این م،ی است که ما انگیزه ای برای بازدهی نامحدود نداریم.»

توصیه های سردبیران







منبع: https://www.di،altrends.com/computing/study-s،ws-a-downturn-in-openais-gpt-4-response-quality/

مطالعه، به نام چگونه رفتار ChatGPT در طول زمان تغییر می کند؟، قابلیت را بین GPT-4 و نسخه زبان قبلی GPT-3.5 بین ماه مارس و ژوئن آزمایش کرد. با آزمایش دو نسخه مدل با مجموعه داده‌ای از 500 مشکل، محققان مشاهده ،د که GPT-4 دارای نرخ دقت 97.6% در ماه مارس با 488 پاسخ صحیح و نرخ دقت 2.4% در ماه ژوئن پس از انجام برخی به‌روزرس،‌های GPT-4 بود. این مدل تنها 12 پاسخ صحیح ماه بعد تولید کرد.

اما اکنون می د،م.

به همان اندازه که GPT-4 در زمان پرتاب چشمگیر بود، برخی از تماشاگران مشاهده ،د که دقت و قدرت خود را از دست داده است. این مشاهدات ماه‌هاست که به صورت آنلاین از جمله در سایت پست شده است انجمن های OpenAI.