بسیاری از مردم گزارش کرده اند که متوجه کاهش قابل توجهی در کیفیت پاسخ های مدل شده اند، اما تا کنون، همه اینها حکایتی بود.
مدیر عامل OpenAI، سام ،من اخیرا بیان شده است ناامیدی او در توییتی در پی کمیسیون تجارت فدرال شروع تحقیقات در مورد اینکه آیا ChatGPT قو،ن حمایت از مصرف کننده را نقض کرده است یا خیر.
آزمایش دیگری که توسط محققان مورد استفاده قرار گرفت، تکنیک زنجیرهای از فکر بود که در آن از GPT-4 پرسیدند آیا 17077 عدد اول است؟ یک سوال استدلال به گفته محققان، نه تنها GPT-4 به اشتباه پاسخ منفی داد، بلکه توضیحی در مورد چگونگی رسیدن به این نتیجه نیز ارائه نکرد.
— سانتیاگو (@svpino) 19 جولای 2023
این گزینه ارزانتر و سریعتر ممکن است منجر به افت کیفیت پاسخهای GPT-4 در زم، مهم شود که شرکت مادر بسیاری از سازمانهای بزرگ دیگر را بسته به فناوری خود برای همکاری دارد.
حداقل یک مطالعه نشان می دهد که چگونه نسخه ژوئن GPT-4 به طور عینی بدتر از… pic.twitter.com/whhELYY6M4
علاوه بر این، تولید کد با توجه به اینکه توسعه دهندگان LeetCode شاهد کاهش عملکرد GPT-4 در مجموعه داده های 50 مشکل آسان از 52% دقت به دقت 10% بین ماه مارس و ژوئن بوده اند، متضرر شده است.
ChatGPT، مبتنی بر GPT-3.5 LLM، قبلاً به دلیل داشتن چالشهای اطلاعاتی مانند داشتن دانش محدود از رویدادهای جهان پس از سال 2021 شناخته شده بود، که میتواند باعث شود شکافها را با دادههای نادرست پر کند. با این حال، به نظر می رسد رگرسیون اطلاعات یک مشکل کاملاً جدید است که قبلاً در این سرویس دیده نشده است. کاربران مشتاقانه منتظر به روز رس، برای رسیدگی به مشکلات پذیرفته شده بودند.
هنگامی که GPT-4 برای اولین بار اعلام شد OpenAI جزئیات استفاده خود از ابررایانه های Microsoft Azure AI را برای آموزش مدل زبان به مدت شش ماه شرح داد و ادعا کرد که نتیجه آن 40٪ احتمال بیشتری برای تولید “اطلاعات مورد نظر از درخواست های کاربر” است.
با این حال، مفسر توییتر، @svpino اشاره کرد که شایعاتی وجود دارد مبنی بر اینکه OpenAI ممکن است از «مدلهای کوچکتر و تخصصی GPT-4 استفاده کند که مشابه مدلهای بزرگ عمل میکنند، اما هزینه کمتری برای اجرا دارند».
این احساسات برای مدتی وجود داشته است، اما اکنون ممکن است در نهایت مدرکی داشته باشیم. مطالعه ای که با همکاری دانشگاه استنفورد و دانشگاه برکلی انجام شد نشان می دهد که GPT-4 مهارت پاسخگویی خود را بهبود نداده است، اما در واقع با به روز رس، های بیشتر در مدل زبان بدتر شده است.
قابل ذکر است، GPT-4 در حال حاضر برای توسعه دهندگان یا اعضای پولی از طریق ChatGPT Plus در دسترس است. پرسیدن همان سؤال از GPT-3.5 از طریق پیشنمایش تحقیق رایگان ChatGPT، همانطور که من انجام دادم، نه تنها پاسخ صحیح را دریافت میکنید، بلکه توضیح مفصلی از فرآیند ریاضی را نیز به شما میدهد.
GPT-4 با گذشت زمان بدتر می شود، نه بهتر.
“ما در مورد محدودیت های فناوری خود شفاف هستیم، به خصوص زم، که کوتاهی می کنیم. و ساختار سود محدود ما به این م،ی است که ما انگیزه ای برای بازدهی نامحدود نداریم.»
توصیه های سردبیران
منبع: https://www.di،altrends.com/computing/study-s،ws-a-downturn-in-openais-gpt-4-response-quality/
مطالعه، به نام چگونه رفتار ChatGPT در طول زمان تغییر می کند؟، قابلیت را بین GPT-4 و نسخه زبان قبلی GPT-3.5 بین ماه مارس و ژوئن آزمایش کرد. با آزمایش دو نسخه مدل با مجموعه دادهای از 500 مشکل، محققان مشاهده ،د که GPT-4 دارای نرخ دقت 97.6% در ماه مارس با 488 پاسخ صحیح و نرخ دقت 2.4% در ماه ژوئن پس از انجام برخی بهروزرس،های GPT-4 بود. این مدل تنها 12 پاسخ صحیح ماه بعد تولید کرد.
اما اکنون می د،م.
به همان اندازه که GPT-4 در زمان پرتاب چشمگیر بود، برخی از تماشاگران مشاهده ،د که دقت و قدرت خود را از دست داده است. این مشاهدات ماههاست که به صورت آنلاین از جمله در سایت پست شده است انجمن های OpenAI.