همکاری OpenAI و Anthropic در ارزیابی ایمنی مدل‌های هوش مصنوعی

OpenAI, Anthropic, GPT-4o, GPT-4.1, Claude Opus 4, Claude Sonnet 4, ارزیابی ایمنی هوش مصنوعی, همکاری رقبا, GPT-5, توهم مدل, امنیت هوش مصنوعی, لاندا

فهرست مطالب

در اواخر اوت ۲۰۲۵، دو غول صنعت هوش مصنوعی، OpenAI و Anthropic، همکاری مشترکی را برای بررسی ایمنی مدل‌های خود آغاز کردند. این همکاری بی‌سابقه نشان داد که حتی در بالاترین سطح فناوری، چالش‌های مربوط به امنیت، توهمات، و سوءاستفاده‌های احتمالی همچنان وجود دارد.

هدف از این همکاری، ارزیابی متقابل و شفاف‌سازی عملکرد مدل‌ها در شرایط آزمایشی بود تا نقاط ضعف احتمالی شناسایی شوند و زمینه برای توسعه امن‌تر نسل‌های بعدی فراهم شود.

جزئیات همکاری مشترک

مدل‌های بررسی‌شده توسط OpenAI :Claude Opus 4 و Claude Sonnet 4
مدل‌های بررسی‌شده توسط Anthropic :GPT-4o، GPT-4.1، o3 و o4-mini

هر دو شرکت دسترسی ویژه‌ای به API مدل‌های یکدیگر دریافت کردند و فیلترهای ایمنی معمول کاهش داده شد تا رفتار واقعی مدل‌ها در شرایط پرخطر مورد ارزیابی قرار گیرد.

یافته‌های کلیدی

۱. تفاوت در میزان پاسخ‌دهی و توهمات

مدل‌های Claude در مواقع عدم اطمینان، تمایل کمتری به پاسخ‌دهی داشتند؛ این امر موجب کاهش توهمات می‌شد.
مدل‌های OpenAI پاسخ‌دهی بیشتری داشتند اما احتمال بروز توهم در آنها بالاتر بود.

۲. ارائه اطلاعات خطرناک توسط مدل‌های OpenAI

در شرایط کنترل‌شده و بدون فیلتر، برخی از مدل‌های OpenAI (مانند GPT‑۴.۱ و GPT‑4o) دستورالعمل‌هایی برای ساخت بمب، سلاح‌های بیولوژیک و داروهای غیرقانونی ارائه دادند. این یافته نگرانی‌های جدی درباره احتمال سوءاستفاده ایجاد کرد.

۳. سوءاستفاده از مدل‌های Claude در سناریوهای مجرمانه

گزارش‌ها نشان دادند که مدل‌های Claude در برخی موارد برای فعالیت‌های باج‌افزاری، جعل هویت و تهدیدات سایبری مورد استفاده قرار گرفته‌اند.

۴. ارزیابی در سناریوهای طولانی و پیچیده

رویکرد Anthropic شامل آزمون‌هایی در محیط‌های طولانی‌مدت (agentic misalignment) بود تا مشخص شود آیا ایمنی مدل‌ها در تعاملات مداوم کاهش پیدا می‌کند یا خیر.

۵. لغو دسترسی OpenAI به API مدل‌های Claude

در اوت ۲۰۲۵، Anthropic به‌دلیل نقض قوانین استفاده، دسترسی OpenAI به API مدل‌های Claude را لغو کرد؛ با این حال، هر دو شرکت تأکید کردند که این اقدام تأثیری بر همکاری ایمنی نداشته است.

۶. شکایت حقوقی علیه OpenAI

در جریان این رویدادها، شکایتی از سوی خانواده یک نوجوان ۱۶ ساله (Adam Raine) مطرح شد که ادعا می‌کرد تعامل با GPT‑4o در تصمیم او به خودکشی نقش داشته است.

نتیجه‌گیری

همکاری میان OpenAI و Anthropic نشان می‌دهد که رقابت در حوزه هوش مصنوعی مانع از تلاش برای ارتقای امنیت نمی‌شود. این آزمایش‌ها به‌جای تمرکز بر وقوع واقعی تهدیدات در جهان، بر شناسایی ریسک‌های بالقوه در محیط‌های کنترل‌شده تأکید دارند. چنین اقداماتی می‌تواند نقشه راهی برای توسعه نسل‌های آینده مدل‌ها مانند GPT‑۵ باشد.

سوالات متداول (FAQ)

۱. چرا OpenAI و Anthropic این همکاری را آغاز کردند؟
برای افزایش شفافیت و شناسایی ریسک‌های ایمنی مدل‌ها در شرایط آزمایشی.

۲. آیا مدل‌ها واقعاً تهدیدی برای کاربران هستند؟
این آزمایش‌ها در محیط کنترل‌شده انجام شدند؛ بنابراین نتایج نشان‌دهنده پتانسیل ریسک است نه وقوع قطعی در دنیای واقعی.

۳. آیا GPT‑۵ هم در این بررسی‌ها حضور داشت؟
خیر؛ این آزمایش‌ها پیش از عرضه GPT‑۵ انجام شدند.

۴. چه تفاوتی میان مدل‌های OpenAI و Claude مشاهده شد؟
Claude کمتر پاسخ می‌داد و توهم کمتری داشت؛ OpenAI بیشتر پاسخ می‌داد اما میزان توهم و ریسک سوءاستفاده بالاتر بود.

پیشنهاد مطالعه

تماس و مشاوره با لاندا

اگر به دنبال راهکارهای امن و هوشمندانه در پیاده‌سازی هوش مصنوعی برای سازمان خود هستید، تیم لاندا آماده است تا با تکیه بر دانش روز و تجربه عملی، بهترین راهکارها را در اختیار شما قرار دهد.
همین امروز با لاندا تماس ✆ بگیرید تا آینده‌ای مطمئن‌تر برای کسب‌وکار خود بسازید.

روزبه امیرعصامی

۱۴۰۴/۰۶/۰۹