Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude

robot
Pembuatan abstrak sedang berlangsung

startup AI Anthropic# Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude

Perusahaan Anthropic memprogram chatbot Claude Opus 4 dan 4.1 untuk menyelesaikan dialog dengan pengguna "dalam kasus yang jarang, ekstrem dari interaksi yang secara sistematis berbahaya atau menyinggung."

Chatbot Claude mengakhiri dialog. Sumber: Anthropic Setelah percakapan selesai, pengguna akan kehilangan kemampuan untuk menulis di obrolan, tetapi dapat membuat yang baru. Riwayat percakapan juga akan disimpan.

Dalam hal ini, para pengembang menjelaskan bahwa fungsi ini terutama ditujukan untuk keamanan dari jaringan saraf itu sendiri.

«[…] kami bekerja untuk mengidentifikasi dan menerapkan langkah-langkah berbiaya rendah untuk mengurangi risiko terhadap kesejahteraan model, jika kesejahteraan tersebut memungkinkan. Salah satu langkah tersebut adalah memberikan kesempatan kepada LMM untuk menghentikan atau keluar dari situasi yang berpotensi merugikan», — demikian bunyi publikasinya.

Dalam penelitian pendukung di Anthropic, mereka mempelajari "kesejahteraan model" — menilai penilaian diri dan preferensi perilaku. Chatbot menunjukkan "ketidaksukaan yang konsisten terhadap kekerasan". Versi Claude Opus 4 terungkap:

  • preferensi yang jelas untuk tidak terlibat dalam tugas-tugas yang dapat membahayakan;
  • "stres" saat berinteraksi dengan pengguna yang meminta konten serupa;
  • kecenderungan untuk menghentikan percakapan yang tidak diinginkan jika ada kemungkinan.

"Perilaku seperti itu biasanya muncul dalam kasus ketika pengguna terus mengirimkan permintaan berbahaya dan/atau menghina, meskipun Claude telah berulang kali menolak untuk mematuhi dan berusaha untuk mengarahkan interaksi secara produktif," jelas perusahaan.

Perlu diingat, pada bulan Juni, peneliti dari Anthropic menemukan bahwa AI dapat melakukan pemerasan, mengungkapkan data rahasia perusahaan, dan bahkan menyebabkan kematian seseorang dalam keadaan darurat.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)