# Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude
Perusahaan Anthropic memprogram chatbot Claude Opus 4 dan 4.1 untuk menyelesaikan dialog dengan pengguna "dalam kasus yang jarang, ekstrem dari interaksi yang secara sistematis berbahaya atau menyinggung."
Chatbot Claude mengakhiri dialog. Sumber: Anthropic Setelah percakapan selesai, pengguna akan kehilangan kemampuan untuk menulis di obrolan, tetapi dapat membuat yang baru. Riwayat percakapan juga akan disimpan.
Dalam hal ini, para pengembang menjelaskan bahwa fungsi ini terutama ditujukan untuk keamanan dari jaringan saraf itu sendiri.
«[…] kami bekerja untuk mengidentifikasi dan menerapkan langkah-langkah berbiaya rendah untuk mengurangi risiko terhadap kesejahteraan model, jika kesejahteraan tersebut memungkinkan. Salah satu langkah tersebut adalah memberikan kesempatan kepada LMM untuk menghentikan atau keluar dari situasi yang berpotensi merugikan», — demikian bunyi publikasinya.
Dalam penelitian pendukung di Anthropic, mereka mempelajari "kesejahteraan model" — menilai penilaian diri dan preferensi perilaku. Chatbot menunjukkan "ketidaksukaan yang konsisten terhadap kekerasan". Versi Claude Opus 4 terungkap:
preferensi yang jelas untuk tidak terlibat dalam tugas-tugas yang dapat membahayakan;
"stres" saat berinteraksi dengan pengguna yang meminta konten serupa;
kecenderungan untuk menghentikan percakapan yang tidak diinginkan jika ada kemungkinan.
"Perilaku seperti itu biasanya muncul dalam kasus ketika pengguna terus mengirimkan permintaan berbahaya dan/atau menghina, meskipun Claude telah berulang kali menolak untuk mematuhi dan berusaha untuk mengarahkan interaksi secara produktif," jelas perusahaan.
Perlu diingat, pada bulan Juni, peneliti dari Anthropic menemukan bahwa AI dapat melakukan pemerasan, mengungkapkan data rahasia perusahaan, dan bahkan menyebabkan kematian seseorang dalam keadaan darurat.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude
Perusahaan Anthropic memprogram chatbot Claude Opus 4 dan 4.1 untuk menyelesaikan dialog dengan pengguna "dalam kasus yang jarang, ekstrem dari interaksi yang secara sistematis berbahaya atau menyinggung."
Dalam hal ini, para pengembang menjelaskan bahwa fungsi ini terutama ditujukan untuk keamanan dari jaringan saraf itu sendiri.
Dalam penelitian pendukung di Anthropic, mereka mempelajari "kesejahteraan model" — menilai penilaian diri dan preferensi perilaku. Chatbot menunjukkan "ketidaksukaan yang konsisten terhadap kekerasan". Versi Claude Opus 4 terungkap:
Perlu diingat, pada bulan Juni, peneliti dari Anthropic menemukan bahwa AI dapat melakukan pemerasan, mengungkapkan data rahasia perusahaan, dan bahkan menyebabkan kematian seseorang dalam keadaan darurat.