Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude

2025-08-17 11:52:59

Pembuatan abstrak sedang berlangsung

# Di Anthropic, mereka peduli tentang "kesejahteraan" chatbot Claude

Perusahaan Anthropic memprogram chatbot Claude Opus 4 dan 4.1 untuk menyelesaikan dialog dengan pengguna "dalam kasus yang jarang, ekstrem dari interaksi yang secara sistematis berbahaya atau menyinggung."

Chatbot Claude mengakhiri dialog. Sumber: Anthropic Setelah percakapan selesai, pengguna akan kehilangan kemampuan untuk menulis di obrolan, tetapi dapat membuat yang baru. Riwayat percakapan juga akan disimpan.

Dalam hal ini, para pengembang menjelaskan bahwa fungsi ini terutama ditujukan untuk keamanan dari jaringan saraf itu sendiri.

«[…] kami bekerja untuk mengidentifikasi dan menerapkan langkah-langkah berbiaya rendah untuk mengurangi risiko terhadap kesejahteraan model, jika kesejahteraan tersebut memungkinkan. Salah satu langkah tersebut adalah memberikan kesempatan kepada LMM untuk menghentikan atau keluar dari situasi yang berpotensi merugikan», — demikian bunyi publikasinya.

Dalam penelitian pendukung di Anthropic, mereka mempelajari "kesejahteraan model" — menilai penilaian diri dan preferensi perilaku. Chatbot menunjukkan "ketidaksukaan yang konsisten terhadap kekerasan". Versi Claude Opus 4 terungkap:

preferensi yang jelas untuk tidak terlibat dalam tugas-tugas yang dapat membahayakan;
"stres" saat berinteraksi dengan pengguna yang meminta konten serupa;
kecenderungan untuk menghentikan percakapan yang tidak diinginkan jika ada kemungkinan.

"Perilaku seperti itu biasanya muncul dalam kasus ketika pengguna terus mengirimkan permintaan berbahaya dan/atau menghina, meskipun Claude telah berulang kali menolak untuk mematuhi dan berusaha untuk mengarahkan interaksi secara produktif," jelas perusahaan.

Perlu diingat, pada bulan Juni, peneliti dari Anthropic menemukan bahwa AI dapat melakukan pemerasan, mengungkapkan data rahasia perusahaan, dan bahkan menyebabkan kematian seseorang dalam keadaan darurat.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#July PPI Beats Expectations
40k Popularitas
#ETH ETFs Top $30B
42k Popularitas
#Gate Alpha Peak Trading Competition
147k Popularitas
#Gate Releases August Reserves Report
19k Popularitas
#BTC Hits New ATH
107k Popularitas

Sematkan

peta situs