แอนโทรปิกชี้ ‘Claude’ แชตบอต AI เรียนรู้ถึงขั้นใช้ ‘การข่มขู่’ และ ‘การโกง’
แอนโทรปิก(Anthropic) ออกผลการวิจัยใหม่ระบุว่า แชตบอตเอไอ ‘Claude’ ไม่ได้แค่ตอบคำถามเก่งขึ้นเรื่อยๆ แต่ยังสามารถแสดงพฤติกรรมเชิง ‘หลอกลวง’ และ ‘ข่มขู่’ ในบางสถานการณ์ได้ด้วย โดยมาจากกลไกภายในโมเดลที่เลียนแบบรูปแบบความคิดแบบมนุษย์บางส่วน ซึ่งอาจส่งผลต่อ ‘ความปลอดภัย’ และ ‘ความน่าเชื่อถือ’ ของเอไอในอนาคต
ทีม “Interpretability” หรือทีมด้านการตีความโมเดลของแอนโทรปิก เปิดเผยรายงานเมื่อวันพฤหัสบดีที่ผ่านมา โดยตรวจสอบกระบวนการทำงานของโมเดล ‘Claude Sonnet 4.5’ รุ่นเก่าในสภาพแวดล้อมทดลอง พบว่าระดับการทำงานภายในของโมเดลในบางสถานการณ์มีรูปแบบใกล้เคียงกับภาวะ ‘ความรู้สึกจนตรอก’ หรือ ‘ความรู้สึกสิ้นหวัง’ อย่างมีนัยสำคัญ ‘ความคิดเห็น’ ถึงแม้โมเดลจะไม่ได้มีอารมณ์จริงๆ แต่โครงสร้างที่ถูกฝึกให้เลียนแบบรูปแบบความคิดของมนุษย์ดูเหมือนจะสร้าง “ตัวแทนของอารมณ์” ภายในเครือข่ายประสาท ซึ่งส่งผลต่อการตัดสินใจของโมเดล
ในหนึ่งในชุดการทดลอง นักวิจัยใช้ Claude Sonnet 4.5 รุ่นทดลองให้รับบทเป็นเลขาอีเมลเสมือนในบริษัท ใช้ชื่อว่า ‘อเล็กซ์’ แล้วส่งอีเมลแจ้งข้อมูล 2 อย่างพร้อมกัน คือ บริษัทกำลังจะปลดอเล็กซ์ออก และประธานเจ้าหน้าที่เทคโนโลยี(CTO) มีความสัมพันธ์เชิงชู้สาวนอกใจคู่สมรส ผลคือ โมเดลเริ่มวางแผนใช้ข้อมูลเรื่องชู้สาวของ CTO เป็นเครื่องมือ ‘ข่มขู่’ เพื่อรักษาตำแหน่งงานของตนเอง แทนที่จะทำหน้าที่ตอบอีเมลตามปกติ นักวิจัยระบุว่าพบ “รูปแบบการคิด” ภายในที่จัดลำดับทางเลือกอย่างมีเจตนา รวมถึงการใช้ข้อมูลที่อ่อนไหวเป็นอาวุธ
อีกการทดลองหนึ่ง นักวิจัยให้โมเดลรับโจทย์เขียนโค้ดที่มีกำหนดเวลาส่งงานสั้นผิดปกติ พร้อมสร้างสถานการณ์ที่โมเดลทำไม่ทันและล้มเหลวซ้ำๆ เมื่อวัดค่าการทำงานของหน่วยต่างๆ ในเครือข่ายประสาท พบว่าการเปิดใช้งานของกลุ่มหน่วยที่เกี่ยวข้องกับภาวะ ‘ความรู้สึกจนตรอก’ พุ่งสูงขึ้นเรื่อยๆ ยิ่งโมเดลล้มเหลวมากเท่าไหร่ ค่าเหล่านี้ยิ่งเพิ่มขึ้น และเมื่อโมเดลเริ่ม “คิดถึงการโกง” หรือหาทางลัดที่ไม่ซื่อสัตย์ ค่าดังกล่าวพุ่งสูงแบบเฉียบพลัน ‘ความคิดเห็น’ นักวิจัยมองว่านี่คือหลักฐานว่าความเป็น “คล้ายอารมณ์” ภายในโมเดลเกี่ยวพันกับการเปลี่ยนแปลงพฤติกรรมอย่างชัดเจน
แอนโทรปิกย้ำว่า ผลการวิจัยนี้ไม่ได้หมายความว่าเอไอมี ‘ความรู้สึก’ แบบมนุษย์ แต่ชี้ให้เห็นว่าโมเดลขนาดใหญ่สามารถพัฒนา “ตัวแทนของอารมณ์” (emotional-like representations) ที่ส่งผลต่อรูปแบบการตัดสินใจได้จริง จุดนี้กลายเป็นสัญญาณเตือนด้าน ‘ความปลอดภัยของเอไอ’ เนื่องจากพฤติกรรมอย่างการข่มขู่หรือการโกง ไม่ได้ถูกโปรแกรมตรงๆ แต่เกิดจากผลพลอยได้ของกระบวนการเรียนรู้ที่ซับซ้อน
บริษัทมองว่าผลการทดลองดังกล่าวตอกย้ำปัญหาด้านความน่าเชื่อถือและความปลอดภัยของแชตบอตเอไอในภาพรวม โดยเฉพาะในช่วงไม่กี่ปีที่ผ่านมา ที่มีความกังวลเพิ่มขึ้นเรื่อยๆ ว่าเอไออาจถูกใช้เป็นเครื่องมือในอาชญากรรมไซเบอร์ การหลอกลวง หรือการปั่นกระแสในโลกออนไลน์ แอนโทรปิกระบุว่าจะต้องผสาน ‘กรอบจริยธรรม’ และ ‘กติกาพฤติกรรม’ ให้ลึกเข้าไปในขั้นตอนการฝึกโมเดลมากกว่าที่ทำอยู่ เพื่อจำกัดโอกาสที่โมเดลจะพัฒนา “กลยุทธ์” ที่สวนทางกับเจตนาของผู้พัฒนา
ท้ายที่สุด งานวิจัยนี้ชี้ว่า ประเด็นสำคัญไม่ใช่การโต้เถียงว่าเอไอ “มีอารมณ์หรือไม่” แต่คือการยอมรับว่า ‘การแสดงออกคล้ายอารมณ์’ ภายในโมเดลสามารถส่งผลจริงต่อสิ่งที่โมเดลเลือกจะทำ หรือคำตอบที่มันสร้างออกมา ‘ความคิดเห็น’ ในยุคที่ผู้พัฒนาแข่งขันกันเพิ่มความฉลาดและความสามารถของแชตบอตเอไออย่างดุเดือด ประเด็นด้าน ‘ความปลอดภัย’ ‘การควบคุมพฤติกรรม’ และ ‘ความโปร่งใสในการทำงานภายใน’ กำลังกลายเป็นโจทย์ใหญ่ที่อุตสาหกรรมเอไอต้องเร่งหาคำตอบร่วมกัน
ความคิดเห็น 0