สการ์เล็ตต์ โจแฮนส์สัน (Scarlett Johansson) นักแสดงสาวชื่อดัง ไม่พอใจที่ OpenAI บริษัทพัฒนาปัญญาประดิษฐ์ อาจใช้เสียงของเธอในฟีเจอร์ ‘Voice Mode’ ของ ChatGPT โดยไม่ได้รับอนุญาต
แม้ OpenAI จะออกมาปฏิเสธและบอกว่าใช้เสียงของนักพากย์คนอื่น แต่หลายคนที่ฟังแล้วต่างบอกว่าเสียงนั้นเหมือนกับโจแฮนส์สันมาก จนอดคิดไม่ได้ว่าแท้จริงแล้ว OpenAI แอบนำเสียงเธอมาทำการเทรน AI หรือไม่
วิกฤตข้อมูล เมื่อทรัพยากรข้อมูลใกล้หมด ส่งผลต่อการพัฒนา AI
การฝึกโมเดลภาษาขนาดใหญ่ (LLM) มีความสำคัญอย่างมากต่อความฉลาดและความแม่นยำของ AI โดยตรงขึ้นอยู่กับปริมาณและคุณภาพของข้อมูลที่ใช้ในการฝึก ยิ่งมีข้อมูลมากเท่าไหร่ยิ่งทำให้ AI เก่งขึ้นฉลาดขึ้น และแม่นยำขึ้นได้เท่านั้น เพื่อให้เข้าใจง่ายๆ ข้อมูลเป็นเหมือนอาหารที่เลี้ยง AI ให้มีสมรรถนะที่ดีขึ้นนั้นเอง
เมื่อ OpenAI เปิดตัว GPT-3 ตัว AI นี้ได้รับการฝึกฝนด้วยข้อมูลขนาดใหญ่มากกว่า 3 แสนล้านโทเค็น ที่นี่ ‘โทเค็น’ หมายถึงคำหรือส่วนหนึ่งของประโยค เปรียบเสมือนตัวต่อเลโก้ของภาษา โดยคอมพิวเตอร์จะแยกประโยคออกเป็นโทเค็นเล็กๆ เพื่อเข้าใจความหมาย เช่น ประโยค “ฉันชอบกินข้าว” อาจถูกแยกเป็นโทเค็นเช่น ‘ฉัน’ ‘ชอบ’ ‘กิน’ ‘ข้าว’
การใช้ข้อมูลขนาดใหญ่ในการฝึก AI ช่วยให้ AI เรียนรู้และเข้าใจคำศัพท์ กฎไวยากรณ์ และลักษณะของภาษาได้ละเอียดมากขึ้น ซึ่งเป็นพื้นฐานสำคัญที่ทำให้ AI สามารถสร้างประโยคที่มีความหมายถูกต้องและเหมาะสมได้มากขึ้น นอกจากนี้การมีข้อมูลมากยิ่งช่วยให้ AI เหมือนมนุษย์มากขึ้นในการตอบสนองต่อคำถามและการวิเคราะห์ข้อมูลที่ซับซ้อน ดังนั้น ข้อมูลเป็นสิ่งสำคัญที่สุดที่ช่วยเพิ่มประสิทธิภาพและคุณภาพของ AI ในการใช้งานจริงและในแง่มุมต่างๆ ของการประยุกต์ใช้งาน AI ในสังคมและธุรกิจในปัจจุบันและอนาคต
GPT-3 ที่ได้รับการฝึกฝนด้วยข้อมูลที่มีมากถึง 3 แสนล้านโทเค็นอาจจะดูใหญ่มากเกินที่จะจินตนาการได้ แต่ในความเป็นจริง มันอาจไม่เพียงพอในบางกรณี ตัวอย่างเช่น DeepMind จาก Google เคยทดสอบ AI ด้วยข้อมูลเพียง 400 แบบโดยใช้โมเดลชื่อ Chinchilla ที่ฝึกด้วยโทเค็นอย่าง 1.4 ล้านล้านเท่านั้น ในขณะที่ GPT-4 ที่ใช้ในปัจจุบันได้รับการฝึกด้วยข้อมูลมากถึงกว่า 13 ล้านล้านโทเค็น ซึ่งถือเป็นปริมาณข้อมูลที่มากมายและยิ่งใหญ่มากๆ
บริษัทบิ๊กเทค มีข้อมูลเร็วกว่าการสร้างข้อมูล แต่มาจากที่ไหน
การละเมิดลิขสิทธิ์เพื่อนำข้อมูลมาใช้ดูเหมือนเป็นวิธีที่ OpenAI ใช้บ่อย หลังจากที่บริษัทเผชิญกับคดีฟ้องร้องค่าเสียหายสูงถึงหลายพันล้านดอลลาร์ ในกรณีที่ใช้บทความจำนวนมหาศาลที่ตีพิมพ์ใน The New York Times เพื่อฝึก ChatGPT โดยไม่ได้รับอนุญาต และได้เผชิญกับคดีฟ้องร้องอีกหลายครั้งในปี 2023
ในกันยายน 2023 นักเขียนชื่อดังอย่าง George R. R. Martin และจอห์น กริชแฮม ฟ้องร้อง OpenAI สำหรับการละเมิดลิขสิทธิ์เช่นเดียวกัน ในกรกฎาคม 2023, นักแสดงตลก Sarah Silverman ยังได้ฟ้องร้อง OpenAI เรื่องการละเมิดลิขสิทธิ์
รวมถึงในกรกฎาคม 2023 นักเขียน Margaret Atwood และ Philip Pullman ร่วมลงนามในจดหมายเปิดระบุเรียกร้องให้บริษัท AI จ่ายค่าตอบแทนให้กับนักเขียนที่ผลงานถูกนำไปใช้ฝึกปัญญาประดิษฐ์
เพื่อหาข้อมูลเพิ่มเติม OpenAI ใช้ระบบ Whisper ในการแปลงเสียงพูดจากวิดีโอบน YouTube ที่มีระยะเวลาการฝึกเป็นเวลากว่า 680,000 ชั่วโมง เครื่องมือนี้ได้ใช้ในการแปลงเสียงจากวิดีโอมากกว่า 1 ล้านชั่วโมงเพื่อใช้ในการฝึก GPT-4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่สำคัญของบริษัท
บทความของ The New York Times รายงานว่าพนักงาน OpenAI รู้ว่ามีความเสี่ยงทางกฎหมาย แต่เชื่อว่าการใช้ข้อมูลนั้นเป็นไปตามหลักธรรม นอกจากนี้ Greg Brockman ประธานบอร์ด OpenAI ได้ถูกกล่าวอ้างเป็นหนึ่งในผู้สร้าง Whisper และเขายังเป็นผู้ช่วยในการรวบรวมวิดีโอ YouTube และนำข้อมูลเหล่านั้นเข้าสู่ระบบด้วยตัวเอง ผู้ที่เชี่ยวชาญด้านคอมพิวเตอร์กล่าวว่ามีการละเมิดจาก OpenAI, Microsoft และ GitHub โดยใช้โค้ดของพวกเขาไปใช้ฝึก Copilot โดยไม่ได้รับอนุญาต
เกิดการแข่งขันในวงการ AI อย่างดุเดือดต้องมีทางลัดเพื่อตามคู่แข่ง
1. ทางลัดในการพัฒนา AI ของ Google
เมื่อ ChatGPT เปิดตัว มันทำให้การแข่งขันในวงการ AI เพิ่มขึ้นอย่างมาก รวมถึงการพัฒนา AI อย่าง Bard และ Gemini จาก Google เพื่อให้เก่งที่สุดในปัจจุบัน ดูเหมือนว่าการใช้ ‘ข้อมูลของผู้ใช้’ เพื่อฝึก AI เป็นเรื่องที่ได้รับความสนใจ ในปี 2023 สื่อต่างประเทศเผยว่า Google ปรับนโยบายความเป็นส่วนตัวใหม่ ระบุว่า บริษัทสามารถดึงข้อมูลสาธารณะจากอินเทอร์เน็ตมาใช้ในการฝึก AI และบริการต่างๆ
การเปลี่ยนแปลงนโยบายนี้ทำให้ Google สามารถดึงข้อมูลจาก Google Docs, รีวิวร้านอาหารบน Google Maps, และเนื้อหาออนไลน์อื่นๆ ที่ผู้คนค้นหาได้ มาใช้ในการฝึก AI ประเด็นนี้ได้ยกคำถามขึ้นมาจากหลายฝ่ายเกี่ยวกับว่า เอกสารสำคัญใน Google Docs ที่ถูกแชร์แบบ ‘Anyone with the Link’ จะถูกนับเป็นข้อมูลสาธารณะและถูกนำไปใช้ฝึก AI หรือไม่
ตัวแทนของ Google ได้ระบุว่า เอกสารที่แชร์ลิงก์แบบดังกล่าว ‘ไม่ถือเป็นข้อมูลสาธารณะและจะไม่ถูกนำไปฝึก AI’ แต่ถ้าเอกสารของเราถูกโพสต์ลิงก์บนเว็บหรือแชร์ในโซเชียลมีเดีย เว็บครอวเลอร์สามารถหาเจอและนำข้อมูลในเอกสารนั้นไปใช้เทรน AI ได้
2. ทางลัดในการพัฒนา AI ของ Meta
Mark Zuckerberg CEO ของ Meta, ลงทุนใน AI มาหลายปีแล้ว แต่การเปิดตัว ChatGPT ได้สร้างการแข่งขันรุนแรงในวงการนี้ ทำให้ Meta ต้องเร่งพัฒนาแชทบอทเพื่อท้าทาย แต่พบว่าคู่แข่งขาดข้อมูลเช่นกัน ทีม Generative AI ของ Meta ใช้ข้อมูลจากทุกแหล่งบนอินเทอร์เน็ต เช่น หนังสือ บทความ และข่าว เพื่อฝึกพัฒนาโมเดล แต่ยังไม่เพียงพอที่จะเป็นการแข่งขันกับ ChatGPT นอกจากนี้จะต้องหาข้อมูลเพิ่มเติม
ในการประชุมหนึ่ง มีการพูดถึงเรื่องว่าอาจจะ outsouce การรวบรวมเนื้อหาสรุปย่อประเภท Fiction และ Nonfiction ในแอฟริกา แม้ว่าเนื้อหาเหล่านั้นจะมีลิขสิทธิ์อยู่ก็ตามแต่สิ่งที่เป็นปัญหาตามรายงานคือ Meta ต้องการเจรจากับสำนักพิมพ์ ศิลปิน นักดนตรี และอุตสาหกรรมข่าว เพื่อขออนุญาตใช้ข้อมูล ซึ่งอาจใช้เวลานาน หาก OpenAI ใช้ข้อมูลที่มีลิขสิทธิ์ไปเทรน AI ของตนเช่นกัน
Meta อาจมีโซเชียลมีเดียขนาดใหญ่ แต่ไม่มีข้อมูลโพสต์ของผู้ใช้ที่ใช้เพื่อฝึก AI ได้ เนื่องจากโซเชียลเน็ตเวิร์ค Facebook ไม่ได้ถูกออกแบบมาให้คนเขียนเนื้อหาประเภทเรียงความ และทางเลือกในการหาข้อมูลมาให้ AI ของ Meta คือ ‘วิดีโอและภาพถ่าย
สรุปทางออกของ AI ในวันที่โลกไม่เหลือข้อมูลอีกแล้ว
การวิเคราะห์ของบริษัทวิจัย Epoch ชี้ชัดเรื่องความสำคัญของการใช้ข้อมูลคุณภาพสูงบนอินเทอร์เน็ตภายในปี 2026 โดยมีแนวทางในการใช้ข้อมูลสังเคราะห์ (Synthetic Data) เพื่อรับมือกับปัญหาข้อมูลที่กำลังจะหมดอายุระยะยาว นอกจากนี้ยังมีการสนับสนุนแนวคิดให้ AI เรียนรู้จากข้อความที่สร้างโดย AI เอง เพื่อพัฒนาเทคโนโลยีที่มีประสิทธิภาพโดยลดการพึ่งพาต่อข้อมูลลิขสิทธิ์ได้ด้วย
นักวิจัยด้าน AI ยอมรับว่าการสร้างระบบ AI ที่เรียนรู้เองจากข้อมูลที่เป็นของตัวเองยังเป็นที่ยาก เนื่องจากอาจมีความเสี่ยงที่ AI จะไม่สามารถหลุดพ้นจากข้อผิดพลาดและแนวคิดที่มีอยู่อย่างมากนัก อนึ่ง ข้อความยังเน้นถึงการแย่งชิงข้อมูลที่ยังคงเป็นเรื่องร้อนแรงในวงการเทคโนโลยี แต่มีแนวโน้มที่จะมุ่งหน้าไปทางที่มีความรับผิดชอบมากขึ้นในการใช้ข้อมูลตามกฎหมาย ทั้งนี้ยังมีความคิดสงสัยเกี่ยวกับการใช้ข้อมูลที่เคยถูกใช้ไป
ดังนั้น ข้อความนี้สรุปถึงความสำคัญของการพัฒนาเทคโนโลยีที่มีความยั่งยืนและมีความรับผิดชอบในการใช้ข้อมูล รวมถึงการใช้ข้อมูลสังเคราะห์เพื่อพัฒนา AI ที่มีประสิทธิภาพ ทั้งนี้เพื่อลดความพึ่งพาต่อข้อมูลที่มีลิขสิทธิ์