ข้ามไปที่เนื้อหาหลัก

บทความ

กำลังแสดงโพสต์จาก 2023

ความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่เพิ่มขึ้น

จากความเคลื่อนไหวในวงการ NLP ในหลายปีที่ผ่านมา ทั้ง OpenAI whisper กับ OpenAI ChatGPT, BERT และอื่น ๆ ยิ่งตอบย้ำถึงความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่มีส่วนร่วมสำคัญอย่างยิ่งในการเปลี่ยนแปลงด้านเทคโนโลยีปัญญาประดิษฐ์ที่เกี่ยวข้องกับภาษามนุษย์ ทั้งด้านการพัฒนาแอปและงานวิจัยใหม่ ๆ ที่ผู้คนสามารถเข้าถึงได้จากทั่วโลก ตัวอย่างเช่น OpenAI whisper โมเดลรู้จำเสียงกับแปลภาษาจากเสียงที่รองรับภาษาไทยด้วย จากที่นำชุดข้อมูล CommonVoice ซึ่งเป็นชุดข้อมูลเสียงพูดภาษาไทยแบบสาธารณะที่ใหญ่ที่สุด ณ ตอนนี้ (เพราะไม่มีชุดข้อมูลสาธารณะอื่น ๆ ที่มีภาษาไทยมากกว่านี้) นำมาเทรนโมเดล, OpenAI ChatGPT ที่ใช้ GPT 3.5 ซึ่งเก็บข้อมูลมาจากอินเทอร์เน็ต เว็บต่าง ๆ (รวมถึงวิกิพีเดียด้วย) ทำให้มีภาษาไทยด้วย, BERT multilingual base model (cased) จาก Google ที่เทรนบนข้อมูลวิกิพีเดีย 104 ภาษา ทำให้รองรับภาษาไทยด้วย, งาน XLM-RoBERTa, LASER และอื่น ๆ สิ่งเหล่านี้ต่างใช้งานชุดข้อมูลเปิดสาธารณะกับ Open Source ซึ่งจะเกิดขึ้นไม่ได้เลย หากขาดชุดข้อมูลเปิดสาธารณะ กับ Open Source เหล่านี้ สมมติถ้าไม่มีภาษาไทยในข้อมูลเ