ความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่เพิ่มขึ้น

จากความเคลื่อนไหวในวงการ NLP ในหลายปีที่ผ่านมา ทั้ง OpenAI whisper กับ OpenAI ChatGPT, BERT และอื่น ๆ ยิ่งตอบย้ำถึงความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่มีส่วนร่วมสำคัญอย่างยิ่งในการเปลี่ยนแปลงด้านเทคโนโลยีปัญญาประดิษฐ์ที่เกี่ยวข้องกับภาษามนุษย์ ทั้งด้านการพัฒนาแอปและงานวิจัยใหม่ ๆ ที่ผู้คนสามารถเข้าถึงได้จากทั่วโลก

ตัวอย่างเช่น OpenAI whisper โมเดลรู้จำเสียงกับแปลภาษาจากเสียงที่รองรับภาษาไทยด้วย จากที่นำชุดข้อมูล CommonVoice ซึ่งเป็นชุดข้อมูลเสียงพูดภาษาไทยแบบสาธารณะที่ใหญ่ที่สุด ณ ตอนนี้ (เพราะไม่มีชุดข้อมูลสาธารณะอื่น ๆ ที่มีภาษาไทยมากกว่านี้) นำมาเทรนโมเดล, OpenAI ChatGPT ที่ใช้ GPT 3.5 ซึ่งเก็บข้อมูลมาจากอินเทอร์เน็ต เว็บต่าง ๆ (รวมถึงวิกิพีเดียด้วย) ทำให้มีภาษาไทยด้วย, BERT multilingual base model (cased) จาก Google ที่เทรนบนข้อมูลวิกิพีเดีย 104 ภาษา ทำให้รองรับภาษาไทยด้วย, งาน XLM-RoBERTa, LASER และอื่น ๆ สิ่งเหล่านี้ต่างใช้งานชุดข้อมูลเปิดสาธารณะกับ Open Source ซึ่งจะเกิดขึ้นไม่ได้เลย หากขาดชุดข้อมูลเปิดสาธารณะ กับ Open Source เหล่านี้ สมมติถ้าไม่มีภาษาไทยในข้อมูลเปิดสาธารณะ และ Open Source เราอาจจะได้โมเดลที่ทำงานแย่ ทำงานได้ไม่ดีกับภาษาไทย หรือบางงานอาจจะไม่มีภาษาไทยเลยก็เป็นไปได้

อนาคตอาจจะมีงานใหม่ ๆ ที่ใช้ชุดข้อมูลเปิดสาธารณะ กับ Open Source ต่าง ๆ ในประเภทงานใหม่ ๆ ที่มีประสิทธิภาพมากกว่าเดิม ดังนั้น เรามาช่วยกันผลักดันชุดข้อมูลเปิดสาธารณะกับ Open Source ต่าง ๆ ที่เกี่ยวข้องกับภาษาไทยกันต่อไป

Wannaphong Blog

ค้นหาบล็อกนี้

ความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่เพิ่มขึ้น

ความคิดเห็น

แสดงความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

บรรณานุกรมกับ Zotero เรื่องน่าปวดหัวของนศ.มข.

ฝึกงาน IST @ VISTEC : วันที่ 0 เข้าหอพัก

เชื่อมต่อ kku-wifi-s ใน Linux (ใช้งานได้กับ Raspberry Pi)