จากความเคลื่อนไหวในวงการ NLP ในหลายปีที่ผ่านมา ทั้ง OpenAI whisper กับ OpenAI ChatGPT, BERT และอื่น ๆ ยิ่งตอบย้ำถึงความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่มีส่วนร่วมสำคัญอย่างยิ่งในการเปลี่ยนแปลงด้านเทคโนโลยีปัญญาประดิษฐ์ที่เกี่ยวข้องกับภาษามนุษย์ ทั้งด้านการพัฒนาแอปและงานวิจัยใหม่ ๆ ที่ผู้คนสามารถเข้าถึงได้จากทั่วโลก
ตัวอย่างเช่น OpenAI whisper โมเดลรู้จำเสียงกับแปลภาษาจากเสียงที่รองรับภาษาไทยด้วย จากที่นำชุดข้อมูล CommonVoice ซึ่งเป็นชุดข้อมูลเสียงพูดภาษาไทยแบบสาธารณะที่ใหญ่ที่สุด ณ ตอนนี้ (เพราะไม่มีชุดข้อมูลสาธารณะอื่น ๆ ที่มีภาษาไทยมากกว่านี้) นำมาเทรนโมเดล, OpenAI ChatGPT ที่ใช้ GPT 3.5 ซึ่งเก็บข้อมูลมาจากอินเทอร์เน็ต เว็บต่าง ๆ (รวมถึงวิกิพีเดียด้วย) ทำให้มีภาษาไทยด้วย, BERT multilingual base model (cased) จาก Google ที่เทรนบนข้อมูลวิกิพีเดีย 104 ภาษา ทำให้รองรับภาษาไทยด้วย, งาน XLM-RoBERTa, LASER และอื่น ๆ สิ่งเหล่านี้ต่างใช้งานชุดข้อมูลเปิดสาธารณะกับ Open Source ซึ่งจะเกิดขึ้นไม่ได้เลย หากขาดชุดข้อมูลเปิดสาธารณะ กับ Open Source เหล่านี้ สมมติถ้าไม่มีภาษาไทยในข้อมูลเปิดสาธารณะ และ Open Source เราอาจจะได้โมเดลที่ทำงานแย่ ทำงานได้ไม่ดีกับภาษาไทย หรือบางงานอาจจะไม่มีภาษาไทยเลยก็เป็นไปได้
อนาคตอาจจะมีงานใหม่ ๆ ที่ใช้ชุดข้อมูลเปิดสาธารณะ กับ Open Source ต่าง ๆ ในประเภทงานใหม่ ๆ ที่มีประสิทธิภาพมากกว่าเดิม ดังนั้น เรามาช่วยกันผลักดันชุดข้อมูลเปิดสาธารณะกับ Open Source ต่าง ๆ ที่เกี่ยวข้องกับภาษาไทยกันต่อไป
![ชุดข้อมูล CommonVoice](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjx_4TXACGcTIkc0MCKVfoIZoGAbVP1LmNxTKJSU6MhmLnwalZLSzs-U9zlxsS_i-NUI1icb7sp4SeGz42JPkUynUzuCV3zLLIiYnzQJ0g4nCU7LYi11MxD3bOFRv86938b4zXlWxfzJPMiQAeYEfhXOaAIkKG_zoIgReahVkudktzP_jrEap2wWmf_/w640-h426/327422433_579720320334321_7933871336483844276_n.jpg)
![วิกิพีเดีย](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjUcmOci8HCNhu8ZkMQKhb3wkGd7en46xO8DR7dv8K1pnRLfIpqTmKW0Qmk4hRDG1DaEuBXhPzLd3OU-0uIGCzvGt2E-wtTfzsAYaRLnr9xLG7g3J0jaWmDj7gdUHuQJe3AkM9Ez1_MexcaBWiMzh9bCYGvWNqD-3lE3K88EvTOljBFzBdYLoXgRV6f/w640-h312/327595170_556871939833288_8743419635387252450_n.jpg)
ความคิดเห็น
แสดงความคิดเห็น