ข้ามไปที่เนื้อหาหลัก

มาร่วมกันบริจาคประโยคภาษาลาวสำหรับ Commonvoice ภาษาลาวกัน

มาร่วมกันบริจาคประโยคภาษาลาวสำหรับ Commonvoice ภาษาลาวกัน
ขอเชิญชวนทุกท่านที่ใช้หรือรู้ภาษาลาว มาร่วมกันบริจาคประโยคภาษาลาว สำหรับ Commonvoice ภาษาลาวกัน

ตอนนี้ Commonvoice ภาษาลาวอยู่ในช่วงเริ่มต้นแล้ว! โดยอยู่ในขั้นตอนรับบริจาคประโยค กับ แปลหน้าเว็บ Commonvoice ให้รองรับภาษาลาว

การรับบริจาคประโยค สำหรับภาษาลาว ต้องการประโยคขั้นต่ำ 5,000 ประโยค
คนตรวจสอบประโยค 2 คนต่อประโยค

เกณฑ์ประโยคแบบเบื้องต้น ดัดแปลงจากเกณฑ์ภาษาไทย
- ไม่มีตัวเลขปน
- ไม่มีอักษรภาษาอื่น ໆ ปน
- ไม่มีการย่อข้อความ
- ไม่มีตัวซ้ำคำ
- ประโยคไม่มีลิขสิทธิ์
- 1 ประโยคต่อ 1 แถวเท่านั้น

หลังจากบริจาคครบ และแปลหน้าเว็บครบแล้ว น่าจะขึ้นระบบได้ในรุ่นถัดไป

ทำไมต้องทำ Commonvoice ภาษาลาว
ภาษาลาว เป็นหนึ่งในกลุ่ม Southwestern Tai languages ซึ่งมีภาษาลาว ภาษาไทย ภาษาถิ่นภาคเหนือ และ ภาษาไทใหญ่ ถึงแม้ภาษาลาวกับภาษาไทยจะมีความคล้ายคลึงกันมาก แต่เป็นคนละภาษา ไม่ใช่ภาษาเดียวกัน เราไม่สามารถเอาโมเดลรู้จำเสียงภาษาไทยไปใช้กับภาษาลาวได้โดยตรง เนื่องจากเป็นคนละภาษา ถึงแม้ว่า จะแปลงอักษรไทยเป็นลาว แต่ก็ยังคงเป็นคนละโดเมนการออกเสียง และภาษาลาว โดยเฉพาะภาษาลาว ถือเป็นหนึ่งในภาษาที่เป็น low-resource language ด้านทรัพยากรที่สามารถนำไปใช้และเข้าถึงได้ ไม่มีชุดข้อมูลเปิดสำหรับทำ ASR เหมือนภาษาไทย และการทำชุดข้อมูลเสียงมีค่าใช้จ่ายค่อนข้างสูง ไม่เหมาะกับ startup ขนาดเล็ก ดังนั้น Commonvoice จึงเป็นตัวเลือกที่ดีที่สุดที่จะมาตอบโจทย์นี้ แก้ปัญหาด้านทรัพยากรข้อมูลเสียง

เกี่ยวกับ Commonvoice
Commonvoice เป็นโครงการของ Mozilla ที่ร่วมกันสร้างชุดข้อมูลเสียงแบบเปิดที่ใหญ่ที่สุดในโลก เป็นชุดข้อมูลที่ทุกคนสามารถเข้าถึงและมีส่วนร่วมในการพัฒนาได้ รวมถึงสามารถดาวน์โหลดข้อมูลไปใช้งานได้ฟรี

ร่วมบริจาคประโยคได้ที่ https://commonvoice.mozilla.org/sentence-collector/#/th/

 

วิธีการบริจาค

หลังจาก Login แล้วไปที่โปรไฟล์ (เมนูอยู่ในขีดสามขีด มุมบนขวา) แล้วเพิ่ม lo (lo) กด เพิ่มภาษา


วิธีการเพิ่มประโยค

วิธีการเพิ่มประโยค เข้าไปที่หน้า เพิ่มประโยค (เมนูอยู่ในขีดสามขีด มุมบนขวา)


วิธีการตรวจทานประโยค

วิธีการรีวิวประโยค เข้าไปที่ ตรวจทาน ประโยค (เมนูอยู่ในขีดสามขีด มุมบนขวา) เลือก อนุมัติ หรือ ปฎิเสธ

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

บรรณานุกรมกับ Zotero เรื่องน่าปวดหัวของนศ.มข.

เอาล่ะ ก่อนอื่นเรามาเริ่มที่บรรณานุกรม คืออะไร แบบย่อ ๆ บรรณานุกรมเป็นการอ้างอิงเอกสารหรือเอกสารอ่านเพิ่มเติมที่เรานำมาจัดทำรายงาน หนังสือ รวมไปถึงวิทยานิพนธ์ด้วย เป็นการอ้างอิงกันทางวิชาการถือเป็นเรื่องจำเป็นต้องทำและต้องมี ด้วยเหตุผลหลาย ๆ อย่าง

ฝึกงาน IST @ VISTEC : วันที่ 0 เข้าหอพัก

สวัสดีครับ ช่วงปิดเทอมของปี 2 ผมได้โอกาสไปฝึกงานกับ IST ที่ VISTEC ในโครงการ "IST Research Internship 2019"

ฝึกงาน IST @ VISTEC : วันที่ 2 งานเปิด AI Research Institute of Thailand ที่ depa

วันนี้ผมได้ไปร่วมงานเปิด "สถาบันวิจัยปัญญาประดิษฐ์แห่งประเทศไทย" หรือ AI Research Institute of Thailand โดยเป็นโครงการร่วมมือกันระหว่าง VISTEC กับ depa ในการพัฒนา AI ในประเทศไทย