ขอเชิญชวนทุกท่านที่ใช้หรือรู้ภาษาลาว มาร่วมกันบริจาคประโยคภาษาลาว สำหรับ Commonvoice ภาษาลาวกัน
ตอนนี้ Commonvoice ภาษาลาวอยู่ในช่วงเริ่มต้นแล้ว! โดยอยู่ในขั้นตอนรับบริจาคประโยค กับ แปลหน้าเว็บ Commonvoice ให้รองรับภาษาลาว
การรับบริจาคประโยค สำหรับภาษาลาว ต้องการประโยคขั้นต่ำ 5,000 ประโยค
คนตรวจสอบประโยค 2 คนต่อประโยค
เกณฑ์ประโยคแบบเบื้องต้น ดัดแปลงจากเกณฑ์ภาษาไทย
- ไม่มีตัวเลขปน
- ไม่มีอักษรภาษาอื่น ໆ ปน
- ไม่มีการย่อข้อความ
- ไม่มีตัวซ้ำคำ
- ประโยคไม่มีลิขสิทธิ์
- 1 ประโยคต่อ 1 แถวเท่านั้น
หลังจากบริจาคครบ และแปลหน้าเว็บครบแล้ว น่าจะขึ้นระบบได้ในรุ่นถัดไป
ทำไมต้องทำ Commonvoice ภาษาลาว
ภาษาลาว เป็นหนึ่งในกลุ่ม Southwestern Tai languages ซึ่งมีภาษาลาว ภาษาไทย ภาษาถิ่นภาคเหนือ และ ภาษาไทใหญ่ ถึงแม้ภาษาลาวกับภาษาไทยจะมีความคล้ายคลึงกันมาก แต่เป็นคนละภาษา ไม่ใช่ภาษาเดียวกัน เราไม่สามารถเอาโมเดลรู้จำเสียงภาษาไทยไปใช้กับภาษาลาวได้โดยตรง เนื่องจากเป็นคนละภาษา ถึงแม้ว่า จะแปลงอักษรไทยเป็นลาว แต่ก็ยังคงเป็นคนละโดเมนการออกเสียง และภาษาลาว โดยเฉพาะภาษาลาว ถือเป็นหนึ่งในภาษาที่เป็น low-resource language ด้านทรัพยากรที่สามารถนำไปใช้และเข้าถึงได้ ไม่มีชุดข้อมูลเปิดสำหรับทำ ASR เหมือนภาษาไทย และการทำชุดข้อมูลเสียงมีค่าใช้จ่ายค่อนข้างสูง ไม่เหมาะกับ startup ขนาดเล็ก ดังนั้น Commonvoice จึงเป็นตัวเลือกที่ดีที่สุดที่จะมาตอบโจทย์นี้ แก้ปัญหาด้านทรัพยากรข้อมูลเสียง
เกี่ยวกับ Commonvoice
Commonvoice เป็นโครงการของ Mozilla ที่ร่วมกันสร้างชุดข้อมูลเสียงแบบเปิดที่ใหญ่ที่สุดในโลก เป็นชุดข้อมูลที่ทุกคนสามารถเข้าถึงและมีส่วนร่วมในการพัฒนาได้ รวมถึงสามารถดาวน์โหลดข้อมูลไปใช้งานได้ฟรี
ร่วมบริจาคประโยคได้ที่ https://commonvoice.mozilla.org/sentence-collector/#/th/
ตอนนี้ Commonvoice ภาษาลาวอยู่ในช่วงเริ่มต้นแล้ว! โดยอยู่ในขั้นตอนรับบริจาคประโยค กับ แปลหน้าเว็บ Commonvoice ให้รองรับภาษาลาว
การรับบริจาคประโยค สำหรับภาษาลาว ต้องการประโยคขั้นต่ำ 5,000 ประโยค
คนตรวจสอบประโยค 2 คนต่อประโยค
เกณฑ์ประโยคแบบเบื้องต้น ดัดแปลงจากเกณฑ์ภาษาไทย
- ไม่มีตัวเลขปน
- ไม่มีอักษรภาษาอื่น ໆ ปน
- ไม่มีการย่อข้อความ
- ไม่มีตัวซ้ำคำ
- ประโยคไม่มีลิขสิทธิ์
- 1 ประโยคต่อ 1 แถวเท่านั้น
หลังจากบริจาคครบ และแปลหน้าเว็บครบแล้ว น่าจะขึ้นระบบได้ในรุ่นถัดไป
ทำไมต้องทำ Commonvoice ภาษาลาว
ภาษาลาว เป็นหนึ่งในกลุ่ม Southwestern Tai languages ซึ่งมีภาษาลาว ภาษาไทย ภาษาถิ่นภาคเหนือ และ ภาษาไทใหญ่ ถึงแม้ภาษาลาวกับภาษาไทยจะมีความคล้ายคลึงกันมาก แต่เป็นคนละภาษา ไม่ใช่ภาษาเดียวกัน เราไม่สามารถเอาโมเดลรู้จำเสียงภาษาไทยไปใช้กับภาษาลาวได้โดยตรง เนื่องจากเป็นคนละภาษา ถึงแม้ว่า จะแปลงอักษรไทยเป็นลาว แต่ก็ยังคงเป็นคนละโดเมนการออกเสียง และภาษาลาว โดยเฉพาะภาษาลาว ถือเป็นหนึ่งในภาษาที่เป็น low-resource language ด้านทรัพยากรที่สามารถนำไปใช้และเข้าถึงได้ ไม่มีชุดข้อมูลเปิดสำหรับทำ ASR เหมือนภาษาไทย และการทำชุดข้อมูลเสียงมีค่าใช้จ่ายค่อนข้างสูง ไม่เหมาะกับ startup ขนาดเล็ก ดังนั้น Commonvoice จึงเป็นตัวเลือกที่ดีที่สุดที่จะมาตอบโจทย์นี้ แก้ปัญหาด้านทรัพยากรข้อมูลเสียง
เกี่ยวกับ Commonvoice
Commonvoice เป็นโครงการของ Mozilla ที่ร่วมกันสร้างชุดข้อมูลเสียงแบบเปิดที่ใหญ่ที่สุดในโลก เป็นชุดข้อมูลที่ทุกคนสามารถเข้าถึงและมีส่วนร่วมในการพัฒนาได้ รวมถึงสามารถดาวน์โหลดข้อมูลไปใช้งานได้ฟรี
ร่วมบริจาคประโยคได้ที่ https://commonvoice.mozilla.org/sentence-collector/#/th/
วิธีการบริจาค
หลังจาก Login แล้วไปที่โปรไฟล์ (เมนูอยู่ในขีดสามขีด มุมบนขวา) แล้วเพิ่ม lo (lo) กด เพิ่มภาษา
วิธีการเพิ่มประโยค
วิธีการเพิ่มประโยค เข้าไปที่หน้า เพิ่มประโยค (เมนูอยู่ในขีดสามขีด มุมบนขวา)
วิธีการตรวจทานประโยค
วิธีการรีวิวประโยค เข้าไปที่ ตรวจทาน ประโยค (เมนูอยู่ในขีดสามขีด มุมบนขวา) เลือก อนุมัติ หรือ ปฎิเสธ
ความคิดเห็น
แสดงความคิดเห็น