วันอาทิตย์ที่ 11 ตุลาคม พ.ศ. 2563

เบื้องหลัง Enhanced Thai Character Cluster (ETCC) ใน PyThaiNLP

ETCC เป็น subword ของภาษาไทยตัวหนึ่งที่อยู่มากับ PyThaiNLP มานานตั้งแต่ปี 2017 และเพิ่งสมบูรณ์ใกล้เคียง paper จริง ๆ เมื่อต้นปีที่ผ่านมา
.
ช่วงแรก ผมพยายามเขียนตามกฎที่ผมไปเจอที่บทความวิจัยอ้างอิงส่วนหนึ่งมาอีกที ด้วยตอนนั้นผมยังหากฎที่สมบูรณ์จริง ๆ ไม่ได้ เลยโค้ดเอาไว้แค่นั้น จนเวลาผ่านมา
.
ปี 2019 คุณแคน เห็นว่า ETCC ใน PyThaiNLP ยังไม่สมบูรณ์ เลยส่ง pull requests พร้อมระบุชื่อและที่มา paper ของ ETCC นั้นมาด้วย ต่อมา ผมเลยตามหา paper นั้นบนอินเทอร์เน็ตก็ไม่เจอ แต่ผมเจอว่า paper ที่ต้องการอยู่ที่ KMITL ผมเลยไปติดต่อบรรณารักษ์ห้องสมุดวิทยาเขตหนองคาย มข. ให้ติดต่อขอ paper นี้ (มีการค้น ETCC ในอินเทอร์เน็ต เจอของ PyThaiNLP อันดับแรก แถมคนเขียนเป็นผมด้วย - -) จนในที่สุด ทางห้องสมุดมข. ติดต่อมา เขาส่งอีเมลไฟล์สำเนา paper งานวิจัย ETCC นั้นมา ผมจึงได้ทำ ETCC ต่อ จนผลลัพธ์ออกมาใกล้เคียงกับ paper แล้ว push เข้า PyThaiNLP ช่วงก.พ.ต้นปีที่ผ่านมา

0 ความคิดเห็น:

โพสต์ความคิดเห็น