ข้ามไปที่เนื้อหาหลัก

เบื้องหลัง Enhanced Thai Character Cluster (ETCC) ใน PyThaiNLP

ETCC เป็น subword ของภาษาไทยตัวหนึ่งที่อยู่มากับ PyThaiNLP มานานตั้งแต่ปี 2017 และเพิ่งสมบูรณ์ใกล้เคียง paper จริง ๆ เมื่อต้นปีที่ผ่านมา
.
ช่วงแรก ผมพยายามเขียนตามกฎที่ผมไปเจอที่บทความวิจัยอ้างอิงส่วนหนึ่งมาอีกที ด้วยตอนนั้นผมยังหากฎที่สมบูรณ์จริง ๆ ไม่ได้ เลยโค้ดเอาไว้แค่นั้น จนเวลาผ่านมา
.
ปี 2019 คุณแคน เห็นว่า ETCC ใน PyThaiNLP ยังไม่สมบูรณ์ เลยส่ง pull requests พร้อมระบุชื่อและที่มา paper ของ ETCC นั้นมาด้วย ต่อมา ผมเลยตามหา paper นั้นบนอินเทอร์เน็ตก็ไม่เจอ แต่ผมเจอว่า paper ที่ต้องการอยู่ที่ KMITL ผมเลยไปติดต่อบรรณารักษ์ห้องสมุดวิทยาเขตหนองคาย มข. ให้ติดต่อขอ paper นี้ (มีการค้น ETCC ในอินเทอร์เน็ต เจอของ PyThaiNLP อันดับแรก แถมคนเขียนเป็นผมด้วย - -) จนในที่สุด ทางห้องสมุดมข. ติดต่อมา เขาส่งอีเมลไฟล์สำเนา paper งานวิจัย ETCC นั้นมา ผมจึงได้ทำ ETCC ต่อ จนผลลัพธ์ออกมาใกล้เคียงกับ paper แล้ว push เข้า PyThaiNLP ช่วงก.พ.ต้นปีที่ผ่านมา

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

บรรณานุกรมกับ Zotero เรื่องน่าปวดหัวของนศ.มข.

เอาล่ะ ก่อนอื่นเรามาเริ่มที่บรรณานุกรม คืออะไร แบบย่อ ๆ บรรณานุกรมเป็นการอ้างอิงเอกสารหรือเอกสารอ่านเพิ่มเติมที่เรานำมาจัดทำรายงาน หนังสือ รวมไปถึงวิทยานิพนธ์ด้วย เป็นการอ้างอิงกันทางวิชาการถือเป็นเรื่องจำเป็นต้องทำและต้องมี ด้วยเหตุผลหลาย ๆ อย่าง

ฝึกงาน IST @ VISTEC : วันที่ 0 เข้าหอพัก

สวัสดีครับ ช่วงปิดเทอมของปี 2 ผมได้โอกาสไปฝึกงานกับ IST ที่ VISTEC ในโครงการ "IST Research Internship 2019"

ฝึกงาน IST @ VISTEC : วันที่ 2 งานเปิด AI Research Institute of Thailand ที่ depa

วันนี้ผมได้ไปร่วมงานเปิด "สถาบันวิจัยปัญญาประดิษฐ์แห่งประเทศไทย" หรือ AI Research Institute of Thailand โดยเป็นโครงการร่วมมือกันระหว่าง VISTEC กับ depa ในการพัฒนา AI ในประเทศไทย