ข้ามไปที่เนื้อหาหลัก

บทความ

กำลังแสดงโพสต์จาก 2022

spaCy ภาษาไทยมาแล้ว!!!

หลังจากที่ผมส่งภาษาไทยแบบ blank (ไม่มี model อะไร) เข้าไป spaCy เมื่อ 5 ปีก่อน แต่การใช้งานไม่สามารถใช้งานได้แบบ spacy.load(___) กับภาษาไทยได้ เพราะยังไม่มีโมเดลให้รัน มาวันนี้ผมได้พอร์ตส่วน word2vec จากโมเดล thai2fit (หรือ thai2vec) ของ Charin Polpanumas ในตำนาน ให้ใช้งานกับ spaCy ผ่าน spacy.load ได้สำเร็จ (เพิ่งทำได้เมื่อ 1 ชั่วโมงก่อนของเวลาโพสต์) จึงทำให้ตอนนี้รองรับเฉพาะส่วน token2vec เท่านั้น และโมเดลอื่น ๆ ที่จะตามมาในอนาคต การใช้งาน ตอนนี้ต้องโหลดโมเดลมาก่อน ในอนาคตผมจะส่งโมเดลเข้าต้นน้ำ spaCy ต่อไป เพื่อให้สามารถใช้งานได้เพียงแค่ spacy.load("th") เหมือนภาษาอังกฤษ (ถ้ามีเวลาว่าง) สามารถลองเล่นผ่าน Colab ได้ลิงก์นี้ https://colab.research.google.com/drive/1b_gZ34zZHVFeMBlz16F2cmjE7vKGqbGW?usp=sharing GitHub: https://github.com/PyThaiNLP/thai_spacy_model   ช่วงโฆษณา ส่ง GitHub sponsors ได้ที่ https://github.com/sponsors/wannaphong/ ครับ 🙏

PyThaiNLP ยอดโหลดทั้งหมดกว่า 1 ล้าน 8 แปด

PyThaiNLP ปัจจุบันมียอดโหลดจำนวน 1 แสนดาวน์โหลดต่อเดือน และจำนวนยอดโหลดทั้งหมดกว่า 1 ล้าน 8 แปด กว่า ๆ ถือเป็นยอดที่ค่อนข้างสูงสำหรับซอฟต์แวร์ open source เฉพาะทาง โดยเฉพาะการประมวลผลภาษาไทย . ด้วยยอดที่สูงขึ้นจากเมื่อ 2 - 3 ปีก่อน ทำให้เราต้องปรับปรุง PyThaiNLP ให้ดียิ่งขึ้น ทั้งเรื่องปรับปรุงโค้ด ปรับปรุงโมเดล พัฒนาเทคนิคการเรียกใช้งานให้มีประสิทธิภาพ รวมถึงยังสามารถใช้งานได้ง่าย ติดตั้งได้ง่ายอยู่ เพื่อให้นักเรียน นักศึกษา บุคคลทั่วไปที่เพิ่งเข้ามาในด้านนี้สามารถใช้งานได้สะดวก . เรื่องโมเดล เราได้ปรับนโยบายการนำชุดข้อมูล/โมเดลมาใช้งานกับ PyThaiNLP โดยชุดข้อมูล/โมเดลต้องมาจากแหล่งที่เป็นมิตรกับ open source ทั้งเรื่องแหล่งให้โหลดกับใบอนุญาตของชุดข้อมูล/โมเดลนั้น ๆ ทำให้ PyThaiNLP รุ่นถัดไป ทุกชุดข้อมูล/โมเดลจะเป็นมิตรกับ open source ทั้งหมด ทุกคนสามารถใช้งานได้ทุกวัตถุประสงค์ . ส่วนเรื่องโค้ด เราได้ปรับปรุงการตัดคำ newmm ความท้าทายในการปรับปรุงครั้งนี้คือกฎของ TCC ที่มีตัวอย่างในตัว paper จำนวนน้อย ทำให้เราต้องปรับปรุงโดยอ้างอิงตัวอย่างจาก paper อื่น ๆ ที่ใช้งาน TCC และปรับโค้ดให้ตรงก

มาร่วมกันบริจาคประโยคภาษาลาวสำหรับ Commonvoice ภาษาลาวกัน

ขอเชิญชวนทุกท่านที่ใช้หรือรู้ภาษาลาว มาร่วมกันบริจาคประโยคภาษาลาว สำหรับ Commonvoice ภาษาลาวกัน