ข้ามไปที่เนื้อหาหลัก

spaCy ภาษาไทยมาแล้ว!!!


หลังจากที่ผมส่งภาษาไทยแบบ blank (ไม่มี model อะไร) เข้าไป spaCy เมื่อ 5 ปีก่อน แต่การใช้งานไม่สามารถใช้งานได้แบบ spacy.load(___) กับภาษาไทยได้ เพราะยังไม่มีโมเดลให้รัน
มาวันนี้ผมได้พอร์ตส่วน word2vec จากโมเดล thai2fit (หรือ thai2vec) ของ Charin Polpanumas ในตำนาน ให้ใช้งานกับ spaCy ผ่าน spacy.load ได้สำเร็จ (เพิ่งทำได้เมื่อ 1 ชั่วโมงก่อนของเวลาโพสต์) จึงทำให้ตอนนี้รองรับเฉพาะส่วน token2vec เท่านั้น และโมเดลอื่น ๆ ที่จะตามมาในอนาคต
การใช้งาน ตอนนี้ต้องโหลดโมเดลมาก่อน ในอนาคตผมจะส่งโมเดลเข้าต้นน้ำ spaCy ต่อไป เพื่อให้สามารถใช้งานได้เพียงแค่ spacy.load("th") เหมือนภาษาอังกฤษ (ถ้ามีเวลาว่าง)
สามารถลองเล่นผ่าน Colab ได้ลิงก์นี้ https://colab.research.google.com/drive/1b_gZ34zZHVFeMBlz16F2cmjE7vKGqbGW?usp=sharing
GitHub: https://github.com/PyThaiNLP/thai_spacy_model

 

ช่วงโฆษณา ส่ง GitHub sponsors ได้ที่ https://github.com/sponsors/wannaphong/ ครับ 🙏

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

บรรณานุกรมกับ Zotero เรื่องน่าปวดหัวของนศ.มข.

เอาล่ะ ก่อนอื่นเรามาเริ่มที่บรรณานุกรม คืออะไร แบบย่อ ๆ บรรณานุกรมเป็นการอ้างอิงเอกสารหรือเอกสารอ่านเพิ่มเติมที่เรานำมาจัดทำรายงาน หนังสือ รวมไปถึงวิทยานิพนธ์ด้วย เป็นการอ้างอิงกันทางวิชาการถือเป็นเรื่องจำเป็นต้องทำและต้องมี ด้วยเหตุผลหลาย ๆ อย่าง

ฝึกงาน IST @ VISTEC : วันที่ 0 เข้าหอพัก

สวัสดีครับ ช่วงปิดเทอมของปี 2 ผมได้โอกาสไปฝึกงานกับ IST ที่ VISTEC ในโครงการ "IST Research Internship 2019"

เชื่อมต่อ kku-wifi-s ใน Linux (ใช้งานได้กับ Raspberry Pi)

สวัสดีครับ ผมได้ใช้ Raspberry Pi แต่ผมติดปัญหาที่ไม่สามารถเชื่อมต่อ kku-wifi-s  ได้ เนื่องจากการตั้งค่าที่เป็นปัญหา ทำให้ผมหาวิธีจนสามารถเชื่อมต่อ kku-wifi-s ได้ โดยทำตามวิธีดังนี้ครับ