Wannaphong Blog

บทความ

โพสต์ล่าสุด

ความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่เพิ่มขึ้น

จากความเคลื่อนไหวในวงการ NLP ในหลายปีที่ผ่านมา ทั้ง OpenAI whisper กับ OpenAI ChatGPT, BERT และอื่น ๆ ยิ่งตอบย้ำถึงความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่มีส่วนร่วมสำคัญอย่างยิ่งในการเปลี่ยนแปลงด้านเทคโนโลยีปัญญาประดิษฐ์ที่เกี่ยวข้องกับภาษามนุษย์ ทั้งด้านการพัฒนาแอปและงานวิจัยใหม่ ๆ ที่ผู้คนสามารถเข้าถึงได้จากทั่วโลก ตัวอย่างเช่น OpenAI whisper โมเดลรู้จำเสียงกับแปลภาษาจากเสียงที่รองรับภาษาไทยด้วย จากที่นำชุดข้อมูล CommonVoice ซึ่งเป็นชุดข้อมูลเสียงพูดภาษาไทยแบบสาธารณะที่ใหญ่ที่สุด ณ ตอนนี้ (เพราะไม่มีชุดข้อมูลสาธารณะอื่น ๆ ที่มีภาษาไทยมากกว่านี้) นำมาเทรนโมเดล, OpenAI ChatGPT ที่ใช้ GPT 3.5 ซึ่งเก็บข้อมูลมาจากอินเทอร์เน็ต เว็บต่าง ๆ (รวมถึงวิกิพีเดียด้วย) ทำให้มีภาษาไทยด้วย, BERT multilingual base model (cased) จาก Google ที่เทรนบนข้อมูลวิกิพีเดีย 104 ภาษา ทำให้รองรับภาษาไทยด้วย, งาน XLM-RoBERTa, LASER และอื่น ๆ สิ่งเหล่านี้ต่างใช้งานชุดข้อมูลเปิดสาธารณะกับ Open Source ซึ่งจะเกิดขึ้นไม่ได้เลย หากขาดชุดข้อมูลเปิดสาธารณะ กับ Open Source เหล่านี้ สมมติถ้าไม่มีภาษาไทยในข้อมูลเ

อ่านเพิ่มเติม

spaCy ภาษาไทยมาแล้ว!!!

หลังจากที่ผมส่งภาษาไทยแบบ blank (ไม่มี model อะไร) เข้าไป spaCy เมื่อ 5 ปีก่อน แต่การใช้งานไม่สามารถใช้งานได้แบบ spacy.load(___) กับภาษาไทยได้ เพราะยังไม่มีโมเดลให้รัน มาวันนี้ผมได้พอร์ตส่วน word2vec จากโมเดล thai2fit (หรือ thai2vec) ของ Charin Polpanumas ในตำนาน ให้ใช้งานกับ spaCy ผ่าน spacy.load ได้สำเร็จ (เพิ่งทำได้เมื่อ 1 ชั่วโมงก่อนของเวลาโพสต์) จึงทำให้ตอนนี้รองรับเฉพาะส่วน token2vec เท่านั้น และโมเดลอื่น ๆ ที่จะตามมาในอนาคต การใช้งาน ตอนนี้ต้องโหลดโมเดลมาก่อน ในอนาคตผมจะส่งโมเดลเข้าต้นน้ำ spaCy ต่อไป เพื่อให้สามารถใช้งานได้เพียงแค่ spacy.load("th") เหมือนภาษาอังกฤษ (ถ้ามีเวลาว่าง) สามารถลองเล่นผ่าน Colab ได้ลิงก์นี้ https://colab.research.google.com/drive/1b_gZ34zZHVFeMBlz16F2cmjE7vKGqbGW?usp=sharing GitHub: https://github.com/PyThaiNLP/thai_spacy_model ช่วงโฆษณา ส่ง GitHub sponsors ได้ที่ https://github.com/sponsors/wannaphong/ ครับ 🙏

อ่านเพิ่มเติม

PyThaiNLP ยอดโหลดทั้งหมดกว่า 1 ล้าน 8 แปด

PyThaiNLP ปัจจุบันมียอดโหลดจำนวน 1 แสนดาวน์โหลดต่อเดือน และจำนวนยอดโหลดทั้งหมดกว่า 1 ล้าน 8 แปด กว่า ๆ ถือเป็นยอดที่ค่อนข้างสูงสำหรับซอฟต์แวร์ open source เฉพาะทาง โดยเฉพาะการประมวลผลภาษาไทย . ด้วยยอดที่สูงขึ้นจากเมื่อ 2 - 3 ปีก่อน ทำให้เราต้องปรับปรุง PyThaiNLP ให้ดียิ่งขึ้น ทั้งเรื่องปรับปรุงโค้ด ปรับปรุงโมเดล พัฒนาเทคนิคการเรียกใช้งานให้มีประสิทธิภาพ รวมถึงยังสามารถใช้งานได้ง่าย ติดตั้งได้ง่ายอยู่ เพื่อให้นักเรียน นักศึกษา บุคคลทั่วไปที่เพิ่งเข้ามาในด้านนี้สามารถใช้งานได้สะดวก . เรื่องโมเดล เราได้ปรับนโยบายการนำชุดข้อมูล/โมเดลมาใช้งานกับ PyThaiNLP โดยชุดข้อมูล/โมเดลต้องมาจากแหล่งที่เป็นมิตรกับ open source ทั้งเรื่องแหล่งให้โหลดกับใบอนุญาตของชุดข้อมูล/โมเดลนั้น ๆ ทำให้ PyThaiNLP รุ่นถัดไป ทุกชุดข้อมูล/โมเดลจะเป็นมิตรกับ open source ทั้งหมด ทุกคนสามารถใช้งานได้ทุกวัตถุประสงค์ . ส่วนเรื่องโค้ด เราได้ปรับปรุงการตัดคำ newmm ความท้าทายในการปรับปรุงครั้งนี้คือกฎของ TCC ที่มีตัวอย่างในตัว paper จำนวนน้อย ทำให้เราต้องปรับปรุงโดยอ้างอิงตัวอย่างจาก paper อื่น ๆ ที่ใช้งาน TCC และปรับโค้ดให้ตรงก

อ่านเพิ่มเติม

มาร่วมกันบริจาคประโยคภาษาลาวสำหรับ Commonvoice ภาษาลาวกัน

ขอเชิญชวนทุกท่านที่ใช้หรือรู้ภาษาลาว มาร่วมกันบริจาคประโยคภาษาลาว สำหรับ Commonvoice ภาษาลาวกัน

อ่านเพิ่มเติม

เมื่อ Zotero เนื้อที่ไม่พอ

เรื่องเล่าจากเรื่องจริง ผมถนัดใช้ Zotero มาก แถมตอนนี้ใช้ใน iPad ได้แล้วผ่านแอป Zotero (รุ่นทดสอบ) แต่ตอนนี้ผมใช้เนื้อที่เต็ม เลยต้องหาที่เก็บไฟล์ จะให้ใช้ซื้อ Storage ของ Zotero เพิ่มก็ไม่เพียงพอ เพราะต้องซื้อเหมาทีเดียวเป็นรายปี เลยตัดสินใจไปเช่า VPS ที่ DigitalOcean ราคาถูก ๆ และดึง docker webdav ขึ้นมา ใช้ docker แป๊ปเดียว แต่ไม่จบ เพราะ Zotero ใน iOS มันซิงค์กับ webdav ที่เป็น http ปกติไม่ได้ เลยต้องไปปรับ docker ใช้ letsencrypt กับปรับแต่ง Dockerfile จนตอนนี้ใช้งานได้วงจร ทั้งบนคอมกับ iPad แล้ว GitHub docker webdav ssl: https://github.com/wannaphong/docker-webdav

อ่านเพิ่มเติม

layout คีย์บอร์ดภาษาไทยกับ Phosh

เมื่อปีก่อน หลังผมได้ PinePhone มา ผมพบว่า postmarketos ไม่มี layout คีย์บอร์ดภาษาไทย ทำให้ไม่สามารถพิมพ์ภาษาไทยได้เลย ผมเลยไปถาม postmarketOS สรุปผมเลยต้องไปไล่ดู จนส่ง pull request layout คีย์บอร์ดภาษาไทยไปได้ทาง https://source.puri.sm/Librem5/squeekboard/-/merge_requests/402/ จนได้เข้ารวมกับต้นน้ำ เย้ ผ่านมา 1 ปี ผมไม่ได้ใช้ postmarketOS แล้ว เปลี่ยนไปใช้ mobian แทน แต่ก็ยังได้ใช้ layout คีย์บอร์ดภาษาไทยของตัวเองที่ได้ส่งไปให้ต้นน้ำ :D เอาตามตรงนะ ตอนสร้างไม่ได้ทดสอบอะไรเลย เพราะ sim ที่เขามีให้มันใช้ไม่ได้ เลยมั่วส่งไป กับอ่านโค้ด layout คีย์บอร์ดภาษาอื่น ๆ ที่มีอยู่แล้ว ประกอบ

อ่านเพิ่มเติม

Wannaphong Blog

ค้นหาบล็อกนี้

บทความ

จะว่าไปไม่ได้เขียน blog นานเลย

ความสำคัญของชุดข้อมูลเปิดสาธารณะกับ Open Source ที่เพิ่มขึ้น

spaCy ภาษาไทยมาแล้ว!!!

PyThaiNLP ยอดโหลดทั้งหมดกว่า 1 ล้าน 8 แปด

มาร่วมกันบริจาคประโยคภาษาลาวสำหรับ Commonvoice ภาษาลาวกัน

เมื่อ Zotero เนื้อที่ไม่พอ

layout คีย์บอร์ดภาษาไทยกับ Phosh