-
Notifications
You must be signed in to change notification settings - Fork 274
History
วันที่ 10 กรกฎาคม พ.ศ.2559 เป็นวันที่ PyThaiNLP ถูกปล่อยขึ้น PyPI อย่างเป็นทางการ โดยรุ่นแรกคือ PyThaiNLP 0.0.4 โดยคุณสมบัติเช่น ตัดคำ, วิเคราะห์หน้าที่ของคำ (part-of-speech), แปลงตัวเลขเป็นคำอ่าน, เปลี่ยนข้อความกรณีลืมเปลี่ยนภาษาเวลาพิมพ์ และเรียงลำดับจำนวนข้อความ
ช่วงเริ่มต้นพัฒนานั้นผมอยู่ ม.6 หลังจากที่ผมเขียนบล็อก Python ทำ chatbot ง่าย ๆ มีโค้ดตัดคำ PyICU ที่แจกจ่ายทางอินเทอร์เน็ต, ชุดข้อมูล part-of-speech และอื่น ๆ ผมเลยเกิดความคิด ทำไมเราไม่รวมโค้ดนี้ทำเป็นโมดูลให้ใช้ง่าย ๆ เลยล่ะ ? ผมจึงลองทำโมดูลด้าน NLP ขึ้นมา เริ่มแรกมีแค่ตัดคำ ในวันที่ 23 มิถุนายน บน GitHub จนพัฒนามาระยะหนึ่ง ผมตัดสินใจอัปโหลดขึ้น PyPI รุ่นแรกที่ปล่อยคือ PyThaiNLP 0.0.4 ความตั้งใจในตอนนั้นคือ ต้องการสร้างโมดูล NLP ภาษาไทยอย่างเต็มรูปแบบ ไม่ใช่แค่ตัดคำ โดยประกาศข่าวโมดูลนี้ที่แรก ที่เพจ "สมาคม Python Dev แห่งประเทศไทย" และตามกลุ่มต่าง ๆ
รุ่นแรก ๆ API ยังไม่ได้คล้ายกับ NLTK ภายหลังปรับให้คล้ายกับ NLTK เพราะผมชื่นชอบ API ของ NLTK เป็นอย่างมากในตอนนั้น
พอผมมาทำ PyThaiNLP ผมเห็นปัญหาหนึ่ง คือ ภาษาไทยขาดแคลนทรัพยากรทางภาษา ในกระบวนการสร้าง NLP หลายอัน ถ้าเป็นแบบนี้ต่อไปจะมีผลต่อความอยู่รอดของภาษาไทยในอนาคตด้วย ส่วนตัวผมเห็นว่า NLP ภาษาไทย เป็นหลักประกันหนึ่งที่อาจจะช่วยให้ภาษาไทยไม่หายไปในอนาคตได้ ผมไม่อยากให้ภาษาไทยหายไปเพียงเพราะเทคโนโลยีไม่รองรับภาษาไทย และอยากให้สามารถนำไปใช้ในการงานวิจัยในสาย NLP ได้
ที่มาของชื่อ PyThaiNLP ช่วงนั้นผมสนใจ NLP มาก จนลองคิดหลายชื่อ ไม่ว่าจะเป็น Thai NLTK และหลาย ๆ ชื่อ จนมานึกถึงโมดูลตัวหนึ่งที่ชื่อ PyThai เป็นโมดูลตัดคำภาษาไทยใช้ libthai เป็นเบื้องหลัง ผมจึงลองเติม NLP ลงไปต่อท้าย ได้ชื่อที่พูดได้รื่นและจำได้ง่ายกว่าชื่ออื่น ๆ ผมจึงเลือกชื่อนี้นับจากนั้นเป็นต้นมา
ออกแบบโดยคุณ วรุตม์ พสุธาดล จากการประกวดที่ https://www.facebook.com/groups/408004796247683/permalink/475864542795041/ และ https://www.facebook.com/groups/408004796247683/permalink/474262752955220/
- 23 มิถุนายน เริ่มต้นพัฒนา PyThaiNLP
- 10 กรกฎาคม แจกจ่ายรุ่นแรก PyThaiNLP 0.0.4
- 4 มกราคม PyThaiNLP 1.0
- 19 พฤษภาคม ก่อตั้งกลุ่ม Thai NLP บน Facebook จากการพูดคุยกันในกลุ่ม Thailand Deep Learning
- @korakot (พี่ป๋อง) เข้ามาร่วมพัฒนา
- @cstorm125 (พี่ชารินทร์) เข้ามาร่วมพัฒนา
- 19 ตุลาคม ประกวดหาโลโก้ PyThaiNLP ที่กลุ่ม Thai NLP
- เพิ่ม PyThaiNLP เข้าไปยัง spaCy ทำให้ spaCy รองรับภาษาไทย
- ก่อตั้งทีม PyThaiNLP และย้าย GitHub จาก @wannaphongcom มาที่ @PyThaiNLP
- @petetanru เข้ามาช่วยปรับปรุงเอกสาร
- 12 กรกฎาคม Thai NLP Meetup #1 @ SCB Abacus
- Blog: wannaphong, SCB Abacus
- 17 ส.ค. Thai NLP Meetup #2 @ สถาบันการจัดการปัญญาภิวัฒน์
- Challenges of NLP for Social Media Monitoring - ปริญญา สงวนสัตย์
- Google Speech-to-Text API and How to Make It Work - กรกฎ เชาวะวณิช
- Deploying Speech Recognition for Consumers - Carl Goodier
- 19 ก.ย. Thai NLP Meetup #3 @ อาคาร 100 ปี วิศวฯ จุฬา
- การจัดการฐานข้อมูลและภาษาไทยของพันทิป.คอม - นที นิรนาทล้ำพงศ์, วิศวกร พันทิป.คอม
- สร้างตัวรู้จำเสียงพูดอัตโนมัติ (ASR) ด้วยเครื่องมือโอเพนซอร์ส (Kaldi) - เอกพล ช่วงสุวนิช, อาจารย์คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
- 25 ต.ค. Thai NLP Meetup #4 @ True Voice, CP Tower 2
– Mari and True Voice - ณัฏฐโพธ กุศลาไสยานนท์, True Voice
– Regular Expression กับภาษาไทย - กรกฎ เชาวะวณิช, Senior Data Scientist at True
- Scrapy - web scraping tools ดึงข้อมูลจากเว็บมาใช้เพื่อการศึกษา - พสธร สุวรรณศรี, Data Scientist at True
- 22 พ.ย. Thai NLP Meetup #5 @ อาคารมหาจักรีสิรินธร อักษร จุฬา – Knowledge Graph Creation and Infrastructure - อรรถพล ธำรงรัตนฤทธิ์ แห่งภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย – Thai2fit: Lightning-fast ULMFit for Thai Using QRNN - ชารินทร์ พลภาณุมาศ, PyThaiNLP
- @bact พี่อาท เข้ามาช่วยปรับปรุงโมดูล PyThaiNLP และเข้ามาร่วมพัฒนาในทีม PyThaiNLP
- @heytitle เข้ามาช่วยปรับปรุงโมดูล, ทำ benchmark ตัวตัดคำ, ทำตัวตัดคำ AttaCut และเข้ามาร่วมทีม PyThaiNLP
- @artificiala เข้ามาร่วมทีม PyThaiNLP โดยได้รับการสนับสนุนจากทาง VISTEC-depa Thailand AI Research Institute
- 1 เมษายน PyThaiNLP 2.0
- 15 มิถุนายน How PyThaiNLP's thai2fit Outperforms Google's BERT: State-of-the-Art Thai Text Classification and Beyond - Charin
- 25 ก.ค. Thai NLP Meetup #6 @ AIS Design Center, Emporium
- Building the Internet of Minds - Michael Dyrvig, K2 Venture Capital
- Speeding up Thai Word Segmentation with Syllable Embedding - Pattarawat Chormai
- 9 ธันวาคม นำเสนอ AttaCut ที่ NeurIPS 2019 - AttaCut: A Fast and Accurate Neural Thai Word Segmenter
- 10 ธันวาคม PyThaiNLP 2.1
- 24 มิ.ย. PyThaiNLP 2.2
(กำลังรอข้อมูลเพิ่มเติม)
- 9 พ.ค. คุณ Thanathip Suntorntip @Gorlph ได้เข้าร่วมทีม PyThaiNLP โดยเป็นผู้ดูแล oxidized-thainlp
(กำลังรอข้อมูลเพิ่มเติม)
PyThaiNLP