Chuyển đến nội dung chính

Vietnamese Word Segmentation (Phân đoạn từ tiếng việt bằng Python)

 Đối với các công tác  nghiên cứu NLP (Natural language processing) thì công đoạn tách từ là một phần vô cùng quan trọng. Trong quá trình làm việc mình cũng khá may mắn tìm được một vài giải pháp opensource trong đó có bộ https://github.com/datquocnguyen/RDRsegmenter là bộ cho ra kết quả tốt nhất. 

Tuy nhiên thì nó được viết bằng Java nên nếu có các hệ thống chạy bằng Python muốn tích hợp vào thì sẽ cần thêm các module hoặc service trung gian. Vì thế cho nên mình đã quyết định viết lại toàn bộ sang Python và chia sẻ ở dạng Opensource với mong muốn sẽ giúp ích cho các hệ thống NLP tiếng việt.

Chi tiết các bạn xem tại : https://github.com/Sudo-VP/Vietnamese-Word-Segmentation-Python

Cấu trúc của source code:

- Thư mục <source>/train : Chứa các file dùng để huấn luyện từ dữ liệu đã xử lý (Mình giữ nguyên từ source cũ nên đã có README.md sẵn trong đó rồi)

- File chạy : <source>/RDRSegmenter.py  

- Datapreprocess : <source>/DataPreprocessor.py


>> Mọi người có thắc mắc gì có thể liện hệ trực tiếp với mình : ai.sdklab@gmail.com

Nhận xét

  1. Hiện tại mình chạy tệp RDRSegmenter.py thì báo lỗi No module named 'vws' nhờ bạn hướng dẫn thêm giúp mình

    Trả lờiXóa

Đăng nhận xét