Đối với các công tác nghiên cứu NLP (Natural language processing) thì công đoạn tách từ là một phần vô cùng quan trọng. Trong quá trình làm việc mình cũng khá may mắn tìm được một vài giải pháp opensource trong đó có bộ https://github.com/datquocnguyen/RDRsegmenter là bộ cho ra kết quả tốt nhất. Tuy nhiên thì nó được viết bằng Java nên nếu có các hệ thống chạy bằng Python muốn tích hợp vào thì sẽ cần thêm các module hoặc service trung gian. Vì thế cho nên mình đã quyết định viết lại toàn bộ sang Python và chia sẻ ở dạng Opensource với mong muốn sẽ giúp ích cho các hệ thống NLP tiếng việt. Chi tiết các bạn xem tại : https://github.com/Sudo-VP/Vietnamese-Word-Segmentation-Python Cấu trúc của source code: - Thư mục <source>/train : Chứa các file dùng để huấn luyện từ dữ liệu đã xử lý (Mình giữ nguyên từ source cũ nên đã có README.md sẵn trong đó rồi) - File chạy : <source>/RDRSegmenter.py - Datapreprocess : <source>/DataPrep...