Chuyển đến nội dung chính

Bài đăng

Đang hiển thị bài đăng từ Tháng 9, 2020

Vietnamese Word Segmentation (Phân đoạn từ tiếng việt bằng Python)

 Đối với các công tác  nghiên cứu NLP (Natural language processing) thì công đoạn tách từ là một phần vô cùng quan trọng. Trong quá trình làm việc mình cũng khá may mắn tìm được một vài giải pháp opensource trong đó có bộ  https://github.com/datquocnguyen/RDRsegmenter  là bộ cho ra kết quả tốt nhất.  Tuy nhiên thì nó được viết bằng Java nên nếu có các hệ thống chạy bằng Python muốn tích hợp vào thì sẽ cần thêm các module hoặc service trung gian. Vì thế cho nên mình đã quyết định viết lại toàn bộ sang Python và chia sẻ ở dạng Opensource với mong muốn sẽ giúp ích cho các hệ thống NLP tiếng việt. Chi tiết các bạn xem tại :  https://github.com/Sudo-VP/Vietnamese-Word-Segmentation-Python Cấu trúc của source code: - Thư mục <source>/train : Chứa các file dùng để huấn luyện từ dữ liệu đã xử lý (Mình giữ nguyên từ source cũ nên đã có README.md sẵn trong đó rồi) - File chạy : <source>/RDRSegmenter.py   - Datapreprocess : <source>/DataPrep...

Tại sao nên học Python - Ngôn ngữ của thời đại

  Câu trả lời ngắn thì là vì nó mạnh còn trả lời dài thì là vì nó mạnh ...                                                                                         - Trích rì viu súc vật - Thông thường người ta tiếp cận ngôn ngữ lập trình sẽ phụ thuộc vào 2 yếu tố lớn:  Chỗ thu CV yêu cầu Sửa tivi, tủ lạnh, nồi cơm, ống nước,... À mà thôi để tôi cố vọc vạch các lý do khác cho các bạn... 1. Tính đa dụng Để mà nói cho ngắn gọn thì tất cả những gì bạn nghĩ ra đều có thể giải quyết với Python vì số thư viện và framework của nó là không đếm xuể (nhiều ...), không những vậy mà nó còn cực kỳ ngắn gọn, vài ví dụ nha: Bạn là lập trình viên web ...