Collocation lÀ gÌ? collocation trong cÁc Ứng dỤng xỬ lÝ ngÔn ngỮ tỰ nhiÊn
Collocation là gì? Collocation là một cụm từ gồm hai hay nhiều từ trở lên thường đi liền với nhau theo một trật tự nhất định (theo cách nói của người bản xứ). Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ như ...
Collocation là gì?
Collocation là một cụm từ gồm hai hay nhiều từ trở lên thường đi liền với nhau theo một trật tự nhất định (theo cách nói của người bản xứ).
Collocation trong các ứng dụng Xử lý ngôn ngữ tự nhiên
Collocation có ích trong nhiều ứng dụng Xử lý ngôn ngữ tự nhiên, ví dụ như sinh ngôn ngữ tự nhiên, dịch máy, tóm tắt văn bản và xây dựng từ điển... Chính vì tầm quan trọng của collocation, nên người ta đặt ra một vấn đề là làm thế nào để xác định collocation.
Bài toán xác định collocation (hay còn gọi là Bài toán trích chọn collocation – Collocation extraction) được phát biểu như sau “Xác định collocation là việc sử dụng máy tính để trích chọn ra các collocation một cách tự động từ một kho ngữ liệu (copus)”.
Howarth và Nasi cho rằng hầu hết trong các đoạn văn bản đều có chứa ít nhất một collocation.
Sinh ngôn ngữ tự nhiên (Natural language generation) là việc tạo câu hoặc văn bản từ một trình diễn phi ngôn ngữ. Có thể nhìn nhận việc phân tích ngôn ngữ là dịch từ ngôn ngữ tự nhiên sang một kiểu trình diễn có ý nghĩa khác. Vì vậy, cần xem xét việc sinh ngôn ngữ (language generation) như là phép dịch ngược lại từ một trình diễn có ý nghĩa sang ngôn ngữ tự nhiên. Việc phân tích một bài luận khó hơn việc phân tích các câu riêng lẻ, việc sinh ra văn bản cũng khó hơn nhiều việc sinh ra chuỗi các câu độc lập. Để có một văn bản dễ hiểu, phải dựa vào các nguyên tắc sắp xếp từ và câu theo đặc trưng riêng của mỗi loại ngôn ngữ.
Dịch tự động (Machine translation) được xem như là một trong những công việc khó khăn nhất trong xử lý ngôn ngữ tự nhiên, và trong trí tuệ nhân tạo. Việc dịch đúng dường như là không thể nếu không có những hiểu biết về văn bản. Theo Gitsaki, một collocation trong ngôn ngữ này khác với chính nó trong ngôn ngữ khác, vì thế việc dịch collocation là một việc không dễ.
Thông tin về collocation cũng là chủ yếu trong các công việc tóm tắt văn bản (Text simplification task). Điều này đòi hỏi phải có những kỹ thuật để thay thế các từ khó bởi những từ đơn giản hơn. Không có hiểu biết về collocation và các ràng buộc liên quan thì có thể dẫn đến những văn bản không dùng được.
Collocation cũng quan trọng trong lĩnh vực xây dựng từ điển (Computational lexicography). Chúng được sử dụng để mô tả một cách đầy đủ các mục từ vựng. Theo Richardson “đối với một phân tích từ điển chi tiết, chỉ các collocation có mặt trong từ điển mới cung cấp thêm các đặc điểm biểu diễn trực tiếp các mối quan hệ ngữ nghĩa trong các mục từ”.
Smith xem xét các collocation để tìm ra các sự kiện liên quan đến thông tin ngày tháng và địa điểm trong văn bản không có cấu trúc.
Kết luận: Collocation là một phần của Ngôn ngữ tự nhiên, việc Xử lý ngôn ngữ tự nhiên sẽ thuận lợi hơn nhiều nếu xác định được các collocation có ý nghĩa. Collocation được sử dụng trong một số ứng dụng như: dịch máy, sinh ngôn ngữ tự nhiên, tóm tắt văn bản, xây dựng từ điển... Chính vì vậy nghiên cứu các phương pháp xác định collocation là một công việc rất đáng được quan tâm.