Dịch máy thống kê
(SMT) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên ...
(SMT) là một phương pháp dịch máy, trong đó các bản dịch được tạo ra trên cơ sở các mô hình thống kê có các tham số được bắt nguồn từ việc phân tích các cặp câu song ngữ. Các phương pháp tiếp cận thống kê tương phản với các phương pháp tiếp cận dựa trên luật trong dịch máy cũng như với dịch máy dựa trên ví dụ.
Những ý tưởng đầu tiên của dịch máy thống kê đã được giới thiệu bởi Warren Weaver vào năm 1949, bao gồm cả những ý tưởng của việc áp dụng lý thuyết thông tin của Claude Shannon. được tái giới thiệu vào năm 1991 bởi các nhà nghiên cứu làm việc tại Trung tâm nghiên cứu Thomas J. Watson của IBM và đã góp phần đáng kể trong sự hồi sinh việc quan tâm đến dịch máy trong những năm gần đây. Ngày nay nó là phương pháp dịch máy được nghiên cứu nhiều nhất.
Ý tưởng đằng sau dịch máy thống kê đến từ lý thuyết thông tin. Tài liệu được dịch theo phân bố xác suất p(e | f) trong đó e là ngôn ngữ đích (ví dụ, Tiếng Việt) dịch từ f là ngôn ngữ nguồn (ví dụ, Tiếng Anh).
Các vấn đề của mô hình phân phối xác suất p(e | f) đã được tiếp cận theo một số cách. Một cách tiếp cận trực quan là áp dụng định lý Bayes, đó là :
trong đó p(f | e) là xác suất để chuỗi nguồn (f) là bản dịch của chuỗi đích e, xác suất này gọi là mô hình dịch, và p(e) là xác suất chuỗi e thực sự xuất hiện trong ngôn ngữ đích, xác suất này gọi là mô hình ngôn ngữ. Phân tích này giúp tách các vấn đề thành hai bài toán con. Bản dịch tốt nhất được tìm bằng cách chọn ra bản có xác suất cao nhất:
.
Để áp dụng phương pháp này một cách đầy đủ, cần thực hiện việc tìm kiếm trên tất cả các chuỗi e * của ngôn ngữ đích. Khối lượng tìm kiếm này rất lớn, và nhiệm vụ thực hiện tìm kiếm hiệu quả là công việc của một bộ giải mã dịch máy, sử dụng nhiều kỹ thuật để hạn chế không gian tìm kiếm nhưng vẫn giữ chất lượng dịch thuật chấp nhận được. Kỹ thuật đánh đổi giữa chất lượng và thời gian tính toán cũng có thể được tìm thấy trong nhận dạng tiếng nói.
Do hệ thống dịch không thể lưu trữ tất cả các chuỗi nguồn và bản dịch của chúng, một tài liệu thường được dịch từng câu một, nhưng ngay cả việc lưu tất cả câu cũng không khả thi. Mô hình ngôn ngữ thường được tính xấp xỉ bằng mô hình n-gram, và cách tiếp cận tương tự đã được áp dụng cho mô hình dịch, nhưng có thêm sự phức tạp do độ dài câu và thứ tự từ khác nhau trong các ngôn ngữ.
Các mô hình dịch thống kê ban đầu thường dùng mô hình lấy cơ sở theo từ (mô hình 1-5 mô hình Markov ẩn của IBM của Stephan Vogel và Mô hình 6 của Franz-Joseph Och), nhưng những tiến bộ đáng kể đã được thực hiện từ khi có mô hình lấy cơ sở theo cụm từ. Các công trình nghiên cứu gần đây đã kết hợp cú pháp hoặc cấu trúc bán-cú pháp để làm tăng chất lượng dịch .
trên cơ sở từ
Trong dịch máy thống kê trên cơ sở từ, các đơn vị cơ bản của bản dịch là một từ trong ngôn ngữ tự nhiên. Một ví dụ về một hệ thống dịch máy thống kê trên cơ sở từ là phần mềm tự do Giza++ (giấy phép GPL), dùng để tập huấn cho các mô hình dich IBM, mô hình HMM và mô hình 6 .
trên cơ sở từ không sử dụng rộng rãi ngày nay, thay vào đó là dịch máy thống kê trên cơ sở cụm từ. Hầu hết các hệ thống dựa trên cụm từ vẫn còn sử dụng Giza++ để gióng hàng câu, trích rút ra các cặp câu song ngữ và mô hình ngôn ngữ . Vì những ưu thế của Giza++, hiện nay có một số nỗ lực đưa áp dụng tính toán phân tán trực tuyến cho phần mềm này.
trên cơ sở cụm từ
trên cơ sở cụm từ có mục đích là để giảm bớt các hạn chế của dịch máy thống kê trên cơ sở từ bằng cách dịch cụm từ, trong đó độ dài cụm từ nguồn và cụm từ đích có thể khác nhau. Các cụm từ trong kỹ thuật này thường không cụm từ theo nghĩa ngôn ngữ học mà là các cụm từ được tìm thấy bằng cách sử dụng phương pháp thống kê để trích rút từ các cặp câu. Việc sử dụng các cụm từ theo nghĩa ngôn ngữ học (tức là dựa trên cú pháp, xem phân loại cú pháp) làm giảm chất lượng của dịch máy bằng phương pháp này.
trên cơ sở cú pháp
trên cơ sở cú pháp dựa trên ý tưởng của dịch các đơn vị cú pháp (phân tích cây của câu), hơn là những từ đơn hay cụm từ (như trong dịch máy thống kê trên cơ sở cụm từ). Ý tưởng này đã xuất hiện từ lâu, tuy nhiên phiên bản thống kê của ý tưởng này chỉ được hình thành khi có những bộ phân tích ngẫu nhiên mạnh mẽ trong những năm 1990.
Những lợi ích thường xuyên được trích dẫn của dịch máy thống kê trên mô hình truyền thống là:
Sử dụng tốt hơn các nguồn tài nguyên
- Có rất nhiều ngôn ngữ tự nhiên có đủ dữ liệu ở định dạng máy đọc được.
- Nói chung, hệ thống SMT không bị bó hẹp vào một cặp ngôn ngữ cụ thể nào.
- Dịch máy dựa trên luật đòi hỏi việc xây dựng các quy tắc ngôn ngữ, có thể tốn kém, và thường không khái quát được cho các ngôn ngữ khác.
Các bản dịch tự nhiên
Gióng hàng câu
Trong khi phương pháp dịch máy thống kê dựa trên những cặp câu song ngữ, thì một câu trong ngôn ngữ này có thể được dịch ra nhiều câu khác nhau trong ngôn ngữ khác và ngược lại. Việc gióng hàng câu có thể được thực hiện thông qua các thuật toán gióng hàng Gale-Church.
Thành ngữ
Tùy thuộc vào bộ cặp câu sử dụng, các thành ngữ có thể không được dịch thoát nghĩa hay theo nghĩa bóng, ẩn nghĩa của chúng. Ví dụ, bằng cách sử dụng bộ cặp câu Canada Hansard, "hear" luôn được dịch là "Bravo!" vì trong từ "Hear, hear!" trong ngữ cảnh họp quốc hội được dịch là "Bravo!".
Khác biệt trong thứ tự từ
Thứ tự từ trong các ngôn ngữ là khác nhau. Một số ngôn ngữ có thể được phân loại bằng cách đặt tên theo thứ tự điển hình của chủ ngữ (S), động từ (V) và đối tượng (O) trong một câu và có thể có các ngôn ngữ theo dạng, chẳng hạn, SVO hoặc VSO. Ngoài ra còn có thêm sự khác biệt trong thứ tự từ, ví dụ, khi có những yếu tố ngữ pháp phụ trợ, ví dụ thứ tự từ của câu hỏi khác câu khẳng định.
Để giải quyết vấn đề sắp xếp thứ tự từ, nhiều bản dịch ứng với các thứ tự từ khác nhau có thể được sinh ra, sau đó các bản dịch này được xếp hạng về xác suất xuất hiện, với sự giúp đỡ của mô hình ngôn ngữ, và bản dịch có xác suất cao nhất có thể được lựa chọn.
Từ nằm ngoài kho từ vựng
Hệ thống dịch máy thống kê lưu trữ các cụm từ một cách độc lập, không có mối quan hệ nào giữa các cụm từ. Những cụm từ không có trong dữ liệu sẽ không được dịch. Vấn đề này sẽ gặp phải khi thiếu dữ liệu, hoặc hệ thống được sử dụng trong lĩnh vực kiến thức mới.