Thông tin về hội thảo Các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên 2013
Tóm tắt Ngày nay, khi Internet đang dần trở thành nguồn dữ liệu khổng lồ của nhân loại thì việc nghiên cứu và xây dựng các hệ thống thông minh để có thể tự động xử lý được khối lượng thông tin- chủ yếu được viết dưới dạng ngôn ngữ tự nhiên (như văn bản và âm thanh) đang rất được quan tâm ...
Tóm tắt
Ngày nay, khi Internet đang dần trở thành nguồn dữ liệu khổng lồ của nhân loại thì việc nghiên cứu và xây dựng các hệ thống thông minh để có thể tự động xử lý được khối lượng thông tin- chủ yếu được viết dưới dạng ngôn ngữ tự nhiên (như văn bản và âm thanh) đang rất được quan tâm hiện nay và có nhiều triển vọng lớn trong tương lai. Trên thế giới đã thành lập các hiệp hội và tổ chức nhiều hội thảo hàng năm đề cập đến lĩnh vực này, trong đó hội thảo về các phương pháp thực nghiệm trong xử lý ngôn ngữ tự nhiên là một trong những hội nghị uy tín toàn cầu trong lĩnh vực xử lý ngôn ngữ tự nhiên, được tổ chức hàng năm bởi ACL SIGDAT (Special Interest Group on Linguistic data and corpus-based approaches to NLP). Tháng 10 năm 2013, hội thảo đã diễn ra tại khách sạn Grand Hyatt- thành phố Seattle, Washington, Hoa Kỳ.
Vài nét về thành phố Seattle
Seattle là thành phố được xây dựng trên bảy quả đồi giống như thành phố Roma cổ đại của Italia, có hình dáng giống như chiếc đồng hồ cát, nằm trên vịnh biển của vùng Tây Bắc Thái Bình Dương. Seattle là nơi có nền giáo dục cao nhất của Hoa Kỳ (theo số liệu điều tra từ Cục điều tra dân số Hoa Kỳ), nhiều năm liền được tạp chí USA Today bình chọn là "Thành phố học thức nhất nước Mỹ". Seattle còn là quê hương của Bill Gates và Paul Allen- đồng sáng lập tập đoàn Microsoft, và nơi đây cũng là đại bản doanh của hãng phần mềm khổng lồ này. Ngoài ra, Seattle cũng là nơi tập trung nhiều ngành công nghiệp, tập đoàn lớn khác như máy bay (Boing), phần mềm máy tính (khoảng 3000 công ty phần mềm máy tính), phát chuyển nhanh UPS, chuổi cửa hàng bán lẻ Nordstrom, PopCap..., là nơi ra đời của hãng viễn thông AT&T, Starbucks…Một số bộ phim nổi tiếng cũng chọn cảnh quay ở nơi đây như Sleepless In Seattle, Twilight, Love Happens và Harper’s Iland. Không những thế, thành phố này còn là nơi sinh ra hai nhạc sỹ lừng danh có ảnh hưởng lớn nhất trong lịch sử dòng nhạc rock’n’roll là Kurt Cobain và Jimmi Hendrix (Theo http://vi.wikipedia.org/wiki/Seattle).
Ngoài ra, thành phố Seattle cũng là một trung tâm văn hóa lớn với nhiều địa điểm du lịch thu hút sự quan tâm của du khách như Locks Cruise (đập khóa nước), Experience Music Project (bảo tàng âm nhạc), Museum of Flight (bảo tàng hàng không), tháp Space Needle (kỳ quan nhân tạo của Hoa Kỳ có cấu trúc giống như chiếc đĩa bay- biểu tượng của Seattle), Pike Place Market (chợ bán hàng địa phương lâu đời nhất của Seattle từ năm 1907), Capitol Hill- nơi đặt mộ Lý Tiểu Long và con trai, triển lãm những tác phẩm nghệ thuật làm từ thủy tinh thổi thủ công của nghệ sĩ tài hoa Dale Chihuly, các tác phẩm nghệ thuật đại chúng như bức tượng đá Fremont Troll, bức tường kẹo cao su Gum Wall nổi tiếng...
Hội thảo về xử lý ngôn ngữ tự nhiên
Lịch trình hội thảo diễn ra trong cả ngày, từ ngày 18 tháng 10 năm 2013 đến ngày 22 tháng 10 năm 2013 với các vấn đề liên quan đến lĩnh vực xử lý ngôn ngữ tự nhiên trong ngành công nghệ thông tin, nhằm mục đích trao đổi ý tưởng nghiên cứu và trình bày những tiến bộ trong lĩnh vực xử lý ngôn ngữ tự nhiên, hội thảo cũng là nơi trao đổi và chia sẻ kinh nghiệm cũng như tìm kiếm sự hợp tác giữa các đại biểu có cùng lĩnh vực nghiên cứu.
Các nhà tài trợ chính và đồng tài trợ cho hội thảo: Google, Microsoft, Allen Institute, Nuance, IBM Watson, Inome, Đại học Johns Hopkins.
Danh sách các thành viên trong ban tổ chức
· Chủ tịch chung: David Yarowsky, Đại học Johns Hopkins.
· Chủ tịch chương trình:
- Tim Baldwin, Đại học Melbourne.
- Anna Korhonen, Đại học Cambridge.
· Điều hành hội thảo: Karen Livescu, Viện Công nghệ Toyota, Đại học Chicago.
· Phụ trách xuất bản: Steven Bethard, Đại học Colorado Boulder.
· Phụ trách đối ngoại: Priscilla Rasmussen.
Danh sách khách mời
1. Tiến sĩ Andrew Ng., đồng giám đốc điều hành và sáng lập Coursera đã có bài phát biểu có nhan đề “The Online Revolution: Education for everyone” nói về những nỗ lực của Coursera nhằm đem giáo dục chất lượng cao đến tất cả mọi người, đặc biệt là đối tượng người học không có điều kiện tiếp cận với nền giáo dục tiên tiến- bằng cách hợp tác với các trường đại học nổi tiếng như Stanford, Princeton, Caltech, Columbia,Washington… cung cấp các khóa học trực tuyến, trong đó được xây dựng dựa trên các ứng dụng, bao gòm cả học máy của lĩnh vực xử lý ngôn ngữ tự nhiên (Machine Learning/NLP) để đào tạo cho các đối tượng là tất cả mọi người trên toàn thế giới có thể tham gia miễn phí.
Bắt đầu từ năm 2011, Đại học Stanford mở ba khóa học trực tuyến mà bất kỳ ai cũng có thể ghi danh và theo học miễn phí. Đến nay, Coursera đã hợp tác với 80 trường đại học và các đối tác khác, gồm 3,6 triệu sinh viên theo học trong gần 400 khóa học. Các khóa học này bao gồm các ngành như khoa học máy tính, quản trị kinh doanh, y tế, khoa học, nhân văn, khoa học xã hội,… Ở Việt Nam, người học có thể tham khảo thông tin và đăng ký qua địa chỉ trang Web https://www.coursera.org/
2. Tiến sĩ Fernando Pereira, giám đốc nghiên cứu Google có bài phát biểu nhan đề “Meaning in the Wild”. Trong phần nói chuyện của mình, ông chia sẻ những vấn đề liên quan đến việc tìm kiếm và sử dụng các nguồn thông tin có ý nghĩa từ những dữ liệu ban đầu, ông cũng nhìn nhận những đóng góp- thông qua khối lượng đồ sộ những thuật toán của các tác giả đem đến Hội thảo mà Google có thể học hỏi, đặc biệt là những tiến bộ trong lĩnh vực nhận dạng giọng nói và dịch máy.
Nội dung chính
Bài báo trong Hội thảo gồm hai loại: long papers và short papers được các tác giả trình bày trong thời gian khoảng 20 đến 25 phút. Ban tổ chức đã nhận được 772 bài báo hợp lệ (539 long papers và 233 short papers), trong số đó có tổng cộng 151 long papers (chiếm 28%) và 56 short papers (chiếm 24%) được chấp nhận báo cáo trong Hội thảo. Tùy vào đặc trưng của bài báo mà chúng được thuyết trình trên phần mềm (ví dụ Power Point, Latex) hoặc được trình bày trên các Posterboards có kích thước 3 feet (90cm) chiều cao và 4 feet (120cm) chiều rộng.
Toàn cảnh buổi hội thảo
Có 15 chủ đề cơ bản được nêu trong hội thảo bao gồm:
1. Âm vị học (chủ trì: Kemal Oflazer, Anna Feldman)
2. Cú pháp và phân tích (chủ trì: Jennifer Foster, Yoav Goldberg)
3. Ngữ nghĩa (chủ trì: Mark Stevenson, Luke Zettlemoyer)
4. Luận và thoại (chủ trì: Carolyn Rose, Matt Purver)
5. Các nguồn tài nguyên của ngôn ngữ (chủ trì: Emily Bender, Aline Villavicencio)
6. Tổng hợp và các hệ (chủ trì: Dragomir Radev, Yang Liu)
7. Các lý thuyết, phương pháp và thuật toán về NLP- xử lý ngôn ngữ tự nhiên (chủ trì: Amir Globerson, Antal van den Bosch)
8. Dịch máy (chủ trì: Taro Watanabe, Kevin Knight)
9. Truy tìm thông tin và hồi đáp (chủ trì: Bernardo Magnini, Soumen Chakrabarti)
10. Trích chọn thông tin (chủ trì: Mausam, Heng Ji)
11. Xử lý ngôn ngữ nói (chủ trì: Haizhou Li, Amanda Stent)
12. Các ứng dụng xử lý ngôn ngữ tự nhiên và khai thác văn bản (chủ trì: Hang Li, Kevin Cohen)
13. Khai thác ý tưởng và phân tích (chủ trì: Janyce Weibe, Bing Liu)
14. Xử lý ngôn ngữ tự nhiên trên Web và vấn đề truyền thông xã hội (chủ trì: Miles Osborne, Chin-Yew Lin)
15. Các mô hình tính toán về tiếp nhận và xử lý ngôn ngữ con người (chủ trì: Alessandro Lenci, Afra Alishahi)
Lịch trình Hội thảo
Với 15 chủ đề cơ bản nêu trên, lịch trình hội thảo cụ thể như sau:
· Ngày 18 tháng 10- Hội thảo nhóm:
- TextGraphs-8: các phương pháp xử lý ngôn ngữ tự nhiên trên cơ sở đồ họa (Zornitsa Kozareva, Irina Matveeva, Gabor Melli, Vivi Nastase- Website: http://www.textgraphs.org/ws13)
- SPMRL-2013: bản thảo lần thứ tư về phân tích thống kê các hình thái giàu ngôn ngữ (Yoav Goldberg, Ines Rehbein, Yannick Versley- Website: http://www.spmrl.org/spmrl2013.html)
- Chặng đường hai mươi năm của Bitext- công cụ cung cấp ngôn ngữ đa nghĩa (Chris Dyer, Noah A. Smith, Phil Blunsom- Website: http://sites.google.com/site/20yearsofbitext/)
· Ngày 19 tháng 10:
- Trích chọn thông tin, thu thập và xử lý ngôn ngữ, xử lý ngôn ngữ tự nhiên trong truyền thông xã hội (I).
- Khách mời nói chuyện: ngài Andrew Ng.,
- Dịch máy (I), âm vị học (I).
- Các tác giả trình bày và trao đổi bài báo dạng short papers.
· Ngày 20 tháng 10:
- Khách mời nói chuyện: ngài Fernando Pereira.
- Học máy trong xử lý ngôn ngữ tự nhiên, tổng hợp và các hệ.
- Trích chọn thông tin (I) và truyền thông xã hội.
- Dịch máy (II), Khai thác ý tưởng và phân tích (I).
- Dịch máy (III), trích chọn thông tin (II) và các ứng dụng về xử lý ngôn ngữ tự nhiên (I).
· Ngày 21 tháng 10:
- Trích chọn thông tin (III), Khai thác ý tưởng và phân tích (II), xử lý ngôn ngữ tự nhiên trong truyền thông xã hội (II).
- Âm vị học (II), các ứng dụng về xử lý ngôn ngữ tự nhiên (II).
- Tổng kết và bế mạc.
Có thể thấy rằng trong những ngày diễn ra Hội thảo, hầu hết các vấn đề, các tiến bộ mới trong lĩnh vực xử lý ngôn ngữ tự nhiên đã được đưa ra trình bày và thảo luận. Hội thảo đã nhận được sự quan tâm sâu sắc của các tập đoàn, các công ty trên thế giới, những người làm việc trong ngành công nghệ thông tin nói chung cũng như lĩnh vực xử lý ngôn ngữ tự nhiên trên máy tính nói riêng.
Tin và ảnh: Lê Thị Cẩm Bình
Admin3