Chờ Mạng từ tiếng Việt… để xử lí tiếng Việt tự động

Hiện nay trên thế giới, các ứng dụng công nghệ như nhận dạng tiếng nói, tổng hợp tiếng nói, tìm kiếm thông tin, phân loại văn bản tự động, trích rút thông tin tự động, tóm tắt văn bản tự động, dịch tự động… không còn xa lạ.

Để thực hiện được điều này, máy tính đòi hỏi cần phải có một nguồn cơ sở ngữ liệu không chỉ đủ lớn mà còn đáng tin cậy.

Tuy nhiên với tiếng Việt, các ứng dụng trên chưa phong phú và đạt độ chuẩn nhất định.

Chính vì thế Mạng từ tiếng Việt ra đời, hứa hẹn sẽ là một tài nguyên từ vựng tiếng Việt trực tuyến đạt chuẩn quốc tế lớn nhất, hệ thống nhất, và hữu hiệu nhất trong cộng đồng nghiên cứu tiếng Việt và xử lý tiếng Việt.

Mang_tieng_Viet

Để xử lí ngôn ngữ tiếng Việt, các nhà Khoa học máy tính đang chủ yếu dựa vào các kho ngữ liệu là VietTreebank, Từ điển VCL (Vietnamese Computational Lexicon), một số từ điển tiếng Việt.

Thực tế tại các kho ngữ liệu này, mặc dù đã được xây dựng khá cẩn thận, chu đáo theo những tiêu chí khá nghiêm ngặt nhưng hiện vẫn còn một số hạn chế và vẫn chưa thực sự đáp ứng được nhu cầu có thể sử dụng để phát triển hơn nữa các ứng dụng liên quan đến xử lí ngôn ngữ tiếng Việt như đã nêu ở trên.

Chính vì thế một nhóm các nhà khoa học trong lĩnh vực Khoa học máy tính và Ngôn ngữ học Việt Nam đã bắt tay nghiên cứu xây dựng Mạng từ tiếng Việt, một cơ sở ngữ liệu có thể khắc phục được các điểm còn yếu và thiếu của các cơ sở ngữ liệu khác trong vấn đề xử lí ngôn ngữ tiếng Việt.

Công việc này được thực hiện trong khuôn khổ của một đề tài cấp Nhà nước.

Đó là đề tài:

“Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” mã số “KC.01.20/11-15” thuộc chương trình KC.01/11-15 do Bộ KH& CN quản lí và Công ty Naiscorp thực hiện.

Mang_tieng_Viet_1

Dự kiến, cuối năm 2015, Mạng từ tiếng Việt sẽ hoàn thành và được đưa vào sử dụng trên trang web http://wordnet.vn.

Khi đó có thể được ứng dụng vào nhiều công việc khác nhau, như một loạt công việc liên quan đến việc xử lí tiếng Việt bằng máy tính như dịch máy, phân tích văn bản tự động, tóm tắt văn bản tự động, tìm kiếm thông tin… sẽ được thực hiện dễ dàng, hiệu quả và nhanh chóng hơn.

Bên cạnh đó nhiều công việc có tính ứng dụng khác cũng sẽ cần đến Mạng từ tiếng Việt như việc xây dựng các loại từ điển ngữ văn tổng hợp và chuyên ngành tiếng Việt, việc nghiên cứu ngôn ngữ và văn hoá Việt Nam, việc so sánh tiếng Việt với các ngôn ngữ khác, việc giảng dạy tiếng Việt…

Không chỉ vậy khi Mạng từ tiếng Việt hoàn thành, nó có thể kết nối với các mạng từ khác trên thế giới để hình thành một từ điển song ngữ hay đa ngữ.

Hiện nay, theo Hiệp hội mạng từ toàn cầu, trên thế giới hiện có hơn 70 mạng từ đơn ngữ và đa ngữ như: Mạng từ tiếng Nga (RussNet), Mạng từ tiếng Trung (Chinese WordNet), Mạng từ tiếng Thái (Thai WordNet), Mạng từ tiếng Hindi (Hindi WordNet), Mạng từ tiếng Sanskrit (Sanskrit Wordnet), Mạng từ các ngôn ngữ châu Âu (EurowordNet), Mạng từ châu Á (Asian WordNet)…

Mạng từ tiếng Việt là một cơ sở dữ liệu từ vựng tiếng Việt được xây dựng theo mô hình Mạng từ tiếng Anh (WordNet).

Mạng từ tiếng Việt gồm ba nhóm từ loại chính là danh từ, động từ và tính từ. Các từ trong mỗi nhóm từ loại được nhóm lại thành các loạt đồng nghĩa.

Các loạt đồng nghĩa này được liên kết với nhau bằng các quan hệ ngữ nghĩa khác nhau như bao thuộc (hoa – hoa hồng), tổng phân (mặt – mắt), đồng nghĩa (chó biển – hải cẩu), trái nghĩa (xấu – đẹp)….

Mạng từ tiếng Việt dự định gồm 30.000 loạt đồng nghĩa, với 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ vựng là từ tiếng Việt thông dụng hứa hẹn sẽ là một cơ sở ngữ liệu đáng kể.

Thêm vào đó, được thiết kế xây dựng dựa trên các đơn vị khái niệm – nghĩa và các quan hệ ngữ nghĩa, cho nên, có thể nói rằng Mạng từ tiếng Việt cũng như các mạng từ khác trên thế giới là một loại cơ sở dữ liệu từ vựng có tính hệ thống và tính chỉnh thể cao.

Nói một cách khác, nó là một nguồn cơ sở ngữ liệu khoa học và đáng tin cậy cho các ứng dụng CNTT trong lĩnh vực xử lí ngôn ngữ tự nhiên mà cụ thể là tiếng Việt.

BÁ TÂN

Nguồn: Báo SGGP

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s