Môn xử lý ngôn ngữ tự nhiên tiếng anh
Show
Cơ bản về Xử lý ngôn ngữ tự nhiên và ứng dụng cho tiếng Việt Cơ bản về Xử lý ngôn ngữ tự nhiên và ứng dụng cho tiếng ViệtXử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) là một trong những nhánh khó của trí tuệ nhân tạo. Bởi lẽ ngôn ngữ là một hệ thống phức tạp để giao tiếp giữa những động vật bậc cao hay có năng lực tư duy như con người. Nếu NLP được giải quyết thành công đồng nghĩa với việc máy tính có thể hiểu và sử dụng ngôn ngữ tự nhiên để giao tiếp như chúng ta. 1. Sơ lược về ngôn ngữ tự nhiênNgôn ngữ tự nhiên không giống với ngôn ngữ nhân tạo như ngôn ngữ máy tính (C, PHP, …). Trên thế giới hiện nay có khoảng 7000 loại ngôn ngữ. Có nhiều cách để phân loại, một số cách phân loại ngôn ngữ phổ biến như dựa vào: nguồn gốc, đặc điểm, …
Do đó tiếng Việt được xếp vào loại đơn lập – tức phi hình thái, không biến hình. Cùng với đó, tiếng Việt được viết theo trật tự S – V – O. (subject (S), verb (V) and object (O)). Một vài so sánh các cách sắp xếp trật tự câu. Các cách sắp xếp trật tự câu 2. Xử lý ngôn ngữ tự nhiên2.1 Ngôn ngữ hình thức – Formal LanguageNgôn ngữ hình thức (Formal Language) là một tập các chuỗi (string) được xây dựng dựa trên một bảng chữ cái (alphabet), được ràng buộc bởi các luật (rule) hoặc văn phạm (grammar) đã được định nghĩa trước. Alphabet có thể là tập các ký tự trong ngôn ngữ tự nhiên (Natural Language) hoặc tập tự định nghĩa các ký tự. Mô hình ngôn ngữ tự nhiên tuân theo quy luật của chuỗi Markov và được hình thức hóa đầu tiên bởi Noam Chomsky được gọi là ‘Mô hình phân cấp Chomsky’. Sau này những mô hình này được dùng để tạo ra ngôn ngữ lập trình hoặc các ứng dụng trong các nghiên cứu dịch tự động. Tiền đề trong việc xây dựng lý thuyết Automata là ngôn ngữ hình thức Mô hình phân cấp Chomsky. 2.2 Các khái niệm cơ bản
Ví dụ: Tập 26 chữ Roman alphabet, Tập ∑ ={0,1}, …
Ví dụ ‘abc ‘; ‘0101110’ ; … Chuỗi rỗng (không chứa ký tự nào trong Alphabet). (ký hiệu ԑ , |ԑ| = 0).
2.3 Văn Phạm – Grammar : G = { N, Σ, P, S}2.4 Giải thuật phân tích cú pháp EarleyEarley biểu diễn luật P thông qua dấu chấm “•”. Dấu chấm “•” là một siêu ký hiệu (metasymbol) không thuộc về N hay Σ. Vị trí dấu thay đổi theo trạng thái đang xét. Ví dụ một luật sản sinh P ở trạng thái S(j) : (A → α • β, i). 2.4.1 Giải thuật:
– S(0) được khởi tạo chứa ROOT → • S. – Nếu cuối cùng ta có luật (ROOT → S•, 0) thì có ta đã phân tích thành công.
2.4.2 Ví dụ:Phân tích câu “tôi ăn quả cam.” Cho tập luật P:
Với: Non-terminal: S, NP, VP, AP. Terminal: P, N, V, A, R.
Áp dụng giải thuật Earley ta được bảng
Giải thích:
Nếu trong quá trình xét ta gặp non-terminal thì liệt kê tại cùng bảng và duyệt dựa vào đó cho đến khi dấu chấm • ở phía cuối suy diễn và độ dài câu tương ứng với các phần tử đã xét thành công thì kết thúc. Kết quả được cây suy dẫn: Ví dụ về cây suy dẫn 3. Xử lý tiếng ViệtĐối với xử lý ngôn ngữ khái niệm “Nhập nhằng” là hiện tượng khi câu hoặc từ có nhiều nghĩa dẫn tới việc một câu có thể có nhiều cây suy dẫn. Với tiếng Việt – loại ngôn ngữ đơn lập, nhập nhằng còn xảy ra khi ta có hệ thống từ ghép, từ láy, … Ví dụ:
Trong phân tích câu ‘hổ mang bò’, ta được hai cây suy dẫn: Ví dụ nhập nhằng với kết quả nhiều cây suy dẫn Tiếng Anh và tiếng Việt
có nhiều điểm khác biệt (do loại hình ngôn ngữ, do nền văn hoá,…). Cái bài toán giải quyết vấn đề nhập nhằng: Tiền xử lý (Pre-Processing), Phân tích hình thái (Morphology), Phân đoạn từ (Word Segmentation), Phân tích ngữ pháp (Parser), Gán nhãn ngữ nghĩa (Semantics), …. 4. Các ứng dụng xử lý ngôn ngữ tự nhiênHiện này các ứng dụng tiêu biểu như sửa lỗi chính tả, lỗi cú pháp; dịch tự động; phát hiện vi phạm bản quyền, spam ; tóm tắt rút trích nội dung văn bản, … đều sử dụng công nghệ Natural Language Processing – NLP. Các ứng dụng xử lý ngôn ngữ tự nhiên 5. Lời kếtNgôn ngữ là đúc kết trí tuệ của nhân loại. Không chỉ đơn giản là một công cụ để lưu trữ, giao tiếp, truyền đạt tri thức… ngôn ngữ của một dân tộc còn chứa đựng một nền văn hóa, một quá trình lịch sử của dân tộc đó. Gần đây, có xảy ra việc đề xuất cải cách tiếng Việt của PGS.TS Bùi Hiền bị cộng đồng phản đối mạnh mẽ, bởi lẽ phần nào chữ viết cũng là một bộ phận của tiếng Việt và chúng cũng có ý nghĩa mang trong mình nền văn hóa dân tộc. Ngôn ngữ trưởng thành gắn liền với quá trình phát triển của một dân tộc nên đề xuất cải cách đột ngột này nhận được sự phản đổi cũng có thể lý giải được. Nếu tương lai việc xử lý ngôn ngữ tự nhiên được tối ưu tối đa thì công nghệ trí tuệ nhân tạo – AI sẽ có một bước tiến to lớn trong việc mô phỏng trí tuệ nhân loại. Ở đó, máy móc, robot, … sẽ hiểu và giao tiếp được với con người bằng ngôn ngữ tự nhiên. Và vì hiểu được tư duy của loài động vật bậc cao như chúng ta do đó khả năng hiểu tư duy các loài động vật bậc thấp hơn là đều có thể. Điều này sẽ giúp rút ngắn khoảng cách, rào cản ngôn ngữ của các cộng đồng trên thế giới. 6. Nguồn tham khảo
|