Xử lý ngôn ngữ tự nhiên

 “Ok Google, hôm nay trông tôi có ổn không?”

“Bạn còn tuyệt vời hơn cả một bộ định tuyến mới vừa mới khui hộp.”

“Ôi cảm ơn nhé!”

“Không có gì.” 

Ôi, niềm vui của việc xử lý ngôn ngữ tự nhiên và một trong nhiều cuộc trò chuyện ngắn mà một số người trong chúng ta có với ngôi nhà thông minh hoặc các thiết bị hỗ trợ cá nhân của mình.

Trường con AI của Xử lý ngôn ngữ tự nhiên (NLP) đào tạo máy tính hiểu ngôn ngữ của con người để máy tính có thể giao tiếp bằng cùng một ngôn ngữ. Các nghiên cứu liên ngành về khoa học máy tính lý thuyết, nguyên tắc ngôn ngữ học và trí tuệ nhân tạo (AI) tập trung vào ngôn ngữ tự nhiên của con người và tương tác giữa con người với máy móc, đã mang lại cái mà chúng ta biết ngày nay là NLP. Ngôn ngữ học cung cấp công thức cho ngôn ngữ như ngữ nghĩa, cú pháp, từ vựng, ngữ pháp và cụm từ, trong khi khoa học máy tính và máy/học sâu biến các công thức ngôn ngữ này thành chính thuật toán NLP.

Các ví dụ phổ biến về NLP được sử dụng ngày nay bao gồm:

  • Phát hiện thư rác hoặc phân loại tài liệu
  • Chatbot trang web
  • Hệ thống phản hồi bằng giọng nói tự động (IVR/AVR) khi gọi hỗ trợ
  • Các trường hợp sử dụng hỗ trợ và tiếp thị phân tích văn bản bằng văn bản trên Internet, trong phiếu hỗ trợ, trên nền tảng truyền thông xã hội, v.v. để xác định xem nội dung có chứa cảm xúc tích cực hay tiêu cực về sản phẩm hoặc dịch vụ hay không.
  • Dịch theo thời gian thực từ ngôn ngữ này sang ngôn ngữ khác, chẳng hạn như trong Google Dịch.
  • Tìm kiếm được thực hiện đơn giản như với Google Tìm kiếm
  • Kiểm tra chính tả theo yêu cầu như trong Microsoft Word
  • Dự đoán từ tiếp theo theo yêu cầu được tìm thấy trong các ứng dụng nhắn tin như trên điện thoại di động.
  • Trong các cuộc thử nghiệm thuốc nơi văn bản được quét để xác định sự chồng chéo về sở hữu trí tuệ trong quá trình phát triển thuốc.
  • Các đại lý hỗ trợ cá nhân như Siri, Alexa, Cortana và Google Assistant 

Trong trường hợp trợ lý cá nhân làm ví dụ, NLP đang hoạt động trông như sau:

  1. Bạn hỏi Siri: ‘Thời tiết hôm nay thế nào?
  2. Siri thu thập câu hỏi của bạn ở định dạng âm thanh và chuyển nó thành văn bản, được xử lý để hiểu.
  3. Dựa trên sự hiểu biết đó, phản hồi sẽ được tạo, chuyển đổi thành âm thanh và sau đó được gửi đến bạn.  

Về mặt thuật toán, NLP bắt đầu bằng việc hiểu cú pháp của văn bản để rút ra ý nghĩa ngữ pháp từ việc sắp xếp các từ; một nhiệm vụ dễ dàng hơn nhiều vì hầu hết ngôn ngữ đều có các quy tắc ngữ pháp được xác định rõ ràng có thể được sử dụng để huấn luyện các thuật toán. Khi hiểu được cú pháp, thuật toán sẽ suy ra ý nghĩa, sắc thái và ngữ nghĩa, đây là một nhiệm vụ khó khăn hơn vì ngôn ngữ không phải là một môn khoa học chính xác. Điều tương tự có thể được nói theo nhiều cách và vẫn có cùng ý nghĩa trong và trên nhiều ngôn ngữ.

Công cụ và khuôn khổ

Các công cụ và khung hỗ trợ triển khai các ứng dụng NLP, giống như những ứng dụng đã đề cập trước đó, phải có khả năng lấy được thông tin chất lượng cao từ văn bản được phân tích thông qua Khai thác văn bản . Các thành phần của khai thác văn bản cho phép NLP thực hiện các hoạt động sau:

  • Loại bỏ tiếng ồn -Trích xuất dữ liệu hữu ích
  • Tokenization  Nhận dạng và phân đoạn chính của dữ liệu hữu ích
  • Chuẩn hóa  Dịch văn bản thành các giá trị số tương đương phù hợp để máy tính hiểu được
  • Phân loại mẫu —Khám phá mức độ liên quan trong các phần dữ liệu được phân đoạn và phân loại chúng

Các khung NLP phổ biến với các khả năng được mô tả ở trên được liệt kê bên dưới. Sự phức tạp của các khuôn khổ này nằm ngoài phạm vi của blog này; đi đến các trang web sau để tìm hiểu thêm.

Phần kết luận

Chúng tôi biết NLP đến từ đâu và một số ứng dụng của nó ngày nay, nhưng nó sẽ đi đến đâu và nó đã sẵn sàng để áp dụng rộng rãi hơn chưa? Những gì chúng tôi hiểu về hầu hết các thuật toán AI hiện có là chúng phù hợp cho việc triển khai trong phạm vi hẹp, nơi chúng thực hiện một nhiệm vụ rất cụ thể. Các thuật toán như vậy được coi là Trí tuệ thu hẹp nhân tạo chứ không phải Trí tuệ nhân tạo chung; trong đó điều sau ngụ ý rằng họ là chuyên gia về nhiều thứ. Hầu hết AI vẫn chưa hoàn toàn nắm bắt được bối cảnh và những gì bao trùm thời gian, không gian và quan hệ nhân quả như cách con người làm. NLP cũng không ngoại lệ.

Ví dụ: tìm kiếm trên Internet trả về các kết quả không liên quan không trả lời câu hỏi của chúng tôi vì NLP rất xuất sắc trong việc phân tích lượng lớn dữ liệu để tìm ra những điểm tương đồng về nội dung. Sau đó, có sắc thái của ngôn ngữ nói được đề cập trước đó và sự khác biệt trong quy tắc ngôn ngữ giữa các ngôn ngữ và thậm chí cả các lĩnh vực. Những yếu tố này làm cho việc đào tạo để đạt được độ chính xác hoàn toàn trở nên khó khăn. Một số cách để giải quyết vấn đề này có thể là sử dụng các tập dữ liệu lớn hơn, nhiều cơ sở hạ tầng hơn để đào tạo và có thể là đào tạo dựa trên mô hình thay vì sử dụng mạng lưới thần kinh. Tuy nhiên, những điều này đi kèm với những thách thức riêng của họ.

Tại Dell, chúng tôi đã triển khai thành công NLP trong các ứng dụng trung tâm hỗ trợ kỹ thuật của mình, nơi các nhân viên viết mô tả nhanh về các vấn đề của khách hàng và ứng dụng trả về dự đoán cho bước khắc phục sự cố tốt nhất tiếp theo. 3.000 đại lý sử dụng công cụ này để phục vụ hơn 10 nghìn khách hàng mỗi ngày.

Chúng tôi sử dụng các kỹ thuật NLP trên văn bản đầu vào để tạo định dạng mà mô hình AI có thể sử dụng và đã sử dụng phân cụm K-láng giềng gần nhất (KNN) và hồi quy logistic để dự đoán. API microservice cũng được sử dụng để chuyển thông tin đến các đại lý. Để giải quyết những lo ngại xung quanh văn bản làm đầu vào, chúng tôi đã làm việc với các chuyên gia về chủ đề của mình từ bộ phận hỗ trợ kỹ thuật để xác định biệt ngữ dành riêng cho Dell mà chúng tôi đã sử dụng để phát triển thư viện từ đồng nghĩa trong đó các mục nhập khác nhau có thể có cùng một nghĩa. Điều này giúp ích rất nhiều cho việc dọn dẹp dữ liệu, cung cấp dữ liệu để huấn luyện và giúp chúng tôi nhóm các từ tương tự theo ngữ cảnh.  

Đối với vai trò có doanh thu cao (đại lý hỗ trợ), chúng tôi có thể đào tạo các đại lý mới để thành công sớm hơn bằng cách làm cho quá trình giới thiệu của họ trở nên dễ dàng hơn. Khả năng cung cấp thông tin phù hợp của ứng dụng hỗ trợ đã nhanh chóng giảm bớt thời gian dành cho việc duyệt lượng lớn thông tin không liên quan, điều này có thể khiến khách hàng bất mãn và đại lý thất vọng. Chúng tôi nhận thấy thời gian phục vụ khách hàng đã giảm 10%. Giải pháp này giúp các nhóm kỹ thuật của chúng tôi có thể cung cấp các vấn đề mới được phát hiện khi các đại lý báo cáo hoặc tìm kiếm các vấn đề kỹ thuật mới mà chúng tôi chưa quen. Điều này cũng có tác dụng ngược lại để hỗ trợ các đại lý từ kỹ thuật.

Các nhóm nghiên cứu của chúng tôi tại Dell đang tích cực đưa những phát hiện của chúng tôi về bản dịch máy thần kinh vào cộng đồng nguồn mở: một trong những dự án hiện tại của chúng tôi là nghiên cứu về Tổng hợp giọng nói AI, trong đó NLP hoạt động tốt đến mức bạn không thể biết rằng máy tính đang nói!

Để biết thêm thông tin về xếp hạng điểm chuẩn MLPerf của xử lý ngôn ngữ tự nhiên (BERT) cho nền tảng Dell PowerEdge , hãy truy cập các bài đăng blog được liên kết, sau đó liên hệ với Nhóm công nghệ mới nổi của Dell để được trợ giúp về các dự án NLP trong tổ chức của bạn.