Mọi người đều đồng ý rằng việc triển khai trí tuệ nhân tạo (AI) sẽ rất quan trọng đối với khả năng cạnh tranh của doanh nghiệp trong tương lai. Nhưng chính xác nó trông như thế nào? Mặc dù có rất nhiều ví dụ về AI để xử lý và phân loại hình ảnh, nhưng không phải doanh nghiệp nào cũng sẽ sử dụng hình ảnh hoặc video làm cốt lõi cho các nỗ lực AI của họ. Đối với một số người, AI giúp cải thiện trải nghiệm của khách hàng thông qua giọng nói có thể là chìa khóa để mở ra giá trị.
Xử lý ngôn ngữ tự nhiên, hay NLP, là một lĩnh vực nghiên cứu trong cộng đồng AI nhằm tìm ra những cách sử dụng máy tính hiệu quả để dịch ngôn ngữ, chuyển đổi giọng nói thành văn bản và ngược lại, đồng thời tạo ra các tác nhân đàm thoại giống con người để giúp khách hàng giải quyết các vấn đề , câu hỏi và mối quan tâm. Lĩnh vực này đã được chuyển đổi nhờ chuyển từ phương pháp học máy thống kê sang sử dụng mạng thần kinh và học sâu, giúp xây dựng các hệ thống tự động có thể tương tác với khách hàng hoặc nhân viên một cách tự nhiên hơn bao giờ hết.
Vì vậy, làm thế nào để triển khai NLP có thể biến đổi doanh nghiệp của bạn? Tôi sẽ nói ngắn gọn về những tiến bộ trong dịch thuật ngôn ngữ, chuyển đổi giọng nói thành văn bản và các tác nhân đàm thoại có thể được liên kết với nhau để xây dựng các hệ thống hỗ trợ hoàn toàn tự động, có thể lắng nghe khách hàng và có thể phản hồi như thể một nhân viên hỗ trợ đang ngồi ở đầu dây bên kia của điện thoại.
Dịch máy thần kinh
Dịch máy thần kinh, hay NMT, là kỹ thuật mới nhất để dịch cơ học ngôn ngữ của con người. Trong khi các phương pháp trước đây sử dụng các mối quan hệ thống kê được thiết lập giữa các từ phổ biến, NMT hoàn toàn dựa vào các câu ví dụ được viết bằng cả ngôn ngữ nguồn và ngôn ngữ đích. Cách tiếp cận này, sử dụng một số tiến bộ gần đây nhất trong nghiên cứu kiến trúc mạng thần kinh, đã có thể vượt trội so với các mô hình thống kê trước đó đối với một loạt các cặp dịch ngôn ngữ khác nhau. Đào tạo các loại mạng này đòi hỏi sức mạnh tính toán đáng kể. Một máy tính xách tay có thể đào tạo một mô hình dịch thuật chất lượng cao trong một đến hai tháng. Đúng vậy: THÁNG! Đó là thời gian vĩnh cửu để chờ đợi một thứ gì đó có thể sẵn sàng hoặc chưa sẵn sàng để triển khai trong sản xuất, đây là lần duy nhất một mô hình máy học có thể tạo ra giá trị cho doanh nghiệp của bạn.
Rất may, phần cứng phù hợp, cùng với các cải tiến về phần mềm và thuật toán, có thể giảm thời gian này xuống giá trị theo cấp độ lớn. Nhóm Kỹ thuật AI của Dell EMC, một phần của Dell EMC HPC và Phòng thí nghiệm đổi mới AI , đã làm việc với các đối tác từ Uber, Amazon và Intel để thực hiện những cải tiến này. Chúng tôi đã giảm thời gian đào tạo các loại mô hình này từ hàng tháng trên máy trạm xuống hàng giờ trong trung tâm dữ liệu. Điều này có nghĩa là các nhóm phần mềm của công ty có khả năng sẽ vận hành một mô hình học máy vào ngày mai, thay vì vào quý tới.
Hình 1: Những cải tiến gần đây trong đào tạo song song các mô hình dịch thuật, từ các nhóm như của chúng tôi tại Dell EMC, đã cải thiện đáng kể thời gian để đánh giá.
Và việc cải thiện thời gian đưa ra giải pháp có nghĩa là nhóm khoa học dữ liệu của bạn có nhiều tiềm năng hơn để khám phá những cách thức mới nhằm làm cho các mô hình này trở nên chính xác hơn. Hoặc, có lẽ, đào tạo nhanh hơn thậm chí có thể cho họ thời gian để đào tạo các mô hình cho nhiều cặp ngôn ngữ. Nếu bạn là một doanh nghiệp toàn cầu, hãy tưởng tượng giá trị của việc có các mô hình dịch thuật chấp nhận ngôn ngữ từ bất kỳ khách hàng nào của bạn, sau đó dịch ngôn ngữ đó sang một ngôn ngữ duy nhất cho nhóm dịch vụ khách hàng của bạn.
Sau đó, hãy tưởng tượng có các mô hình tương ứng cần thiết để dịch lại thông tin sang bất kỳ ngôn ngữ nào mà khách hàng của bạn tình cờ nói. Các mô hình này có thể cho phép bạn tạo trình dịch chung của riêng mình, sẵn sàng giúp bạn cải thiện trải nghiệm hỗ trợ khách hàng đồng thời hợp lý hóa cấu trúc hỗ trợ của bạn. Điều đó sẽ không thể thực hiện được nếu các nhà khoa học dữ liệu của bạn phải mất hàng tuần hoặc hàng tháng để xây dựng một mô hình dịch thuật duy nhất. Chỉ bằng cách tận dụng điện toán ở quy mô trung tâm dữ liệu, cùng với phần mềm được tối ưu hóa cao, một doanh nghiệp mới có thể tạo ra sự chuyển đổi đáng kể như vậy.
Giọng nói thành văn bản và văn bản thành giọng nói
Nếu bạn đã từng sử dụng Amazon Alexa, Google Assistant hoặc Microsoft Cortana, thì bạn sẽ thấy quen thuộc với các mô hình có thể chuyển đổi giọng nói của bạn thành văn bản và các mô hình tương ứng chuyển đổi văn bản thành giọng nói của trợ lý. Cùng nhau, họ tạo ra một trong những biểu hiện mới nhất của trí tuệ nhân tạo tiên tiến nhất. Giống như tất cả những gì chúng ta tưởng tượng về tương lai khi chúng ta xem các tập phim Star Trek: The Next Generation , những hệ thống phản hồi bằng giọng nói này khiến chúng ta cảm thấy như chúng ta có thể làm cho các thiết bị thông minh, ô tô và thậm chí cả nhà của chúng ta đáp ứng mọi mệnh lệnh của chúng ta. Và, mặc dù họ vẫn còn một số chỗ cần cải thiện, nhưng không ai có thể phủ nhận rằng khả năng hệ thống máy tính phản hồi giọng nói của bạn, sử dụng một tiện ích có giá dưới 100 đô la, là một sự chuyển đổi.
Mặc dù các mẫu giọng nói của Google và Amazon rất ấn tượng nhưng chúng cũng thuộc sở hữu độc quyền. Không phải tất cả các doanh nghiệp đều sẵn sàng hoặc có thể tận dụng các mô hình giọng nói “AI như một dịch vụ” này. Có lẽ bạn có các yêu cầu theo quy định yêu cầu dữ liệu của bạn được giữ ở chế độ riêng tư hoặc đơn giản là bạn không muốn cho nhà cung cấp dịch vụ biết chính xác những gì khách hàng đang hỏi bạn hoặc phản hồi của bạn với khách hàng sẽ như thế nào. Đó là lúc bạn nên tạo các mẫu giọng nói của riêng mình.
May mắn thay, chúng tôi biết các kỹ thuật tiên tiến nhất hiện nay để sản xuất các loại mô hình này. Chúng được gọi là WaveNets và chúng là một loại mạng nơ-ron tổng quát cung cấp kết quả đầu ra trở lại mạng nơ-ron để tạo ra một mẫu sóng tương ứng với giọng nói. Giống như sự lan truyền của một làn sóng, các mạng này được xây dựng lặp đi lặp lại, chảy từ bên này sang bên kia, cho đến khi tạo ra một dạng sóng hoàn chỉnh của giọng nói mục tiêu.
Hình 2: WaveNets cho phép chuyển đổi dữ liệu giọng nói thành văn bản tương ứng và ngược lại.
Khả năng gần như kỳ diệu của những kỹ thuật này để tạo ra giọng nói của con người, chỉ sử dụng một số đoạn âm thanh từ một diễn viên lồng tiếng, thật phi thường. Trên thực tế, không khó để các mô hình được tạo bằng kỹ thuật này tạo ra các dạng sóng có thể mô phỏng bất kỳ giọng nói nào bằng bất kỳ ngôn ngữ nào, miễn là có một mô hình phát âm hiệu quả.
đại lý đàm thoại
Hầu hết chúng ta đều quen thuộc với các tác nhân đàm thoại hoặc chatbot. Bạn đã bao giờ bắt đầu yêu cầu hỗ trợ khách hàng trên một trang web chưa? Bạn đã bao giờ gọi cho ngân hàng của mình và được chào đón bởi một hệ thống tự động đặt câu hỏi về lý do bạn gọi chưa? Còn việc sử dụng Trợ lý Google hoặc Amazon Alexa để giao tiếp với lịch của bạn thì sao? Mỗi lần, bạn đã tương tác với một chatbot. Chúng phổ biến trong xã hội hiện đại.
Đây là một trường hợp điển hình: Trong vòng một năm kể từ khi Facebook mở nền tảng Messenger cho các tác nhân đàm thoại, họ đã triển khai hơn 100.000 chatbot khác nhau trên nền tảng này.1 Và chúng ta chỉ có thể mong đợi nhiều hơn như vậy trong những tháng tới. Gartner dự đoán rằng đến năm 2020, 50% truy vấn phân tích sẽ được tạo thông qua tìm kiếm, xử lý ngôn ngữ tự nhiên hoặc giọng nói hoặc sẽ được tạo tự động. 2
Kết hợp tất cả lại với nhau: một tổng đài hỗ trợ toàn cầu hoàn toàn tự động
Bây giờ, hãy kết hợp tất cả những tiến bộ này lại với nhau để thay đổi dịch vụ hỗ trợ khách hàng trên toàn thế giới. Đối với một doanh nghiệp toàn cầu hoặc thậm chí là một công ty nhỏ có nguyện vọng cung cấp sản phẩm của mình trên toàn cầu, việc tạo chatbot bằng hàng tá ngôn ngữ sẽ không thực tế hoặc tiết kiệm chi phí. Việc phát triển và duy trì tất cả các chatbot riêng biệt đó sẽ đòi hỏi các khoản đầu tư tài chính lớn và nguồn lực của các nhóm tận tâm trên khắp thế giới.
Với các công nghệ mới và đang nổi lên ngày nay, có một cách tốt hơn để tiến lên phía trước. Cách đó là tạo và duy trì một chatbot duy nhất bằng một ngôn ngữ duy nhất và thêm khả năng dịch thuật do AI điều khiển ở rìa. Trong thế giới mới này, khi một khách hàng gọi đến bộ phận hỗ trợ để đặt câu hỏi, họ có thể đặt câu hỏi bằng bất kỳ ngôn ngữ được hỗ trợ nào. Ở mặt sau, hệ thống hỗ trợ tự động dịch các từ của khách hàng và đưa ra phản hồi. Sau đó, hệ thống sẽ dịch phản hồi trở lại ngôn ngữ của khách hàng và sử dụng khả năng chuyển văn bản thành giọng nói để trả lời khách hàng.
Hình 3: Chatbot hỗ trợ toàn cầu tiềm năng, nhận yêu cầu dịch từ khách hàng bằng nhiều ngôn ngữ
Những lợi ích ở đây là rõ ràng. Với mức độ tự động hóa này, một trung tâm hỗ trợ toàn cầu có thể xử lý nhiều yêu cầu hơn so với khả năng của các hệ thống ngày nay và một công ty có thể tự động hóa nhiều chức năng hỗ trợ hơn mà không cần xây dựng và duy trì chatbot bằng nhiều ngôn ngữ. Và thay vì có đội ngũ đại lý hỗ trợ khách hàng trên khắp thế giới, một công ty có thể duy trì một trung tâm hỗ trợ toàn cầu duy nhất với đội quân máy chủ trên khắp thế giới.
Suy nghĩ vượt ra ngoài hình ảnh
Một điểm đáng chú ý ở đây là các trường hợp sử dụng tiềm năng cho AI vượt xa sự tập trung ngày nay vào các ứng dụng dựa trên hình ảnh, chẳng hạn như xác định khối u trong quá trình quét X quang hoặc phân loại hình ảnh trên trang web truyền thông xã hội. Mặc dù các trường hợp sử dụng dựa trên hình ảnh rất quan trọng đối với nhiều tổ chức, nhưng các ứng dụng NLP có thể có giá trị hơn nhiều đối với các doanh nghiệp cần tương tác với khách hàng bằng nhiều ngôn ngữ.
Chatbot hiện đang phổ biến, nhưng chúng bị ràng buộc với một ngôn ngữ duy nhất, vì vậy một công ty toàn cầu muốn sử dụng chatbot phải vật lộn với những thách thức trong việc phát triển và duy trì nhiều chatbot khác nhau bằng nhiều ngôn ngữ khác nhau. Một trung tâm hỗ trợ toàn cầu hoàn toàn tự động với một chatbot duy nhất và dịch thuật ở rìa sẽ vượt qua những thách thức này.
Một điểm quan trọng khác là các hệ thống NLP cho phép khách hàng giao tiếp với các công ty bằng ngôn ngữ nói, thay vì trò chuyện bằng văn bản trên bàn phím. Với các công nghệ ngày nay, các doanh nghiệp có thể giao tiếp với khách hàng bằng ngôn ngữ đàm thoại mà không cần duy trì đội ngũ chuyên gia hỗ trợ địa phương và chatbot được viết bằng nhiều ngôn ngữ khác nhau.
Bài viết mới cập nhật
Tăng tốc đổi mới và tính bền vững của AI: Dell PowerScale F910 mật độ cao, hiệu suất cao
Tăng tốc đổi mới và tính bền vững của AI: Dell ...
Khả năng hiển thị là điều bắt buộc tuyệt đối đối với an ninh
Tìm hiểu cách Dell và Absolute sử dụng dữ liệu từ ...
Dell Reconnect kỷ niệm 20 năm tái chế
Hãy kỷ niệm 20 năm Dell Reconnect và tái chế các ...
Nhật ký của một Kỹ sư Hệ thống VFX—Phần 1: Thống kê isi
Chào mừng bạn đến với bài đăng đầu tiên trong loạt ...