OpenFPT Speech: Ứng dụng đọc và nghe tiếng Việt tự động

Đây là một sản phẩm công nghệ được gắn mác “xịn sò” dành cho các Cóc đam mê về công nghệ, nhất là các Cóc quan tâm đến lĩnh vực trí tuệ nhận tạo và nhận diện giọng nói. Cùng khám phá xem sản phẩm này có gì hot nhé.

Nảy sinh ý tưởng từ nhu cầu thực tiễn

Như chúng ta đều biết, việc phát triển một hệ thống đọc và nghe giọng nói con người là một bài toán tư duy sáng tạo cực kỳ khó, đòi hỏi sự nghiên cứu một cách nghiêm túc trong một thời gian dài. Ngày nay với sự phát triển của công nghệ và những thuật toán thông minh, một số ít hãng phần mềm lớn đã thành công trong việc phát triện hệ thống nhận diện giọng nói con người. Tuy nhiên một số công nghệ tiên tiến như vậy vẫn chưa hỗ trợ một cách toàn diện ngôn ngữ Tiếng Việt.

Description: Image result for microsoft listen vietnamese

Hiểu ngôn ngữ là một vấn đề khó khăn của cả người và máy tính.

Tuy là một bài toán khó, việc phát triển một hệ thống có thể đọc và nghe giọng nói mang đến rất nhiều triển vọng về ứng dụng thực tế trong cuộc sống. Hãy tưởng tượng, các bạn bước vào nhà của mình thay vì chạm tay vào công tắc đèn bạn chỉ cần ra lệnh cho ngôi nhà “Hãy bật đèn lên” thế là các hệ thống điện trong nhà sẽ bật đèn cho bạn. Những hệ thống có thể hiểu và giao tiếp với con người sẽ làm cho máy móc hoạt động tự nhiên và hài hòa với con người hơn. Những hệ thống như thế hứa hẹn rất nhiều các ứng dụng thông minh tương lai, đặc biệt là các hệ thống trợ lý ảo hoặc giao tiếp bằng giọng nói.

Chính vì tiềm năng ứng dụng như thế, những kĩ sư của FPT.AI  đã nghiên cứu phát triển một hệ thống để đọc và nghe giọng nói bằng Tiếng Việt, hỗ trợ gần như đẩy đủ những gì mà ngôn ngữ Tiếng Việt cần. Đó là hệ thống OpenFPT Speech, gồm hai thành phần: tổng hợp giọng nói (Text to Speech) và nhận diện giọng nói (Speech to Text). Hai thành phần này tạo nên một ứng dụng hoàn chỉnh, cho phép tự động nhận diện và đọc giọng nói Tiếng Việt. Chúng ta cùng phân tích tìm hiểu kĩ về ứng dụng đột phá này của FPT.AI nhé!

Giao diện chính trang demo nhận diện giọng nói

OpenFPT Speech đem đến điều gì cho người dùng?

Điểm nổi bật đầu tiên của thành phần Text to Speech, trong OpenFPT Speech, là chất lượng giọng đọc. Vì dự án này nhằm phát triển hệ thống nghe-đọc chuyên cho Tiếng Việt nên chất lượng đọc thuần Việt hơn “chịogle” rất nhiều. Các bạn chắc cũng từng một lần sử dụngogle translate để nghe giọng đọc Tiếng Việt củaogle, và nó thực sự rất tệ và không tự nhiên. Sản phẩm của FPT.AI không những chất lượng giọng đọc tốt hơn mà còn hỗ trợ rất nhiều dạng giọng nói ở các vùng miền khác nhau như Bắc – Trung – Nam. Cứ mỗi vùng miền như thế lại có hai giọng nam nữ khác biệt nhau. Tất cả những giọng nói này đều được xây dựng từ giọng nói của người thật. Nếu bạn có nhu cầu tạo ra một giọng nói mới thì các kĩ sư của FPT.AI cũng có thể giúp bạn luôn.

Chất lượng của tính năng Speech to Text, trong OpenFPT, nghe giọng nói Tiếng Việt và chuyển qua dạng văn bản, cũng không hề kém cạnhogle. Đấy là một điều thực sự ấn tượng, vì đội ngũ của FPT.AI đến từ Việt Nam có thể làm một sản phẩm chất lượng không hề kém cạnh gì những sản phẩm củaogle – gã khổng lồ trong giới công nghệ. Với máy tính, việc hiểu được giọng nói con người thực sự là một bước tiến vượt bậc, và người Việt Nam đã làm được điều đó: phát triển những sản phẩm dành riêng cho người Việt.

Các bạn muốn dùng thử hai ứng dụng này có thể truy cập vào trang web http://speech.openfpt.vn/ để trải nghiệm với giao diện đơn giản và những tính năng cơ bản như đọc và nghe. Còn những bạn muốn phát triển các sản phẩm phần mềm muốn ứng dụng công nghệ này vào sản phẩm của mình thì làm sao? Rất đơn giản thôi, đội ngũ kĩ sư FPT.AI đã phát triện một API giúp bạn có thể thao tác hệ hệ thống này. Các bạn chỉ cần gửi lệnh và dữ liệu lên máy chủ, ngày lập tức kết quả sẽ được trả về một cách nhanh chóng. Thông tin về API các bạn có thể truy cập tại http://docs.openfpt.vn/#speech-recognition. Một điều tuyệt vời nữa đó là OpenFPT Speech là hoàn toàn miễn phí cho những bạn muốn tìm hiểu về công nghệ. Nếu các bạn muốn dùng nhiều hơn, cho mục đích thương mại chẳng hạn, các bạn cũng chỉ phải trả tiền theo lượng dữ liệu xử lý.

.

Tài liệu hướng dẫn sử dụng API nhận diện giọng nói.

Còn các bạn nghĩ sao về sản phẩm này? Hãy comment ý kiến của mình cho Cóc đọc và Những người bạn nhé. Nếu có ý tưởng sáng tạo nào mới thì gửi bài viết về ngay cho Ban biên tập qua địa chỉ mail: Cocdoc@fe.edu.vn để lĩnh nhuận bút cực khủng nhé.

Nguyễn Anh Tuấn