isolar.vn

Công nghệ dịch tiếng nói của Việt Nam ở Olympic Luân Đôn 2012

(VEN) - Tại vườn ươm công nghệ cao Hòa Lạc (Hà Nội), nhóm nghiên cứu của Công ty Giải pháp sáng tạo và nghiên cứu tiên tiến iSolar thuộc Viện Công nghệ thông tin, Viện Khoa học và công nghệ Việt Nam đang khẩn trương hoàn thiện phần mềm dịch tiếng nói tự động để kịp thử nghiệm tại Thế vận hội Olympic London 2012 từ 27/7-12/8 tới đây.

Phó Thủ tướng Nguyễn Thiện Nhân thăm nhóm ươm tạo iSolar 

Với công nghệ này, người sử dụng chỉ cần nói vào thiết bị được tích hợp phần mềm, nó sẽ tự động dịch mỗi câu nói tiếng Việt sang một ngôn ngữ khác trong vòng 1-2 giây với độ chính xác khá cao… Phóng viên báo Kinh tế Việt Nam đã có cuộc trao đổi với anh Vũ Tất Thắng, thành viên của nhóm nghiên cứu để tìm hiểu về công nghệ góp phần xóa nhòa ranh giới bất đồng ngôn ngữ này.

Anh có thể chia sẻ về quá trình thai nghén sản phẩm?
Công nghệ dịch tiếng nói cho phép con người dù sử dụng các ngôn ngữ khác nhau vẫn có thể giao tiếp được với nhau. Vì vậy nó là mong ước từ lâu của con người, có ý nghĩa rất lớn cả về mặt khoa học, giao lưu văn hóa, trao đổi thương mại...
Bộ quốc phòng Mỹ phải bỏ ra hàng triệu USD để xây dựng hệ thống dịch tiếng Anh với tiếng Ả rập, nhằm trợ giúp cho các giao tiếp đơn giản của quân lính hay chuyên gia Mỹ với lính Iraq. Tương tự như vậy là dự án C-STAR của liên minh châu Âu, với nỗ lực từ những năm 2001 nhằm xóa bỏ rào cản ngôn ngữ của các nước trong khối.
Ở Việt Nam, thì các vấn đề cơ bản như nhận dạng tiếng nói, tổng hợp tiếng nói tiếng Việt cũng chỉ mới được bắt đầu nghiên cứu từ những năm 2001-2002 ở Viện Công nghệ thông tin, thuộc Viện Khoa học và công nghệ Việt Nam. Theo đà phát triển của công nghệ trên thế giới, việc chúng tôi tiếp tục nghiên cứu phát triển trên nền tảng đã có lên mức hệ thống dịch tiếng nói giữa tiếng Việt và các ngôn ngữ khác (đặc biệt là tiếng Anh) cũng dễ hiểu. Chúng tôi bắt đầu định hướng nghiên cứu này từ những năm 2008, tuy có chậm hơn so với các nước Âu Mỹ nhưng cũng đã nhanh chóng hội nhập được xét về mặt công nghệ cốt lõi.
Dịch tự động hay dịch bằng máy một ngôn ngữ này sang một ngôn ngữ khác là một điều hết sức thú vị. Anh có thể mô tả rõ hơn về cấu tạo cũng như ưu thế của sản phẩm?
Công nghệ dịch tiếng nói của chúng tôi xây dựng dựa trên ba nền tảng công nghệ: (1) nhận dạng tiếng nói (speech-to-text), (2) là dịch sang ngôn ngữ đích (text-to-text), (3) tổng hợp tiếng nói (text-to-speech). Chúng tôi xây dựng các hệ thống này dựa trên các mô hình thống kê, tính toán trên các tập dữ liệu mẫu học khá lớn. Ví dụ, mô hình thống kê cho nhận dạng tiếng nói hiện nay được huấn luyện từ khoảng 100 giờ thu âm của hơn 100 người khác nhau. Mô hình thống kê cho bài toán dịch máy khi huấn luyện là dựa trên hơn 300 nghìn cặp câu song ngữ Anh-Việt chuyên cho lĩnh vực du lịch. Mô hình ngữ âm cho bài toán tổng hợp tiếng nói thì đòi hỏi ít hơn, huấn luyện từ khoảng 2 giờ thu âm của một phát thanh viên.
Công nghệ này (phần mềm) sẽ được tích hợp vào các thiết bị cầm tay chạy hệ điều hành iOS như iPhone, iPad, iPod... cũng như các thiết bị smart-phone chạy hệ điều hành Android. Người sử dụng chỉ cần mở phần mềm ra và nói. Lập tức những âm thanh sẽ được gửi về các máy chủ dịch vụ tương ứng và sau 1 đến 2 giây,phần mềm đó sẽ tự động phát ra âm thanh bằng ngôn ngữ cần dịch.
Vậy tiềm năng ứng dụng của các sản phẩm này ra thực tế thì sao thưa anh?
Hiện nay phần mềm đang ở dạng demo nên chất lượng chưa thật ổn định, nội dung dịch mới chỉ cho biết đại ý. Chúng tôi đang tiếp tục tìm cách nâng cao chất lượng của nó, và hướng đến một sản phẩm mà người dùng có thể sử dụng miễn phí.Vấn đề lớn nhất với chúng tôi hiện nay chính là cần thiết phải có những cơ sở dữ liệu thật lớn, và việc phát triển các cơ sở dữ liệu này sẽ là việc chúng tôi phải làm trong nhiều năm nữa. Nó phải được cập nhật thường xuyên với những dữ liệu của người dùng thực tế.
Chúng tôi đang cùng hợp tác với các nhóm nghiên cứu khác trên thế giới, đặc biệt là Mỹ và Nhật để đưa ra một sản phẩm dịch tiếng nói chung, bởi mỗi ngôn ngữ đều có đặc trưng riêng và đòi hỏi sự nghiên cứu chuyên sâu cho nó, mà khả năng của một người, hay một nhóm nghiên cứu nhỏ thì không thể làm hết. Chúng tôi đang hoàn tất, dự kiến sẽ triển khai hệ thống dịch tiếng nói tự động để phát miễn phí cho các du khách tham dự Olympic London 2012. Hệ thống có thể dịch được từ 18-23 thứ tiếng, theo các cặp đôi như Việt - Anh, Việt - Nhật hoặc Anh - Nhật, Anh - Hàn Quốc… Hệ thống này sẽ hỗ trợ các đối thoại giao tiếp thông thường trong lĩnh vực du lịch, thể thao.
Có rất nhiều tiềm năng để ứng dụng các công nghệ này vào thực tế, ngoài ứng dụng trong ngành du lịchcông nghệ dịch tiếng nói rất gần gũi với các ngành có sử dụng hệ thống tổng đài như viễn thông, điện thoại, ngân hàng... có nhu cầu tương tác bằng tiếng nói với khách hàng. Ở nước ngoài, đã có nhiều hệ thống mà các tổng đài có khả năng tương tác bằng tiếng nói với khách hàng để giải quyết các tình huống đơn giản, trước khi chuyển tới điện thoại viên. Chúng tôi cũng đã phát triển hệ thống speech server – tức là các máy chủ để cung cấp các khả năng này cho hầu hết các loại tổng đài viễn thông hiện nay. Hy vọng là trong tương lai gần, nhu cầu này ở thị trường ViệtNam sẽ phát triển.
Theo anh, quá trình nghiên cứu cần chú trọng điều gì nhất để thành công?
Về mặt nghiên cứu, thì việc cập nhật các kết quả nghiên cứu tiên tiến, tham gia tích cực và đóng góp trực tiếp trong các cộng đồng nghiên cứu cùng lĩnh vực là rất quan trọng. Chẳng hạn, từ khi chúng tôi là thành viên của cộng đồng dịch tự động U-STAR, một cộng đồng nghiên cứu do Viện Nghiên cứu Phát triển Công nghệ cao Nhật Bản (NICT) khởi xướng năm 2008, với sự tham gia ban đầu của 9 nước châu Á và đang tiếp tục mở rộng cho khoảng 20 nước châu Á, thì việc trao đổi chia sẻ nghiên cứu giữa các thành viên đã giúp chất lượng của hệ thống dịch tốt lên rất nhiều./.
Xin cảm ơn anh! Chúc anh và nhóm nghiên cứu sẽ thành công
Quỳnh Nga
Home TIN TỨC Công nghệ dịch tiếng nói của Việt Nam ở Olympic Luân Đôn 2012

Hệ thống CRM

Tổng đài

Hỗ trợ trực tuyến

Available Monday - Friday, 9 AM - 5 PM EST

Giáo dục

Kết nối với iSolar

Xử lý tiếng nói

Giải pháp

Địa chỉ của iSolar

1

Hoa Lac Hi Tech Business Incubator, Ha Noi

Tel: 84 (0)437918026, Mail: info@isolar.vn
2

Room 1504, Tower 671 Hoang Hoa Tham, Ha Noi

Tel: 84 (0)437918026, Mail: info@isolar.vn
3

18 Hoang Quoc Viet, Cau Giay, Ha Noi

Tel: 84 (0)437918026, Mail: info@isolar.vn