SPEECH TO TEXT – XU HƯỚNG PHÁT TRIỂN TẤT YẾU CỦA CÔNG NGHỆ HIỆN ĐẠI

Công nghệ nhận diện giọng nói mở ra kỷ nguyên mới cho việc tương tác giữa con người với thiết bị thông minh. Thay vì phải nhập liệu thủ công như trước đây, người dùng có thể chuyển đổi định dạng âm thanh thành văn bản một cách thuận tiện và nhanh chóng chỉ trong 1 click.

Công nghệ Speech to Text là gì? 

Speech to Text là công nghệ nhận dạng tiếng nói để tạo ra chuỗi văn bản tương ứng. Tiếng nói sẽ được ghi nhận qua microphone và lưu trữ trong máy tính dưới dạng các tín hiệu số. Để máy tính có thể nhận dạng dữ liệu tiếng nói, rất nhiều kỹ thuật xử lý ngôn ngữ tự nhiên được sử dụng. Khoảng 10 năm trở lại đây, cùng với sự phát triển của trí tuệ nhân tạo AI, việc nhận dạng tiếng nói có thể đạt được độ chính xác rất cao với đa dạng ngôn ngữ, giúp các doanh nghiệp tối ưu hóa chu trình, giảm thiểu chi phí và gia tăng lợi nhuận.

CMC Speech to Text

CMC Speech To Text khai thác triệt để công nghệ học sâu (deep learning). Ngoài ra, giải pháp sử dụng những công nghệ tiên tiến nhất về tổng hợp giọng nói: chuyển hoá văn bản thuần, tách giọng đọc cho file âm thanh nhiều giọng nói và chuẩn hóa văn bản đầu ra dưới dạng người đọc. Đặc biệt, nguồn dữ liệu giọng nói được chọn lọc từ hàng chục, hàng trăm giờ dữ liệu với đa dạng các chủ đề: Đọc truyện, tin tức, thể thao, review, ô tô, kinh tế, blog… giúp tốc độ xử lý giọng nói nhanh hơn và đáp ứng lượng lớn thông tin chuyển đổi.

Ưu điểm của giải pháp CMC Speech to Text

  • Nhận dạng âm thanh chính xác lên tới 95%

Định dạng văn bản dựa trên ngữ cảnh cụ thể, nhận dạng chính xác cao về ngữ pháp, chính tả, tự động thêm dấu câu, viết hoa danh từ riêng và chuyển đổi ký tự đặc biệt. 

  • Hỗ trợ âm thanh theo thời gian thực hoặc được ghi âm trước

Chuyển đổi âm thanh trực tiếp từ micro hoặc các tệp âm thanh có sẵn.

  • Định dạng âm thanh file lớn

Hỗ trợ đa dạng các file âm thanh: mp3, ogg, m4a, wav… đồng thời cho phép xử lý các file âm thanh có kích thước lớn bất đồng bộ. Kiểm tra trạng thái theo thời gian thực.

  • Nhận dạng đa dạng giọng nói, vùng miền, độ tuổi.
  • Tách và phân loại các giọng nói trong môi trường giao tiếp nhiều người với độ chính xác >90%

Có khả năng loại bỏ nhiễu trong môi trường nhiều tạp âm, đồng thời phân loại và nhận diện các giọng nói khác nhau. Kết quả đầu ra có thể xác định thời điểm nói và nội dung cuộc hội thoại. Thuận tiện khi phân tích file âm thanh telesale, voice note cuộc họp.

  • Cấu hình linh hoạt và dễ dàng tích hợp

Hỗ trợ dưới dạng API và streaming audio giúp đáp ứng đa dạng các yêu cầu sử dụng thực tế của khách hàng.

  • Nhẹ và triển khai nhanh chóng, dễ dàng qua API

CMC Speech to Text đang được Viện nghiên cứu ứng dụng CMC triển khai kinh doanh và hợp tác với nhiều đơn vị. Giải pháp sẽ tiếp tục được nâng cấp và cập nhật thêm tính năng mới, giúp các tổ chức, doanh nghiệp tiết kiệm chi phí, nguồn nhân lực và tạo ra những trải nghiệm mới mẻ thu hút khách hàng.