Google đã xây dựng một công nghệ mới để cung cấp năng lượng cho tìm kiếm bằng giọng nói của mình, công ty cho biết sẽ làm cho nó nhanh hơn và chính xác hơn. Công nghệ mới sử dụng Phân loại tạm thời kết nối (CTC) và các kỹ thuật đào tạo phân biệt đối xử theo trình tự. Vào năm 2012, Google đã chuyển từ Mô hình hỗn hợp Gaussian (GMM) sang Mạng lưới thần kinh sâu (DNN), cho phép công ty đánh giá tốt hơn âm thanh mà người dùng đang tạo ra tại thời điểm đó và tăng độ chính xác nhận dạng giọng nói.
Các mô hình âm thanh cải tiến của chúng tôi dựa trên Mạng thần kinh tái phát (RNN). Các RNN có các vòng phản hồi trong cấu trúc liên kết của chúng, cho phép chúng mô hình hóa các phụ thuộc theo thời gian: khi người dùng nói / u / trong ví dụ trước, bộ máy phát âm của chúng phát ra từ âm / j / và từ âm / m / trước. Hãy thử nói to - "bảo tàng" - nó chảy rất tự nhiên trong một hơi thở và RNN có thể nắm bắt được điều đó. Loại RNN được sử dụng ở đây là RNN Bộ nhớ ngắn hạn (LSTM) dài, thông qua các ô nhớ và cơ chế kết nối tinh vi, ghi nhớ thông tin tốt hơn các RNN khác. Việc áp dụng các mô hình như vậy đã cải thiện đáng kể chất lượng của bộ nhận dạng của chúng tôi.
Sự thay đổi trong công nghệ đã được Google thực hiện và hiện đang được sử dụng để tăng sức mạnh tìm kiếm bằng giọng nói trong ứng dụng Google trên cả iOS và Android, cũng như chính tả trên các thiết bị Android.
Nguồn: Blog nghiên cứu của Google