2016/04/18 光學傳感器無視噪音，實現精準語音識別 @ 真乄科技業的頂尖投資團隊

VocalZoom技術的應用

圖3 VocalZoom技術的應用

據麥姆斯諮詢報導，VocalZoom是一家以色列初創企業，他們發明了一種光學傳感解決方案，可以在噪雜環境中將人們的語音更精準地轉換為數字信號。這項發明非常適用於緊急狀況下的通訊服務，除了最初面向的車載語音識別應用，還可用於頭戴耳機、智能手機、安保等一切跟語音識別相關的應用。

目前基於語音的人機交互系統（human-to-machine communication，簡稱HMC）的問題在於它們只針對人類進行了優化，而沒有考慮機器。這些人機交互系統利用聲學麥克風探測所有的聲音信息，然後耗費大量寶貴的能源和時間運用降噪算法過濾背景噪音，再經過優化獲得自然、悅耳、清晰的聲音再現。

當人們在開車的時候，無論是人類還是語音識別系統，隨著背景噪音的增加，可理解性和識別率都隨即下降，這帶來了糟糕的通話質量和錯誤的聲控命令。

行駛的車輛，隨著車窗打開幅度和車內喇叭音量的提高，聲控識別率通常逐漸降為0%。 VocalZoom宣稱他們的HMC傳感器在相同的環境下，聲控識別率可以保持在90%以上

圖1 行駛的車輛，隨著車窗打開幅度和車內喇叭音量的提高，聲控識別率通常逐漸降為0%。VocalZoom宣稱他們的HMC傳感器在相同的環境下，聲控識別率可以保持在90%以上。

為了將人類的聲音從環境噪音中完全分離，VocalZoom為其HMC傳感器運用了一種低成本、低功耗的干涉測量原理。該傳感器使用一個激光器來測量人們說話時臉部或者耳後皮膚的低頻震動。為了降低干涉測量的成本，VocalZoom選擇了犧牲測量距離，使用一款一級安全等級的垂直腔面發射體激光器（VCSEL），該激光器測量距離為1米，可以直接正對臉部進行皮膚震動探測。

VocalZoom的HMC傳感器應用了一項簡單但專利保護的干涉測量技術，使用一款可以正對臉部測量的一級安全等級的垂直腔面發射體激光器（VCSEL）

圖2 VocalZoom的HMC傳感器應用了一項簡單但專利保護的干涉測量技術，使用一款可以正對臉部測量的一級安全等級的垂直腔面發射體激光器（VCSEL）。面部震動改變了反射光束的相位，通過定制ASIC中嵌入的算法獲得最終輸出信號，信號再通過I2S接口輸出。

該系統不僅可以改善手機通話質量、更精準更持久的接收語音命令進行聲控操作，還可以用於近距離探測和測量心率。而且，每個人說話的嗓音和相應的面部震動都是獨特的，所以該傳感器還可以用於生物安全識別。

“這一技術將改變人類與機器的交互方式。”VocalZoom銷售和商業發展部副總裁Rammy Bahalul突出了該項技術的主要應用。但是，他還指出該傳感器可以替換掉佔智能手機成本10~20美元的傳感器組件，包括近距探測、語音識別、生物識別（自帶“存活證明”特性）等功能組件，同時還能提供更好的降噪效果，還能通過語音控制降低系統功耗。

為此，摩托羅拉選擇該系統進行了試驗，最後，摩托羅拉還成為了該公司的投資方。今年初，VocalZoom與科大訊飛簽署了一項協議，將VocalZoom的人機交流（HMC）光學傳感器與科大訊飛的“語音雲”智能語音技術平台相結合。

“該傳感器自身功耗在毫瓦範圍內，” Bahalul說道，“成本大約1美元。”激光器的成本在1美元左右，ASIC的成本低於1美元。首批原型系統應該在今年第三季度準備就緒，Behalul預計第一批產品將於2017年年初上市。