服務熱線:0755-26751199
音響網(Audio160.com) > 行業資訊 > (專業音頻) > 樓氏洞見丨利用音頻源分類提高音頻人工智能在日常設備中的實用性
樓氏洞見丨利用音頻源分類提高音頻人工智能在日常設備中的實用性
更新時間:2021-6-21 10:08:46 編輯:溫情 樓氏電子 調整文字大小:【

從“智能”到“實用”的飛躍。隨著專為高級音頻和機器學習應用程序而設計的音頻邊緣處理器解決音頻源分類的難題,智能家居設備的實用性將不斷提高。

本文由樓氏電子Raj Senguttuvan和Vikram Shrivastava合作撰寫。

人工智能(AI)在我們的日常生活中越來越廣泛和深入。

人工智能和機器學習(ML)進入家庭仍處于早期階段,但潛力無限。 隨著AI功能的不斷增加,市場每年都會推出新設備和新電器。通過這些設備生成的數據,設備制造商能夠了解用戶習慣,并使用ML算法預測用戶未來的使用模式,從而提供更好的用戶體驗。

在未來的智能家居中,AI可以根據預設的日常程序,通過對環境的隨時感知,自動控制燈光、電器和消費電子產品。例如,智能恒溫器將能夠了解不同家庭成員的喜好,根據他們的聲音特征識別他們是否在家里,并根據個人使用記錄在本地調節溫度。同樣,除了具有語音控制功能外,智能洗衣機還能夠自動感應負載不平衡或漏水現象,并能夠調整設置或發送警報以防止發生故障。具有AI功能的智能冰箱能夠識別食物和理解消費模式,會在適當的時候自動提供購物和消費建議。  另外,智能顯示器或鏡子能夠識別用戶的語音或音頻事件,并自動提供建議或提醒。

以邊緣技術實現智能化

雖然人工智能可能會對我們家庭生活的各個方面產生積極影響,但是有些用戶可能會因為隱私等問題而對AI的作用持謹慎態度。當用戶的個人數據發送到云端進行處理時,這些問題會更加嚴重。有幾次數據泄露事件都是黑客攔截并竊取了消費者的個人數據。除此之外,還有帶寬和延時限制問題,因此許多設備制造商越來越多地考慮在設備中使用邊緣處理器來本地運行ML任務。一些市場研究報告顯示,由于采用基于邊緣的ML技術,邊緣處理器的出貨量增長將超過25%。

為了在智能家居中實現設備“智能化”,有幾種ML算法可以使用。在大多數應用中,這些算法可以識別用戶身份、用戶動作并學習用戶行為,以便自動執行任務或提供建議和提醒。在ML術語中,一個分類問題是識別用戶身份或用戶動作。在本文中,我們專門介紹音頻源分類。

高級音頻和語音識別

具有高級音頻和語音識別功能的智能家居設備和電器可以使用聲音場景分類和檢測場景內聲音事件來識別用戶、接收命令并調用動作。用戶在家里的活動是一個豐富的聲音信號數據集,這些聲音信號包括語音。雖然語音是最具信息性的聲音,但其他聲音事件往往也具有有用的信息。講話期間的笑聲或咳嗽聲、嬰兒哭聲、鬧鈴響聲或開門聲等,都能提供有用的數據來驅動智能動作。

事件識別的過程基于特征提取和分類。在最近的文獻中已經公開了幾種用于音頻事件(AE)識別的方法。這些方法背后的基本原理是,獨特的聲音事件特征與聲音背景特征不同。音頻源分類算法能夠檢測和識別聲音事件。這個過程分為兩個階段 – 1) 檢測聲音事件;2) 分類。檢測的目的是首先識別前景事件和背景音頻,然后打開分類器對聲音進行分類。

預計未來的智能家居設備將同時具有音頻事件識別和自動語音識別功能。圖1展示了這種智能家居系統的一般概念。

音頻事件識別是對自動語音識別(ASR)的補充,可以驅動智能操作

通過音頻源分類識別聲音事件

目前已有多種信號處理和機器學習技術應用于音頻分類問題,包括矩陣分解含聲、字典學習、小波濾波器組和最近發展的神經網絡。卷積神經網絡(CNN)能夠學習和識別代表不同聲音的模式,即使部分聲音被其他來源(如噪聲)所掩蓋也能識別,因此廣受歡迎。然而,CNN依賴于大量標記數據訓練系統。盡管語音由于移動設備和智能音箱大量采用ASR而擁有大規模的音頻語料庫,但非語音環境音頻信號的標記數據集相對較少。近年來發布了一些新的數據集。預計隨著智能家居設備的普及,非語音聲音事件的音頻語料庫將持續增長。

聲音事件識別軟件和工具

使用源分類的音頻事件識別軟件可通過多個算法供應商獲得,包括Sensory、Audio Analytic和Edge Impulse等供應商。這些供應商提供對模型進行預訓練的聲音庫,同時還提供用于構建模型和識別自定義聲音的工具包。在邊緣處理器上實現音頻事件識別時,必須認真考慮如何權衡功耗與準確性的問題。

還有多個開源庫和模型可供選擇。在此,我們基于YAMNet [Yet another Audio Mobilenet Network(還有另一個音頻移動網絡)]提供音頻事件分類的結果。YAMNet是TensorFlow中心的開源預訓練模型,已經對數以百萬計的YouTube視頻進行了音頻事件預測訓練。該網絡以MobileNet架構為基礎,非常適合嵌入式應用程序,可以為應用程序開發者提供很好的基準。下表顯示了一個簡單的YAMNet分類器(小于200KB)的仿真結果。可以看出,這種小型分類器能夠在無噪聲的條件下和有噪聲的情況下以足夠的精確度檢測一些常見的音頻事件。如表1所示,模型的TPR(真正類率)性能隨著信號的信噪比而增加。該表所列的數據僅是概括性地說明這一概念。實際上,應用程序開發人員需要花費大量的時間來訓練和優化這些模型,以便在測試條件下準確地檢測聲音。

使用YAMNet源分類器的TPR

IA8201是運行源分類算法的最佳選擇

在智能家居系統中,圖1所示的計算模塊是音頻處理鏈的關鍵組件。ML算法通常用于執行這些任務,而矩陣運算對于ML算法的執行卻至關重要。根據應用程序的類型,可能需要執行上億次乘加運算。因此,ML處理器必須有一個快速、高效的矩陣乘法器作為主計算引擎。

Knowles AISonic™ IA8201:Dual Core是一款音頻邊緣處理器,專門為高級音頻和機器學習應用設計,可實現高效節能的邊緣計算。IA8201除了支持高級語音處理和音頻輸出功能外,還能在智能家居應用中以非常低的功耗運行音頻事件(AE)識別用例。其中一個內核具有執行矩陣矢量乘法器(MVM)處理的最優定制指令集,這是運行分類例程的關鍵。該處理器的其他功能包括:1MB RAM、64位/128位總線(用于高吞吐量數據傳輸)、ML硬件加速器以及稀疏矩陣支持(可在精度和內存之間實現適當平衡。IA8201 SDK還提供了支持TensorFlow lite的加速庫,使設計人員能夠使用標準框架和工具來縮短設計周期。

結論

隨著專為高級音頻和機器學習應用程序而設計的音頻邊緣處理器解決音頻源分類的難題,我們所熟知的智能設備將變得智能與實用兼備。樓氏電子邊緣處理器將使智能家居設備和電器更加安全、更加個性化。

 網友評論
 編輯推薦
  • 2021年廣州國際專業燈光、音響展專題報道
  • InfoComm China 2020 展會專題
  • 獨家策劃:北京IFC 2020展會精彩搶先看
  • 2020年廣州專業燈光音響展專題報道
加載推薦品牌
  • 帶您深入了解JTS品牌故事
  • 40年的工藝,40年的激情,TRIANGLE!40周年快樂
  • 【品牌故事】成為御用檢片黑膠唱機:Technics SL-1200G入駐英國ABBEY ROAD STUDIO(阿比路錄音室)
  • 舒爾96周年紀念日 | 值得珍藏的經典時刻
加載推薦品牌資訊
設為首頁 | 商務信息 | 音響資訊 | 本站動態 | 付款方式 | 關于音響網 | 網站地圖 | 網站RSS | 友情鏈接
本站網絡實名:音響網 國際域名:www.havanasouth.com 版權所有.1999-2021 深圳市中投傳媒有限公司 .
郵箱:web@audio160.com  電話:0755-26751199(十二線) 傳真:0755-86024577  粵ICP備05041759號
在線客服:點擊這里給我發消息    視聽學院-商家論壇群: 視聽學院-商家論壇
欧美恶搞视频