微軟開發高性能聲音辨識 AI 技術！從地震、嬰兒哭聲、狗吠聲到呼吸都能辨識，可用於智慧家居和醫療保健

微軟一直走在人工智慧開發的最尖端，並與 OpenAI 合作開發和改進人工智慧產品，例如具備圖像辨識功能的 Copilot（當時稱為 Bing Chat）。

然而，這家總部位於雷德蒙的科技巨頭正在開發高性能的聲音辨識AI技術，使 Copilot（以及任何其他 AI 模型，例如 ChatGPT）能夠檢測即將發生的地震、風暴等自然災害。

根據最近公佈的一份專利，微軟的新技術可以辨識各種聲音，從門鈴聲、嬰兒哭聲、狗吠聲到咳嗽聲或呼吸困難聲，甚至包括打破玻璃等不尋常的噪音。

更吸引人的是，它可以辨識和監控環境聲音，並可以進一步處理，讓使用者知道自然災害是否即將發生。

該系統會將聲音信號分解成更小的部分或片段。每個片段都經過處理，以在時間域中創建聲音的標準化表示。這就像是聲音隨時間變化的地圖。

然後將這張地圖輸入到經過訓練的神經網路中，神經網路是一種人工智慧。神經網路會為每個片段中的每種類型聲音事件判別分數和機率。這就像猜測每個片段是什麼類型的聲音，以及對這種猜測有多確定。

之後，系統會對分數和概率進行平滑處理，以消除雜訊和提高準確性。系統還會根據分析聲音的數據塊的大小產生不同的窗口大小的可信度值。例如，系統可能會生成一個 0.8 的可信度值，表示該片段在 1 秒的窗口內是嬰兒哭泣聲的可能性為 80%。

最終，這項技術可以用於各種應用程式。在智慧家居設備中，它可以透過辨識玻璃破碎的聲音來檢測有人闖入房屋，或者透過辨識嬰兒哭泣的聲音來檢測新生兒是否饑餓或難受。

它還可用於醫療保健領域，透過辨識心跳聲、咳嗽或呼吸困難來準確檢測肺部或心臟疾病。但其最重要的應用之一是透過辨識和檢測與自然災害相關的聲音來防止一般使用者遭受即將發生的事故。

原始音訊訊號可能包含環境或日常聲音，這些聲音會形成電腦系統檢測到的音訊事件，例如警笛、警報、狗吠、嬰兒哭泣、槍聲、爆炸、掌聲或笑聲等等。

由於該技術使用神經網路，因此可以輕鬆地將其整合到人工智慧模型中，例如 Windows 上的 Copilot、ChatGPT 或市場上的任何其他模型。

然而，在Windows上，這將是最有用的，因為一般的使用者可以用Copilot來檢測自然災害並在他們處於危險時警告他們。它還可以充當安全系統，在有人闖入家中時發出警報。