首頁 > 曲藝

聲網推出首個完整實時合唱解決方案 即將上線“咪噠”全國線下K歌房

作者:由 金融界 發表于 曲藝日期:2022-05-15

組合耳返會互通嗎

4月20日,聲網Agora宣佈對實時合唱技術方案全面升級,幫助國內知名迷你KTV品牌“咪噠”實現國內首個支援多終端、多人合唱、高音質的完整實時合唱解決方案的落地,結束了國內K歌行業長期探索“實時合唱”場景,卻一直未能上線的現狀。

在介紹聲網完整的實時合唱解決方案前,我們先來回顧下目前線上K歌行業常見的兩種線上合唱玩法,以及真正的“實時合唱”面臨了哪些技術難點?

體驗過線上KTV合唱玩法的使用者都瞭解,目前幾乎所有的線上合唱都是通過錄制合唱與單通合唱兩種方式實現,以主唱A、使用者B為例:

錄製合唱:

主唱A根據伴奏演唱——完成後點選上傳——使用者B選擇帶有A歌聲的伴奏再演唱——錄製完成後間接完成合唱。

單通合唱:

主唱A發起合唱——伴奏發給主唱A——主唱A的歌聲+伴奏發給使用者B

——使用者B加入一起唱。

聲網推出首個完整實時合唱解決方案 即將上線“咪噠”全國線下K歌房

第二種方案,看似是實時的,其實從體驗來講並非是合唱,其原因在於:使用者B與聽眾可以聽到主唱A的歌聲,而主唱A聽不到B的歌聲。此外,主唱A出現問題,使用者B就無法繼續,這種方案還不支援兩人以上合唱。

而我們想要的真正的“實時合唱”應該就像是將線下K歌房的合唱情景照搬到線上一樣,雙方同時聽到伴奏後一起合唱,彼此都能實時聽到對方的聲音。

實時合唱面臨合唱同步、高音質兩大技術難點

早在2018年,聲網就曾提出實時合唱的技術設想,但由於整體網路基礎設施不夠成熟等原因一直未能真正整合上線,此後聲網針對實時合唱場景進行了長期的技術打磨,並與“咪噠”以及國內多個線上K歌平臺、智慧電視廠商反覆整合測試,最終推出了高成熟度、超低延時、可落地的、完整的實時合唱解決方案。聲網在與客戶共同打磨的過程中總結了該場景的兩個核心技術難點:

1、合唱同步:

這裡的同步指的是兩個使用者的歌聲與伴奏三者之間的同步。我們先假設唱歌的兩位使用者都是專業級的,踩不準節奏的問題完全不存在。如上述場景描述,由於伴奏是同時傳送給兩個使用者,那麼關鍵就在於兩者的歌聲是否能同步。影響合唱同步的主要因素就是延時。

不考慮伴奏的情況下,假設使用者A和B之間的端到端延時為100ms。從聲音傳輸流程上來說,會出現以下這種情況:

A先唱,B聽到A的歌聲。此時產生100ms延時;

B在聽到A的歌聲後開始加入合唱,歌聲傳到A端。此時又產生100ms延時;那麼

A聽到B的歌聲永遠延時200ms;

假設線上KTV中200-300ms唱一個字,那麼使用者在聽感上會至少慢半個字,會有錯

位感。

2、實時合唱的高音質:

唱歌的人都有一個共同的心理需求,就是希望別人誇自己唱得好聽。音質在合唱場景下就顯得尤為重要。而影響實時合唱音質的因素主要包括:音訊取樣率、位元速率、延時。

取樣率:是每秒從連續訊號中提取並組成離散訊號的取樣個數。取樣率越高,音訊

聽起來越接近真實聲音。

位元速率:它是指經過編碼(壓縮)後的音訊資料每秒鐘傳輸所表示的資料量(位元)。

位元速率越高,意味著每個取樣的資訊量就越大,對這個取樣的描述就越精確,音質越好。

假設網路狀態穩定不變,那麼取樣率越高、位元速率越高,音質就越好,但是相應單個取樣資訊量就越大,傳輸時間可能會相對更長。也就是說,高音質也可能會影響延時。

此外,實時合唱還會面臨音訊傳輸過程中產生的延時、與手機端、電視端、KTV端等一系列硬體裝置的適配、相容性的問題,多重技術難點讓很多想推出實時合唱玩法的K歌平臺、社交平臺、電視廠商等很是“頭疼”。

聲網釋出行業首個完整的實時合唱解決方案

針對這些技術難點,聲網推出了行業首個完整的實時合唱解決方案,不僅有效解決合唱超低延時、伴奏同步對齊、合唱人數靈活性、高音質保障等一系列問題,聲網還提供50ms超低延時耳返、歌詞同步、歌唱美聲、音浪頻譜等一系列功能,形成了一套業內高完整度的實時合唱解決方案。

聲網實時合唱方案架構大致如下:

主唱端與各個合唱端同時從本地獲取BGM,隨著伴奏同時開啟演唱;

透過SD-RTN?傳輸和排程,主唱與合唱們可以實時聽到其他人的歌聲,達成合唱。

同時觀眾可以享受到演唱者們“0延時”的合唱效果。

聲網推出首個完整實時合唱解決方案 即將上線“咪噠”全國線下K歌房

圖:聲網實時合唱技術方案架構

在聲網的實時合唱方案中,圍繞超低延時處理、高音質體驗、伴奏精準同步、合唱人數靈活等形成了六個維度的核心優勢。

實現端到端64ms超低延時

在聲網實時合唱解決方案中,主唱和合唱端同時聽到伴奏,同時演唱,各方可以實時聽到其他演唱者的聲音,消除了接唱前產生的延時。合唱延時要解決的問題就是降低各自歌聲傳輸到對方的這段端到端延時了。

針對音訊在傳輸過程中的延時問題,聲網在技術打磨的過程中發現在實時合唱場景中延時並不是越低越好,一味的追求更低的延時,可能會“犧牲”音質等其他環節的質量。在聲網看來,實時合唱的延時達到50ms是完美值,但想要實現50ms需要攻克這幾個技術難點:

聲網推出首個完整實時合唱解決方案 即將上線“咪噠”全國線下K歌房

1、音訊在採集端、播放端的延時:

裝置端上的延時包括採集端的採集、前處理、編碼,播放端的接收、解碼、後處理過程產生的延時,以及兩端在編碼後和解碼前產生端網路延時。

端上的延時主要與硬體效能、採用的編解碼演算法、音影片資料量相關,裝置端上的延時可達到 30~200ms,甚至更高。

2、網路傳輸的延時:

在實時合唱的場景中,要解決網路不佳、網路抖動,需要在採集裝置端、伺服器、播放端增設緩衝策略。一旦觸發緩衝策略就會產生延時。如果卡頓情況多,延時會慢慢積累。要解決卡頓、積累延時,就需要最佳化整個網路狀況。

聲網社交泛娛樂產品負責人王奇表示,“50ms端到端延時是我們一直在追求的目標,而目前聲網的實時合唱解決方案已經可以實現64ms端到端延時,背後的核心是聲網對音訊在裝置端的延時、弱網傳輸、音訊引擎消耗的延時等一系列技術難點的最佳化,在實時合唱場景中,64ms延時已經無限接近50ms的最佳理想狀態,在這樣的延時情況下,使用者的實時合唱體驗幾乎從線下‘無感知’的搬到線上,場景體驗實現了高可用性,讓使用者真正能實現高穩定性、高音質、超低延時的實時合唱體驗。”

高音質歌唱體驗+實時美聲

在實時合唱中,聲網的解決方案還能提供高音質的歌唱體驗。聲網透過業內領先的語音引擎,實現從低位元率的窄帶語音擴充套件到高質量的立體聲音樂,並支援從8kHz(窄帶)到?48kHz?(全頻帶)取樣,聲網還擁有業界領先的 3A 演算法,在不損傷音質的情況下有效消除各類噪聲。

此外,聲網Agora 首創了實時美聲功能。在原有低延時、高音質的基礎上,針對歌唱場景採用鏈路式多模組聯合演算法框架,對人聲的音調、音色、韻律、節奏、空間、氛圍甚至藝術類型等不同維度進行調整,使歌聲更動聽、更契合伴奏,同時又能保留歌手聲音原有的特點。

支援多人實時合唱:

在單通合唱的方案中只能支援兩個人,而聲網的實時合唱解決方案中每一個合唱端相互獨立,互不影響,合唱人數可支援兩人以上。同時若是在合唱過程中其中一個端出現問題,也不會影響到其他合唱端和觀眾端的體驗與效果。

伴奏精準同步:

為了實現最好實時合唱的效果,讓各端可以在各自BGM的伴奏下一同歌唱。我們在主唱發起播放BGM請求後,會讓主播端等待一個與合唱端之間的延時,以此實現各方伴奏的精準同步。

50ms超低延時耳返最佳化

不管是直播唱歌還是線上K歌,低延時的耳返功能對於唱歌體驗都有著很關鍵的作用,可幫助使用者透過耳機實時聽到麥克風採集到的聲音和播放的伴奏,來判斷自己的聲音是不是走音,這個對延時要求特別高。

對此,Agora SDK提供統一介面的低延時K歌耳返功能,透過與手機廠商的深度技術合作,可為K歌、直播類App提供適配不同手機品牌、不同手機機型的耳返應用,我們將傳統耳返100-300毫秒的延時降低至50ms以內,結合實時合唱整體解決方案,實現超低延時、超低噪聲、極致音效的耳返體驗,全面提升K歌的體驗。

歌詞同步+音浪頻譜

歌詞同步可以實現音訊與歌詞在播放端同步展示,並且音訊與歌詞逐字對齊,企業開發者無需在進行額外同步處理。而音浪頻譜可以幫助歌唱者及時調整自己的音調,系統也能根據音浪頻譜的完成度對歌唱者進行打分。專業的線上K歌應用自身已經具備成熟的歌詞同步、音浪頻譜等功能,但對於想在已有應用中加入線上KTV功能的創業公司或者開發者而言,聲網的實時合唱解決方案自帶歌詞同步、音浪頻譜等功能,將幫助開發者節省開發成本、保證體驗。

實時合唱覆蓋線上線下 為企業帶來多重價值

線上社交實時合唱,使用者、營收雙增長:

1、

使用者拉新、提升活躍度與留存

:實時合唱作為最新的線上KTV玩法,無疑可以作為產品新玩法賣點,帶來更多想要體驗的新使用者。同時,實時合唱的創新玩法解決了傳統錄製合唱、單通道合唱的痛點,也會激發很多喜歡合唱的老使用者積極參與,提升使用者活躍度與留存率。

2、

帶來更多營收空間

:線上K歌與社交平臺也可以基於實時合唱的功能,探索出更多商業價值,提升營收空間。

智慧電視K歌合唱,

娛樂互動升級

經過與電視廠商的技術打磨,聲網的實時合唱解決方

案還支援電視端,使用者可在家中透過智慧電視大屏與好友進行線上的實時合唱。對於電視廠商而言,實時合唱的加入也讓智慧電視的娛樂互動玩法更豐富。

線下KTV異地合唱,打破空間限制:

實時合唱還可以助力線下傳統KTV或商場迷你KTV的互通聯動,讓多地的好友可以線上下不同地點一起K歌合唱,提升消費者K歌娛樂體驗,推動線下KTV娛樂創新發展。

聲網推出首個完整實時合唱解決方案 即將上線“咪噠”全國線下K歌房

“咪噠”技術負責人表示:可落地的實時合唱技術方案此前在行業一直處於空白,聲網憑藉深厚的技術底蘊以及對創新場景的洞察力,與咪噠一起打磨出了行業首個完整的實時合唱解決方案,低失真,超低延時的技術保障為使用者帶來最佳的實時音訊體驗,咪噠在全國線下的迷你KTV中即將率先上線實時合唱的新玩法,實時合唱未來將給線上、線下K歌行業帶來新的活力。

目前聲網實時合唱iOS端Demo已率先上線,如果您想進一步體驗聲網實時合唱Demo,可透過聲網的微信公眾號找到這篇文章,並點選文章中的“閱讀原文”留下您的資訊,我們將提供實時合唱Demo的下載地址。

在本文中我們分析了實時合唱面臨的技術難點,並介紹了聲網實時合唱解決方案的架構以及核心技術優勢,如果您想進一步瞭解聲網是如何最佳化音訊傳輸過程中的延時、編解碼、丟包、抖動等一系列技術難點,可查閱聲網微信公眾號此前釋出的音訊技術系列文章。