服務熱線(xiàn): 400-990-5789
合作機構
Left
Right

視頻(pín)會議(yì)的主要功能

   一般而言,視頻(pín)會議(yì)的主要核心功能是(shì):多人語音聊天、多人視頻(pín)聊天、公共電子白闆、會議(yì)房間管理。

視頻(pín)會議(yì)

一.語音通話(huà)

1.基礎模型

在視頻(pín)會議(yì)中,網絡語音通話(huà)通常多對多的的,但(dàn)就模型層面來說,我們讨論一個方向的通道就可以了。一方說話(huà),另一方則聽(tīng)到聲音。看似簡單而迅捷,但(dàn)是(shì)其背後的流程卻是(shì)相(xiàng)當複雜(zá)的。我們将其經過的各個主要環節簡化成下圖所示的概念模型:

這是(shì)一個最基礎的模型,由五個重要的環節構成:采集、編碼、傳送、解碼、播放(fàng)。

語音采集指的是(shì)從麥克風采集音頻(pín)數據,即聲音樣本轉換成數字信号。其涉及到幾個重要的參數:采樣頻(pín)率、采樣位數、聲道數。

假設我們将采集到的音頻(pín)幀不經過編碼,而直接發送,那麽我們可以計算其所需要的帶寬要求,仍以上例:320*100 =32KBytes/s,如果換算爲bits/s,則爲256kb/s。這是(shì)個很大的帶寬占用。而通過網絡流量監控工具,我們可以發現(xiàn)采用類似QQ等IM軟件進行語音通話(huà)時,流量爲3-5KB/s,這比原始流量小了一個數量級。而這主要得益于音頻(pín)編碼技術。 所以,在實際的語音通話(huà)應用中,編碼這個環節是(shì)不可缺少的。目前有很多常用的語音編碼技術,像G.729、iLBC、AAC、SPEEX等等。

當一個音頻(pín)幀完成編碼後,即可通過網絡發送給通話(huà)的對方。對于語音對話(huà)這樣Realtime應用,低延遲和平穩是(shì)非常重要的,這就要求我們的網絡傳送非常順暢。

當對方接收到編碼幀後,會對其進行解碼,以恢複成爲可供聲卡直接播放(fàng)的數據。

完成解碼後,即可将得到的音頻(pín)幀提交給聲卡進行播放(fàng)。

 

2.高級功能

如果僅僅依靠上述的技術就能實現(xiàn)一個效果良好的應用于廣域網上的語音對話(huà)系統,那就太easy了。正是(shì)由于很多現(xiàn)實的因素爲上述的概念模型引入了衆多挑戰,使得網絡語音系統的實現(xiàn)不是(shì)那麽簡單,其涉及到很多專業技術。一個“效果良好”的語音對話(huà)系統應該達到如下幾點:低延遲,背景噪音小,聲音流暢、沒有卡、停頓的感覺,沒有回音。

對于低延遲,隻有在低延遲的情況下,才能讓通話(huà)的雙方有很強的Realtime的感覺。當然,這個主要取決于網絡的速度和通話(huà)雙方的物理位置的距離(lí),就單純軟件的角度,優化的可能性很小。

 

(1)回音消除

現(xiàn)在大家幾乎都已經都習慣了在語音聊天時,直接用PC或筆記本的聲音外放(fàng)功能。當使用外放(fàng)功能時,揚聲器播放(fàng)的聲音會被麥克風再次采集,傳回給對方,這樣對方就聽(tīng)到了自己的回音。

回音消除的原理簡單地來說就是(shì),回音消除模塊依據剛播放(fàng)的音頻(pín)幀,在采集的音頻(pín)幀中做一些類似抵消的運算,從而将回聲從采集幀中清除掉。這個過程是(shì)相(xiàng)當複雜(zá)的,因爲它還與你聊天時所處的房間的大小、以及你在房間中的位置有關,因爲這些信息決定了聲波反射的時長。 智能的回音消除模塊,能動态調整内部參數,以最佳适應當前的環境。

(2)噪聲抑制

噪聲抑制又(yòu)稱爲降噪處理,是(shì)根據語音數據的特點,将屬于背景噪音的部分識别出來,并從音頻(pín)幀中過濾掉。有很多編碼器都内置了該功能。

(3)抖動緩沖區

抖動緩沖區(JitterBuffer)用于解決網絡抖動的問題。所謂網絡抖動,就是(shì)網絡延遲一會大一會小,在這種情況下,即使發送方是(shì)定時發送數據包的(比如每100ms發送一個包),而接收方的接收就無法同樣定時了,有時一個周期内一個包都接收不到,有時一個周期内接收到好幾個包。如此,導緻接收方聽(tīng)到的聲音就是(shì)一卡一卡的。

JitterBuffer工作于解碼器之後,語音播放(fàng)之前的環節。即語音解碼完成後,将解碼幀放(fàng)入JitterBuffer,聲卡的播放(fàng)回調到來時,從JitterBuffer中取出最老的一幀進行播放(fàng)。

JitterBuffer的緩沖深度取決于網絡抖動的程度,網絡抖動越大,緩沖深度越大,播放(fàng)音頻(pín)的延遲就越大。所以,JitterBuffer是(shì)利用了較高的延遲來換取聲音的流暢播放(fàng)的,因爲相(xiàng)比聲音一卡一卡來說,稍大一點的延遲但(dàn)更流暢的效果,其主觀體驗要更好。

當然,JitterBuffer的緩沖深度不是(shì)一直不變的,而是(shì)根據網絡抖動程度的變化而動态調整的。當網絡恢複到非常平穩通暢時,緩沖深度會非常小,這樣因爲JitterBuffer而增加的播放(fàng)延遲就可以忽略不計了。

 

(4)靜音檢測

在語音對話(huà)中,要是(shì)當一方沒有說話(huà)時,就不會産生流量就好了。靜音檢測就是(shì)用于這個目的的。靜音檢測通常也集成在編碼模塊中。靜音檢測算法結合前面的噪聲抑制算法,可以識别出當前是(shì)否有語音輸入,如果沒有語音輸入,就可以編碼輸出一個特殊的的編碼幀(比如長度爲0)。特别是(shì)在多人視頻(pín)會議(yì)中,通常隻有一個人在發言,這種情況下,利用靜音檢測技術而節省帶寬還是(shì)非常可觀的。

 

(5)混音

在視頻(pín)會議(yì)中,多人同時發言時,我們需要同時播放(fàng)來自于多個人的語音數據,而聲卡播放(fàng)的緩沖區隻有一個,所以,需要将多路語音混合成一路,這就是(shì)混音算法要做的事情。

二.視頻(pín)通話(huà)

1.基礎模型

視頻(pín)通話(huà)的概念模型與語音完全一緻:

攝像頭采集指的是(shì)從捕捉攝像頭采集到的每一幀視頻(pín)圖像。在windows系統上,通常使用VFW技術或DirectShow技術來實現(xiàn)。采集視頻(pín)的兩個關鍵參數是(shì)幀頻(pín)(fps)和分辨率。

一般而言,一個攝像頭可以支持多種不同的采集分辨率和采集幀頻(pín),而不同的攝像頭支持的分辨率的集合不一樣。比如現(xiàn)在有很多高清攝像頭可以支持30fps的1920*1080的圖像采集。

編碼用于壓縮視頻(pín)圖像,同時也決定了圖像的清晰度。視頻(pín)編碼常用的技術是(shì)H.263、H.264、MPEG-4、XVID等。

當對方接收到編碼的視頻(pín)幀後,會對其進行解碼,以恢複成一幀圖像,然後在UI的界面上繪制出來。

 

2.高級功能

相(xiàng)比于語音,視頻(pín)的相(xiàng)關處理要簡單一些。

(1)動态調整視頻(pín)的清晰度

在Internet上,網絡速度是(shì)實時動态變化的,所以,在視頻(pín)會議(yì)中,爲了優先保證語音的通話(huà)質量,需要實時調整視頻(pín)的相(xiàng)關參數,其最主要的就是(shì)調整編碼的清晰度,因爲清晰度越高,對帶寬要求越高,反之亦然。

比如,當檢測網絡繁忙時,就自動降低編碼的清晰度,以降低對帶寬的占用。

(2)自動丢棄視頻(pín)幀

同樣網絡繁忙時,還有一個方法,就是(shì)發送方是(shì)主動丢棄要發送的視頻(pín)幀,這樣在接收方看來,就是(shì)幀頻(pín)fps降低了。

 

三.電子白闆

在視頻(pín)會議(yì)中,電子白闆的功能是(shì)很重要的。通常會議(yì)的主持人會在白闆上畫圖進行講解,然後其它的人能同步觀看和操作電子白闆的内容。

通常的電子白闆都支持如下功能:線(xiàn)段、箭頭線(xiàn)、雙箭頭線(xiàn),水平肘型連接符、垂直肘型連接符,矩形、三角形、橢圓(圓),文本,自由曲線(xiàn),插入圖片,激光筆。

在實現(xiàn)上,電子白闆主要是(shì)使用GDI+技術。

對于電子白闆的同步,其原理是(shì)這樣的:比如,當操作者在白闆上繪制一個圖像時,這個操作會被封裝成一個Command對象(命令模式),然後,通過網絡廣播發送給會議(yì)中的其它人。當其他人接收到這個Command對象時,就将其轉換成一個白闆操作來執行,這樣各個白闆的内容就自動同步了。

 

四.會議(yì)房間管理

對于那些動态創建視頻(pín)會議(yì)室,在用完之後就動态将其銷毀的通常的視頻(pín)會議(yì)應用場景來說,使用動态組來表示會議(yì)房間,是(shì)非常恰當的。

所謂“動态組”,就是(shì)在服務器内存中動态創建的組,不需要序列化存儲到比如數據庫或磁盤中,需要的時候就創建一個,然後加入多個成員(yuán)進行組内溝通,當不再使用的時候,就直接從内存中銷毀了。

基于Socket技術,我們可以在服務端實現(xiàn)DynamicGroupManager類來對動态組進行管理。

雖然,動态組僅僅存在于内存之中,但(dàn)是(shì),在項目需要時,我們仍然可以将其某些重要的信息持久化到數據庫中存儲。然後,在服務器重啓時,可以從DB中加載重要的房間信息。

1、高清流暢的音視頻(pín)

1080P高清視頻(pín)圖像,以及多種音頻(pín)技術實現(xiàn)唇音同步;高保真語音的傳輸,讓您身臨其境,如同面對面開會一般

視頻(pín)會議(yì)

 

2、數據快速共享

無論是(shì)office文檔、PDF、應用程序,還是(shì)音視頻(pín)文件,均可同步展示給所有與會者觀看,先進的矢量技術确保數據文檔共享的清晰度

視頻(pín)會議(yì)

 

3、多種互動交流方式

多種身份權限,群聊、私聊、舉手發言等多種聊天方式,文字、語音、視頻(pín)多種溝通渠道讓互動交流豐富多彩

視頻(pín)會議(yì)

 

 

4、電話(huà)邀請參會

采用PSTN通訊技術,電信級的通話(huà)質量,會議(yì)組織者一鍵邀請, 接通電話(huà)就能參會,随時随地開會不缺席

視頻(pín)會議(yì)

 

 

 

 

Copyright ©2018 - 2020 奧維互聯(北京)通訊技術有限公司
在線(xiàn)客服
微信咨詢
電話(huà)咨詢