“我一直想強調的一點就是,我們做技術的,尤其在應用軟件領域,不要迷信黑科技。黑科技沒有突破性的進展,大部分都是 Hack,是一種黑客技術,就是你通過一些繞彎的迂回的辦法,繞過系統的一些控制,但是分分鐘都可能被這個平臺的供應商殺死”
Webex Room Kit Plus
“我在信息科技行業已經工作了有二十余年了,期間跨過多種專業領域,在國內和北美從事過電信和數字網絡系統、大型支付交易處理系統等研發和技術管理工作。2015 年回國,作為首席工程師加入了思科 Webex,負責 Webex 視頻會議系統的總體架構工作。目前已經切換到管理領域,主要關注 Webex 客戶端和各種終端平臺上的應用開發。
我們希望給用戶提供一種全站式的服務體系以及相應的配套工具,可以讓用戶在任何場所任何環境中無縫地加入到任何一種協同需要中去,不僅僅是視頻會議這么簡單,視頻會議也只是其中的一種協同形態。
現在大家(國內)都在講云、都要上云,實際上我們過去幾年也是在把產品往云——更現代的云上面去發展。Webex 它本身就是云服務,但我們也發現云并不是唯一的解決方案,也不是唯一的一種場景。
從春節到現在是對國家、社會和對普通人都影響特別大的一段時期。除了疫情的重壓,如何在這個特殊時期盡快恢復工作(雖然我們團隊本身就非常習慣在家工作),實際上還是有很多挑戰的。
我自己經常早晨六七點就開始和美國團隊開各種會議,但一般中午也會去公司。畢竟文化氛圍的培養、關系的建立與團隊的緊密合作都離不開直接的、面對面的交流。
因為關注產品和項目,我的心情大部分時候還是比較平穩的。另外,最近幾乎全部時間都和家人在一起,也有平常去辦公室體會不到的一些日常居家的歡樂。
這次疫情給我帶來了一些思考,就是不要總想著說將來要去干些什么。我們受到的教育告訴我們要準備充分再去做一件事,但我想說你要是想做就去做。活在當下可能更重要一些是吧?你想要去看世界,你就看好了。”
Webex Room 70D
Q1 LiveVideoStack:Webex 在 B 和 C 端的系統設計以及產品服務分別有什么不同的考量,未來如何計劃 to B 和 to C 業務的發展?
A1 汪凱:國內很多互聯網公司都是 to C 的業務發展起來的,to B,或者說叫產業互聯網,是最近幾年才開始有被關注,很多企業也開始想往這方面推進。但是思科 Webex 本身,一直都是 to B 的業務非常強。
to B 用戶有幾個比較大的特點。一個是相對來說,這些用戶更多的會考慮企業的合規性要求,因為不同的行業有不同的合規要求。我們的客戶除了中國以外,歐美的用戶有很多,有一些用戶會更加關注隱私、數據保護、安全性以及一些特定環境的隔離。
還有一些企業需要端到端的加密。比如說我們之間的這些對話,所做的這些記錄,有且僅有我們兩個人知道。雖然所有數據都是在云端的數據中心里,但是任何 Webex 的開發或者運維人員,都沒有辦法知曉我們談話的內容。對于這種端到端的全程加密,實現起來其實也是有很多要求的。
除了云以外,針對 to B 的業務,還會有很多其它的部署和考量。比如說在一些比較大的企業系統里,他們的分公司遍布全球,就會有提高本地會議質量、溝通質量等各個方面的需求。
我們最近幾年認同的概念是 Cloud first,but not cloud only。
這樣帶來的一個好處就是,在 to B 業務里面能夠在本地做非常多的優化。比如說辦公室的生態里就完全可以部署我們的 on-prem(on premise)服務。同時通過和云端的級聯(cascading),還可以節省帶寬。
就是說用戶不用通過互聯網,通過企業內部建立的私有骨干網或安全通道去連到企業自己的云上面就可以了,簡單來說就是 you can have meeting or collaboration anytime anywhere。
雖然我們所說的這個 Anytime 是指任何時間點,但其實視頻會議也有它的特殊性,它的流量分布是很特殊的。比如說今天我給你設定一個會議時間,一般來說是不會設置在 14:15 的,雖然我可以,但是大部分時候大部分人不會這么做,大家基本上都是定在整點或者半點,所以視頻會議的峰值流量全部在這些時間發生。這一點給平臺帶來的挑戰是很不一樣的。
而 Anywhere 在技術上對實時性也有非常高的要求。這不像做一單交易,交易是可以不需要實時的,即使當下訪問不到網絡,也可以延后處理。但視頻會議本身只要連上就必須實時,所以它對網絡質量是非常敏感的,關鍵影響因素包括帶寬,時延,抖動,和丟包率,所以才會有媒體流 resilience, congestion control 方面的一些設計和控制,弱網對抗之類,這里面有部分是開源的規范比如 WebRTC,也有各廠商的私有協議和實現,包括 Webex。
總的來說,我覺得 to B 和 to C 非常重要的一點就是,如何滿足各個行業或者行政部門的一些合規性的需要,以及企業自身對其商業信譽的考量和對客戶的長期承諾。如果你要讓用戶選擇你的產品,那么你必須是一家可信的服務商。
Q2 LiveVideoStack:您剛剛提到安全問題,那么就這一點而言,您覺得國內企業或者是個人消費者對視頻會議安全性的要求有發生變化嗎?
A2 汪凱:根據我回國 5 年的一些觀察,大家對安全的意識這幾年是在增強的。讓大家開始逐漸有這種意識,可能也是來自于之前曝出的一些互聯網提供商關于安全和隱私方面的漏洞。
在這些企業和這些系統里面,有沒有做到從第一天就開始考慮用戶安全和隱私的問題,這實際上是需要拿來討論的。
有些安全問題可能是來自于平臺的一些“特殊設計”,比如說平臺想提高用戶加會進會的快速體驗,就會在某種程度上放松對安全的要求,所以這里面應該有一個 balance。
而我一直想強調的一點就是,我們做技術的,尤其在應用軟件領域,不要迷信黑科技。很多所謂的黑科技,沒有突破性的進展,大部分都是 Hack,是一種黑客技術,就是你通過一些繞彎的迂回的辦法,繞過系統的一些控制,但是分分鐘都可能被這個平臺供應商殺死,尤其是平臺的操作系統。
安全性無論是不是所有廠商一開始就有在考慮的,它都變得會越來越重要,尤其是 to B 的業務。to C 的話,業務理論上來說它實際上需要有同等的安全程度,但是因為各種原因:作為普通用戶,對技術不了解;作為企業,為了快速成長的發展和更早讓大家有很好的用戶體驗,在安全性方面會有其他的考慮。
有了新的技術,老的技術就要去升級,出現了新的問題你也必須去解決,這些都是基本的要求。思科本身是有 security 這個產品組合的,這也是 by default,我們所有的設計所有的部署都要滿足這些要求。
to C 的話,我們也要有基本的底線在里面。可能部分新興的公司在這方面考慮的還不多。
Q3 LiveVideoStack:這次疫情把視頻會議推到了風口,但其實此前(以后一段時間也同樣適用)5G 等技術就已經讓視頻會議平臺成為熱點,尤其是 5G,能具體聊一聊 5G 技術在 Webex 未來發展中扮演的角色嗎,目前有什么成熟的想法嗎?
A3 汪凱:我個人的一個觀點是,更重要的不是在于說從技術上解決了什么問題,更重要的是說在原來的很多約束下(比如說網絡不可獲得、音視頻質量差),技術能不能直接落地到一些更廣泛的應用場景和行業里面,尤其是來自于這些行業和這些應用場景里對視頻直接交流、語音直接交流和交互性的需要。

比如說快遞行業,現在既有視頻,也可以用微信,但是如果你想有一些垂直的應用,讓它能夠在 5G 的覆蓋下直接把更高質量的、更交互性的視頻和一些更智能化的協作、技術放進去的話,那實際上是可以極大地幫助這些行業提高效率和減少誤差的。
所以我認為 5G 不是賦能了我們的視頻技術,而是賦能了我們一些視頻場景。賦能這樣的一些應用場景反過來會帶動市場對音視頻會議服務的更廣泛的需要,像我們這樣的平臺就會變得更普遍。
過去幾年因為直播的推廣,很多民眾都被 to C 教育了,說視頻其實很重要。但在視頻會議場景里面,它還是更加專業化的存在、面比較窄,當然現在也出現了線上教育這些體系。如果說我們可以隨時隨地獲得更穩定的網絡,那這些行業的爆炸式的需求反過來也會影響視頻會議提供商的服務能力和服務等級,以及我們剛才談到的技術上的需要和平臺上的促進,它就不再會是那么窄。
純粹個人觀點,但從一個系統的層面看 5G,它優先解決的是 RAN,也就是 Radio Access Network,是無線接入網的問題。它可以提供更高的覆蓋,更高頻、更密集的基站布置和一些特殊的天線設計,再加上一些控制,但其實它只是解決了無線的接入。
所以從理論上或從實驗測試來說,無線網在一切其他條件都具備的時候,確實能夠實現帶寬提高。但實際上,比如說評估結果是 10 倍的帶寬的提高(相比于 4G 網絡),那它帶來的一個最大的好處就是可以有更多更高分辨率的、或者說更高質量的音視頻數據包在這個網絡上交換。
第二點,它的時延很低。比如說達到了一毫秒這個級別,這對音視頻影響是很大的,對整個信令控制的影響也特別大。還有一點就是它比較穩定,抖動也小。
我之前提到過系統的問題,不光要解決無線的問題,后面還要考慮這些數據是不是能有效通過無線基站和后面整體的 infrastructure 的緊密配合。電信網絡也好,數據網絡也好,這個系統能夠提供這樣的帶寬和質量的保證嗎?所以從設計和實施的角度,還是要遵循系統論的方法去多考慮系統整體的約束和 trade-off。
5G 有它帶來的好處,也有它的一些局限性。拿公共模式來說,它會改善和減少一些今天會發生的問題。同樣,它也會因為今天的一些設計模式、協議方式遇到一些問題。
比如說 TCP 和我剛才提到的信令控制,5G 也可能也會碰到同樣的問題,不可能所有地方都是可獲得的,或者說出現了問題的時候,因為 TCP 本身面向連接和可靠傳輸的特點,有時候反而會引起問題。這是我說的一些設計的共性。
在協議方面尤其信令相關的,當出現新的技術之后,應該針對這個技術去做優化、去更新。比如 QUIC,這是 Google 對于如何減少傳統的 HTTP 的一些約束所作的嘗試(并且一直在嘗試)。哪怕是做 HTTP2,有一些基于 TCP 的約束還是解決不了,像 QUIC 是在 UDP 的框架上去解決需要面向連接的一些固有特征和固有問題。
在音視頻流的方面,我們也可以考慮 codec。比如,AV1 在同等質量的情況下,實際上的碼流要求會更低。這都是新的技術,我們要樂于、勇于且積極地去使用。隨著 5G 的發展是不是又會有更好的編解碼技術呢?我覺得是肯定會出現的,咱們拭目以待。
當把原來的設計原則或設計約束給放得更寬了,很多原來做不到的事情某種程度上其實都可以做到。
但是光靠 5G 不能解決所有的問題,關鍵是什么是我們的殺手應用——能夠完全的推動音視頻的爆發式的增長和質量的整體的提高。
我的看法是它一定要能解決我們隨時開會隨時想要更優體驗的需求,這需要一個生態系統,一個產業鏈,需要運營商服務提供商來共同解決。
Q4 LiveVideoStack:搭建平臺級產品是大多數互聯網公司的愿望,要做到這種程度并不容易,對此您有什么看法?
A4 汪凱:關于平臺,我想說一個詞是“迷思”。
我能看到的一個迷思,就是大家想著,啊我要去建平臺,建立平臺就有很多人來用,然后我就能建立一個 ecosystem,但實際上他們忘了一個最本源的東西(太技術驅動了),那就是為什么需要平臺?
如果你從第一天開始就想把它搞成平臺,那基本上是做不出來的。所以我覺得純做平臺的廠商不會做得特別大。你可以看到,最后變成平臺的都是有終端級應用的。淘寶也好,支付寶也好,或者應該說支付寶也是為了解決淘寶的問題而衍生出來的。
電商交易平臺本身最早的型態是阿里自己做的終端應用。他們要推廣這個概念,要培養用戶習慣,同時它要建立一個可參考的實現,這樣才能把用戶引導到一些服務體驗上來,最后把自己提供終端體驗的公共的東西抽象出來,把它平臺化,同時提供平臺的能力。
除了自己的終端,還要有自己的平臺能力,進而才能建立更廣的生態系統,讓其他的廠商、任何有需要的群體來使用,基本上過去幾年都是這樣的。
Webex 也是一樣。
我們有沒有平臺,我們是不是平臺?
答案是肯定的。
但我們是從第一天就在考慮要建平臺嗎?
答案又是否定的。
我們的用戶基礎是我們建立、推動平臺非常重要的一點,我們自己提供的落地的面向直接終端用戶的應用,則是證明我們平臺能力非常關鍵的要素,是證明我們平臺能夠變成平臺的很重要的流量和技術的驗證點。
為什么說做一個終端應用體驗很重要,因為通過這些你可以抽象出一個平臺的能力,并不是所有其他的廠商都有這個能力和資源去投入的。比如說我要了解音視頻的東西,我要了解網絡體系架構,還有這些信令數據流量怎么控制,我究竟要怎么做?
這些都是很關鍵的。平臺廠商一定要提供基于自己的面向終端用戶的應用,抽象出一個可被重用的 SDK,其他的廠商才能比較好地去嵌入到他們的這個場景里面去。
Q5 LiveVideoStack:Webex 未來幾年的發展方向是什么,會有哪些關鍵技術應用到視頻會議當中,以什么樣的形式呈現?
A5 汪凱:概括來說的話,就是 Smarter and More Humanity Empathy。
我想人性化這一點應該已經是行業默認的了,我們現在要努力推廣的概念,叫做認知協作(Cognitive Collaboration),就是感知性和認知協作,再加上智能化(Intelligence)。
在用戶體驗環節,要更多的考慮用戶是如何使用我們的服務的,同時注入更智能化的體驗,能夠自動感知用戶的意圖。比如用戶在什么樣的情況下會用 UI 或 UX,他想要進行哪些嘗試,他的目標又是什么。
在我們的視頻終端上,用戶可以直接呼出 Webex 小助手,可以讓它幫自己 schedule meeting,同時也可以在桌面和移動端結合語音控制。但我們不會專門去做類似 Siri、Alexa 這樣一些已有的東西,我們會有自己的特點,比如說將會議里人們的發言自動轉成字幕。
這也是最初始、最簡單的一個應用。做語音識別、字幕抓取以后,用戶在開視頻會議時就像看電影一樣,下面會有一個字幕欄,別人說的話你都能看得見。
同時,字幕中存在很關鍵、很豐富的信息,它包含了命令和行動。比如說明天要干些什么,或者說后續會議的安排,系統要辨別哪些信息是著重強調的、哪些是被重復過了的,這些都會被自動標記,最后生成一個會議紀要。這樣的一些東西某種程度上可以減少很多開會的附加的負擔。
在人性化(Human Empathy)方面,假設我們是第 1 天見面,但在在開會之前,我就想了解你:你是學生呢還是不是學生呢?是哪里人呢?喜歡什么呢?這些對商業會議來說都特別重要。
比如說我要去跟一個客戶高層去見面,那我希望能夠預先知道對方是什么級別,他的職務以及工作職責。
然后就是對方有什么喜好或者是已經公開的一些個人資料等等,因為人與人之間關系的建立、感情的連結,很多時候就是我們倆今天都看了同一場棒球賽啊、我聽說你也很喜歡滑雪啊之類的共同點的發現,這個很重要。
讓會議變得生動、讓人與人之間的連接更平滑,這是我們希望自己的平臺可以提供的服務。
當然,如果你要問它達到我們最理想的狀態沒有?答案是還沒有。因為包括 AI、5G 這些,也都是過去幾年才涌現出來的新技術。
它們還需要成熟,需要更精準地去優化。第一版通常都不會那么精準,因為算法需要不斷學習。
比如說我們在會里要翻譯、要把字幕抓下來,而印度人說的英語,中國人說的英語,日本人說的英語都不太一樣,這就需要一個算法學習的過程。但總體來說我們希望系統能夠越來越多地去自我感知,我認為這是接下來非常重大的一個突破方向。
因為只有這樣,這個工具才不會讓你覺得它只是一個工具,它會變成你的一個助手、一個工作上的伙伴。
我們想強調認知協作( Cognitive Collaboration)是智能化的,我們更關注的是如何把信息(如果只是從視頻會議的角度來說),在會前、會中、會后全部無縫地流通起來,形成一種持續的信息流(continuous information stream)。
比如說我們有一些算法,并且可以無縫、實時、不中斷的把信息流給到用戶,這是我們的一個目標,是 continuous information stream for meetings。
這些會前的協調準備、會中的輔助、會后的總結會讓用戶的會議體驗更好。包括會后的一些錄音、歸類,建立聯系等等,都會無縫地流轉,變成一個循環。
這是我們希望去打造的一個平臺。