對于人機間交互的未來趨勢,王小川認為,未來跟語言相關的應用場景,更多要靠人機耦合互動的方式,向人類提供幫助。
文|《中國企業家》記者 崔鵬
編輯|劉宇翔
圖片來源|中企圖庫
12月8日至9日,由《中國企業家》雜志社主辦的2019(第十八屆)中國企業領袖年會在北京盛大舉行。本屆年會以“決勝2020”為主題,董明珠、劉永好、陳東升、王石、宋志平、宗慶后等上百位企業領袖齊聚一堂,上千位行業領軍者到場。
9日上午,搜狗公司創始人、CEO王小川在大會現場發表演講,闡述人工智能(AI)的發展方向,以及搜狗在AI領域的發力方向,尤其是在語言AI方面的嘗試與積累。
王小川認為,目前AI在C端(消費者端)并沒有太多商業模式方面的成功案例,更多在做的是to B(產業互聯網)相關的事情。
在他看來,智能音箱并不是AI在硬件領域的未來產品形態。首先,AI硬件正從固定設備走向移動化,智能硬件的走勢應該是便捷化和穿戴化;其次,智能硬件應該更加IoT導向,而不是計算力導向。
在人工智能領域,搜狗目前的探索方向是“語言”,其中包含語音識別、語音合成以及分身技術等。
“人工智能還沒有創造力和推理能力,就是因為它對語言沒有充分的理解。”王小川說,這恰恰是搜狗要攻克的問題。
搜狗從2012年開始提出自己的人工智能理念,在以自然交互和知識計算為核心的語言AI戰略下,截至目前,搜狗已經在這條路徑上推出了AI錄音筆和AI合成主播等不同產品。
對于人機間交互的未來趨勢,王小川認為,未來跟語言相關的應用場景,更多要靠人機耦合互動的方式,向人類提供幫助。
在現場提問環節,阿里巴巴產業互聯網中心主任陳威如向王小川提問,未來是否有可能制造出一個機器人,能理解人類情緒,成為人類心靈的伙伴。
王小川回答說,以人類目前已知的技術無法做到這一點,機器本身對語言的理解已經非常困難,如果要理解人類的心靈,目前沒有任何技術可以做到,但“一旦做到,機器就可能系統性的取代人類”。
以下為王小川在2019(第十八屆)中國企業領袖年會上的演講內容:
智能音箱不是未來AI硬件形態
2016年的時候AlphaGo面市,大家都覺得AI時代來了,結果三年過去,這個概念仿佛又變得模糊了。AI今天主要是做to B的事情,在商業模式里,C端并沒有見到多少成功案例。
今年3月份搜狗錄音筆開賣,這是第一款完整繼承搜狗AI能力的硬件。用戶拿到錄音筆之后直接就能轉寫成文字,能云端存儲,能夠檢索,能夠生成文章的摘要,幫助用戶做編輯。所以,一切東西都發生了本質的變化,這款硬件不僅是對傳統收音功能改進,對聲音背后意義的理解和處理也達到一個新高度,它甚至還有同聲傳譯的翻譯能力。
我認為目前的智能音箱不是AI硬件未來的產品形態。這塊有兩大法則:首先,AI硬件是從固定設備開始走向移動化,從攜帶開始變成穿戴,越來越輕便,所以智能硬件未來的趨勢是便捷化和穿戴化。
另外就是更加的IoT導向。以前的PC機是計算力導向,內存大、速度快。后來有了聲音、麥克風、各種傳感器、GPS以及移動傳感器,再到后面加入磁力計和心率監控,硬件能從環境中捕獲更多數據,這些數據來自身體感官,智能硬件逐步從人適應機器走向機器適應人。
所以基于這兩個趨勢我對音箱有保留意見,它既不夠移動,也不夠IO,它不是未來的主線。
搜狗的競爭力在哪?
搜狗的競爭力在什么地方呢?我們使用了一個技術方面很性感的詞,叫做“語言”。現在做圖像的很多,做語音的也有很多。語言在領域內是最有挑戰性,也最誘惑的事情。
當外界談到人工智能的時候,如果用戶看到一個機器,談論它是否智能,可能第一反應就是跟它聊兩句,如果它能跟你對話,能回答你的問題,用戶就覺得它很智能,這是我們本性中對智能的理解。在圖靈測試中也提到,能跟你對話的機器就是具有了人工智能。
今天大家認為人工智能可以解決重復性的勞動,就是因為人工智能還沒有創造力和推理能力,就是因為它對語言沒有充分的理解,這就是搜狗要攻克的問題。
搜狗之前做過輸入法,也做過搜索,前一個是用語言幫助用戶表達信息,后一個是用語言幫助用戶獲取信息。因此搜狗擁有很好的場景,在語言里面幫助用戶做輸入和輸出。
當下人工智能領域有兩個核心概念,一個是感知問題,就是模仿人的大腦連接,深度學習獲得語音圖像的能力,這類產品形態我們稱之為“自然交互”,機器能夠產生理解人行為的能力,能夠表達人類的聲音和圖像。
比如以前的輸入法用五筆,后來是拼音輸入,現在用戶能使用表情、手勢來驅動,讓機器以人的方式來進行溝通,這是一個非常重要的事,是以語言為核心的自然交互,是跟我們的感知系統特別的相關。
另外一件事情稱為“知識計算”,就是在語言之上提取出跟語言的關聯關系,在里面產生推理能力和知識的觀念能力,這叫計算能力。
前面講的是感知,后面講的是認知。
因此搜狗從2012年開始提出自己核心理念,就是圍繞著自然交互和知識計算去發展屬于自己的核心語言AI能力。
在自然交互領域內,搜狗目前更關注OCR,做文字的理解,以及語音、唇語的識別等跟語言密切相關的部分。
在知識計算領域內,對話、問答和翻譯更為搜狗所重視。翻譯是知識計算里面比較簡單的事情,在對知識的理解程度上,相較于對話和問答更淺顯。搜狗已經進行的嘗試有翻譯中的同傳,視覺翻譯,實時的同傳翻譯,用中文搜索全球信息的翻譯等。
搜狗因為有輸入法,所以今年的語音識別請求已經超過8億次,在峰值的時候,搜狗是最大的語音識別應用,它是包含在輸入法里面的。
對于現在的語音識別引擎來說,最新的要求是提取出更多人和語義:
首先,要做人物的分割,不同的人說話的時候,AI能通過聲紋做切割,分清楚每個人分別是誰。
其次,AI要能把聲音中的笑聲、掌聲和音樂聲識別出來,因此它不僅要識別語音文字,還要識別其他結構化的信息,甚至一聲狗叫也能識別并告訴用戶。
第三,中英文混合識別是行業前沿的難點。這類識別,調動的不僅是語音識別感知的系統,還牽扯到人類的認知結構。因為兩種語言嵌套在一起,所以AI聽的時候會突然發現語義不對,這個技術已經超越了目前深度學習的能力。
除了語音識別之外,語音合成是搜狗在做的另一項前沿工作。
目前已經有技術能做到合成各種在線、離線的男女聲音,甚至多種語言的合成。這里的難點在于,如何把情感帶入進一種聲音,合成另外一個人的聲音。
怎么理解呢?就是人類講話是帶有情感的,但機器沒有情感表達的能力,如果用“聲音皮膚”貼上去,就可以合成出帶著情感的“人聲”,這是行業中最核心的能力。
今天的語音技術、人工智能技術,還不能承擔表演的職能,它只能做一些簡單的合成,表演需要AI在語義背后做深刻的理解。
現在雖然做不到讓AI去表演,但搜狗會用其他方法,采集一個人的聲音,讓機器分析,進而能合成、模擬出這個人的聲音,目前已經可以標準化輸出,這項技術有機會改變整個行業的音頻生產模式。
搜狗已經在和一些內容工作者進行相關的音頻輸出嘗試,但隨之而來的一個問題就是,如何分辨人類的勞動成果,到底是對外輸出的知識本身,還是人類的表演本身,機器在其中扮演什么樣的角色?除了產權和法律問題以外,還有更多倫理和價值的梳理工作。
搜狗在研究的另一個重要方向,是分身技術。它不是單純的語音合成,而是真人的視覺合成。
此前,搜狗已經與新華社的一位主持人合作,利用她的視覺和聲音,經過建模后獲得主持人的視覺合成能力。只要輸入一段文字就能合成這位主持人的視頻播報,它目前已經取代了這位主持人的部分工作,播報過3000多條內容,也是全球首個取代人的“AI主播”。
讓機器更好地輔助人
中國目前是世界人口第一大國,大概有15億人講中文。第二大語言是西班牙語,第三是印度語,第四大才是英文,只占全球4%。但是今天95%的網上信息表達是英文,近100%的商貿活動是用英文寫的。因此中國人要學很多年英文去跟世界進行交流。
搜狗覺得有責任讓中國人不需要深入當地生活,研究當地語言,也可以用機器輔助人交流。
2016年搜狗全球首個發布從中文到英文的同傳系統,2017年做了跨語言的搜索引擎,你可以用中文搜索全球信息,英文或者日韓信息都可以,然后翻譯成中文信息。去年三季度發布全球首個英文到中文的同傳系統,并且已經在一些不嚴肅的場合投入使用。
今天AI做的還是重復性較高、沒有創造性的勞動,那些有創造力或者需要有表演才能的工作,今天機器還沒法取代。
人類的文化越長,對AI的各項能力要求越高。隨著深度學習的發展,對語言的初步處理已經可以產生簡單的對話和問答能力,這就有機會在搜索行業中做一些改變。以后問題和答案會變成常見的與機器溝通的方式,這也是自然交互的升級,充分利用了知識計算的能力。
現在有很多的公司在干類似的事,比如說國內的音箱產品,或者國外的Amazon的Echo,還有Google Assistant,都在嘗試在對話問答中做一些工作,搜狗也在做類似的產品。
不同的是,搜狗的問答技術不是在數據庫檢索,而是能同時對網上百億的網頁中間尋找答案,不過機器并不擅長推理,它有超越人的地方,但跟人類相比,還有很多不足的地方。
所以未來在語言相關的地方,更多是靠人機耦合互動的方式,才能為人類提供相關幫助。
【觀信股票財經網的新聞、圖片、音視頻等稿件均為轉載。如稿件涉及版權等問題,請與我們聯系刪除或處理,稿件內容僅為行業信息傳遞,不代表本站觀點。】