中国中铁股票：王小川：AI还不具备创造和推理能力，无法取代人类|品高尚财经网

對于人機間交互的未來趨勢，王小川認為，未來跟語言相關的應用場景，更多要靠人機耦合互動的方式，向人類提供幫助。文｜《中國企業家》記者崔鵬編輯｜劉宇翔圖片來源｜中企圖庫12月8日至9日，由《中國企業家》雜志社主辦的2019（第十八屆）中國企業領

對于人機間交互的未來趨勢，王小川認為，未來跟語言相關的應用場景，更多要靠人機耦合互動的方式，向人類提供幫助。

文｜《中國企業家》記者崔鵬

編輯｜劉宇翔

圖片來源｜中企圖庫

12月8日至9日，由《中國企業家》雜志社主辦的2019（第十八屆）中國企業領袖年會在北京盛大舉行。本屆年會以“決勝2020”為主題，董明珠、劉永好、陳東升、王石、宋志平、宗慶后等上百位企業領袖齊聚一堂，上千位行業領軍者到場。

9日上午，搜狗公司創始人、CEO王小川在大會現場發表演講，闡述人工智能（AI）的發展方向，以及搜狗在AI領域的發力方向，尤其是在語言AI方面的嘗試與積累。

王小川認為，目前AI在C端（消費者端）并沒有太多商業模式方面的成功案例，更多在做的是to B（產業互聯網）相關的事情。

在他看來，智能音箱并不是AI在硬件領域的未來產品形態。首先，AI硬件正從固定設備走向移動化，智能硬件的走勢應該是便捷化和穿戴化；其次，智能硬件應該更加IoT導向，而不是計算力導向。

在人工智能領域，搜狗目前的探索方向是“語言”，其中包含語音識別、語音合成以及分身技術等。

“人工智能還沒有創造力和推理能力，就是因為它對語言沒有充分的理解。”王小川說，這恰恰是搜狗要攻克的問題。

搜狗從2012年開始提出自己的人工智能理念，在以自然交互和知識計算為核心的語言AI戰略下，截至目前，搜狗已經在這條路徑上推出了AI錄音筆和AI合成主播等不同產品。

對于人機間交互的未來趨勢，王小川認為，未來跟語言相關的應用場景，更多要靠人機耦合互動的方式，向人類提供幫助。

在現場提問環節，阿里巴巴產業互聯網中心主任陳威如向王小川提問，未來是否有可能制造出一個機器人，能理解人類情緒，成為人類心靈的伙伴。

王小川回答說，以人類目前已知的技術無法做到這一點，機器本身對語言的理解已經非常困難，如果要理解人類的心靈，目前沒有任何技術可以做到，但“一旦做到，機器就可能系統性的取代人類”。

以下為王小川在2019（第十八屆）中國企業領袖年會上的演講內容：

智能音箱不是未來AI硬件形態

2016年的時候AlphaGo面市，大家都覺得AI時代來了，結果三年過去，這個概念仿佛又變得模糊了。AI今天主要是做to B的事情，在商業模式里，C端并沒有見到多少成功案例。

今年3月份搜狗錄音筆開賣，這是第一款完整繼承搜狗AI能力的硬件。用戶拿到錄音筆之后直接就能轉寫成文字，能云端存儲，能夠檢索，能夠生成文章的摘要，幫助用戶做編輯。所以，一切東西都發生了本質的變化，這款硬件不僅是對傳統收音功能改進，對聲音背后意義的理解和處理也達到一個新高度，它甚至還有同聲傳譯的翻譯能力。

我認為目前的智能音箱不是AI硬件未來的產品形態。這塊有兩大法則：首先，AI硬件是從固定設備開始走向移動化，從攜帶開始變成穿戴，越來越輕便，所以智能硬件未來的趨勢是便捷化和穿戴化。

另外就是更加的IoT導向。以前的PC機是計算力導向，內存大、速度快。后來有了聲音、麥克風、各種傳感器、GPS以及移動傳感器，再到后面加入磁力計和心率監控，硬件能從環境中捕獲更多數據，這些數據來自身體感官，智能硬件逐步從人適應機器走向機器適應人。

所以基于這兩個趨勢我對音箱有保留意見，它既不夠移動，也不夠IO，它不是未來的主線。

搜狗的競爭力在哪？

搜狗的競爭力在什么地方呢？我們使用了一個技術方面很性感的詞，叫做“語言”。現在做圖像的很多，做語音的也有很多。語言在領域內是最有挑戰性，也最誘惑的事情。

當外界談到人工智能的時候，如果用戶看到一個機器，談論它是否智能，可能第一反應就是跟它聊兩句，如果它能跟你對話，能回答你的問題，用戶就覺得它很智能，這是我們本性中對智能的理解。在圖靈測試中也提到，能跟你對話的機器就是具有了人工智能。

今天大家認為人工智能可以解決重復性的勞動，就是因為人工智能還沒有創造力和推理能力，就是因為它對語言沒有充分的理解，這就是搜狗要攻克的問題。

搜狗之前做過輸入法，也做過搜索，前一個是用語言幫助用戶表達信息，后一個是用語言幫助用戶獲取信息。因此搜狗擁有很好的場景，在語言里面幫助用戶做輸入和輸出。

當下人工智能領域有兩個核心概念，一個是感知問題，就是模仿人的大腦連接，深度學習獲得語音圖像的能力，這類產品形態我們稱之為“自然交互”，機器能夠產生理解人行為的能力，能夠表達人類的聲音和圖像。

比如以前的輸入法用五筆，后來是拼音輸入，現在用戶能使用表情、手勢來驅動，讓機器以人的方式來進行溝通，這是一個非常重要的事，是以語言為核心的自然交互，是跟我們的感知系統特別的相關。

另外一件事情稱為“知識計算”，就是在語言之上提取出跟語言的關聯關系，在里面產生推理能力和知識的觀念能力，這叫計算能力。

前面講的是感知，后面講的是認知。

因此搜狗從2012年開始提出自己核心理念，就是圍繞著自然交互和知識計算去發展屬于自己的核心語言AI能力。

在自然交互領域內，搜狗目前更關注OCR，做文字的理解，以及語音、唇語的識別等跟語言密切相關的部分。

在知識計算領域內，對話、問答和翻譯更為搜狗所重視。翻譯是知識計算里面比較簡單的事情，在對知識的理解程度上，相較于對話和問答更淺顯。搜狗已經進行的嘗試有翻譯中的同傳，視覺翻譯，實時的同傳翻譯，用中文搜索全球信息的翻譯等。

搜狗因為有輸入法，所以今年的語音識別請求已經超過8億次，在峰值的時候，搜狗是最大的語音識別應用，它是包含在輸入法里面的。

對于現在的語音識別引擎來說，最新的要求是提取出更多人和語義：

首先，要做人物的分割，不同的人說話的時候，AI能通過聲紋做切割，分清楚每個人分別是誰。

其次，AI要能把聲音中的笑聲、掌聲和音樂聲識別出來，因此它不僅要識別語音文字，還要識別其他結構化的信息，甚至一聲狗叫也能識別并告訴用戶。

第三，中英文混合識別是行業前沿的難點。這類識別，調動的不僅是語音識別感知的系統，還牽扯到人類的認知結構。因為兩種語言嵌套在一起，所以AI聽的時候會突然發現語義不對，這個技術已經超越了目前深度學習的能力。

除了語音識別之外，語音合成是搜狗在做的另一項前沿工作。

目前已經有技術能做到合成各種在線、離線的男女聲音，甚至多種語言的合成。這里的難點在于，如何把情感帶入進一種聲音，合成另外一個人的聲音。

怎么理解呢？就是人類講話是帶有情感的，但機器沒有情感表達的能力，如果用“聲音皮膚”貼上去，就可以合成出帶著情感的“人聲”，這是行業中最核心的能力。

今天的語音技術、人工智能技術，還不能承擔表演的職能，它只能做一些簡單的合成，表演需要AI在語義背后做深刻的理解。

現在雖然做不到讓AI去表演，但搜狗會用其他方法，采集一個人的聲音，讓機器分析，進而能合成、模擬出這個人的聲音，目前已經可以標準化輸出，這項技術有機會改變整個行業的音頻生產模式。

搜狗已經在和一些內容工作者進行相關的音頻輸出嘗試，但隨之而來的一個問題就是，如何分辨人類的勞動成果，到底是對外輸出的知識本身，還是人類的表演本身，機器在其中扮演什么樣的角色？除了產權和法律問題以外，還有更多倫理和價值的梳理工作。

搜狗在研究的另一個重要方向，是分身技術。它不是單純的語音合成，而是真人的視覺合成。

此前，搜狗已經與新華社的一位主持人合作，利用她的視覺和聲音，經過建模后獲得主持人的視覺合成能力。只要輸入一段文字就能合成這位主持人的視頻播報，它目前已經取代了這位主持人的部分工作，播報過3000多條內容，也是全球首個取代人的“AI主播”。

讓機器更好地輔助人

中國目前是世界人口第一大國，大概有15億人講中文。第二大語言是西班牙語，第三是印度語，第四大才是英文，只占全球4%。但是今天95%的網上信息表達是英文，近100%的商貿活動是用英文寫的。因此中國人要學很多年英文去跟世界進行交流。

搜狗覺得有責任讓中國人不需要深入當地生活，研究當地語言，也可以用機器輔助人交流。

2016年搜狗全球首個發布從中文到英文的同傳系統，2017年做了跨語言的搜索引擎，你可以用中文搜索全球信息，英文或者日韓信息都可以，然后翻譯成中文信息。去年三季度發布全球首個英文到中文的同傳系統，并且已經在一些不嚴肅的場合投入使用。

今天AI做的還是重復性較高、沒有創造性的勞動，那些有創造力或者需要有表演才能的工作，今天機器還沒法取代。

人類的文化越長，對AI的各項能力要求越高。隨著深度學習的發展，對語言的初步處理已經可以產生簡單的對話和問答能力，這就有機會在搜索行業中做一些改變。以后問題和答案會變成常見的與機器溝通的方式，這也是自然交互的升級，充分利用了知識計算的能力。

現在有很多的公司在干類似的事，比如說國內的音箱產品，或者國外的Amazon的Echo，還有Google Assistant，都在嘗試在對話問答中做一些工作，搜狗也在做類似的產品。

不同的是，搜狗的問答技術不是在數據庫檢索，而是能同時對網上百億的網頁中間尋找答案，不過機器并不擅長推理，它有超越人的地方，但跟人類相比，還有很多不足的地方。

所以未來在語言相關的地方，更多是靠人機耦合互動的方式，才能為人類提供相關幫助。

【觀信股票財經網的新聞、圖片、音視頻等稿件均為轉載。如稿件涉及版權等問題，請與我們聯系刪除或處理，稿件內容僅為行業信息傳遞，不代表本站觀點。】