1句話克隆真人語音，AI問診超96%全科醫生！科大訊飛年度黑科技秀

全科科技怎麼樣

楊淨蕭簫發自凹非寺

量子位報道 | 公眾號 QbitAI

企業擁有

265萬

開發者是一種什麼體驗？

是在最新財報上已經商業變現，開放平臺營收增速高達131%？

是

連續5年

在合肥振臂一呼，全球就迅速響應？

當然，這還不是全部。

在這一次開發者節上，科大訊飛董事長劉慶峰向全球開發者，攤開過去一年答卷。

科大訊飛AI開放平臺，至今已有441項核心技術；

每個月平均新增9萬開發者團隊，其中工業應用佔比達到60%；

醫療AI系統一年給出97萬份修正診療結果……

而像“遇強則強，遇弱則弱”的

圍棋機器人

、1分鐘定製專屬

AI數字人

、

3秒

判斷聲音畫像等這些技術成果更是成為展區的爆款！

第五屆全球開發者節究竟有何看頭？現在就帶你一文看盡。

科大訊飛最新技術成績

今年1024開發者節上，最先登場的科大訊飛董事長

劉慶峰

披露了取得的一系列最新成績。

其一，AI健康諮詢準確率超過絕大部分全科醫生。

在你就診時，健康諮詢AI系統會根據你的相關健康狀況，推薦你去對應醫院找專家就診。據劉慶峰介紹，目前科大訊飛的健康諮詢AI系統，已經超過

96.4%

的透過國家考試的全科醫生。

其二，醫療AI系統一年給出97萬份修正診療結果。

在過去一年中，科大訊飛的AI輔助診療系統，協助修正了97萬份安徽省基層醫生看病的診療初步結果。依賴於科大訊飛的醫療AI輔助診療系統，安徽基層醫生合理診斷度已經從70分提升到了80分，整體系統準確率已經達到97%以上。

其三，AI開放平臺核心技術達到441項。

2010 年，科大訊飛開放平臺正式上線，集成了語音合成、語音搜尋、自然語言處理和語音聽寫等多項能力，成為當時行業內開放最早的智慧語音平臺。如今，科大訊飛已經從最初的3項核心技術，進化到今天具備的441項核心AI能力與方案。

其四，1句話就能語音合成1個人的聲音。

據劉慶峰介紹，科大訊飛正在不斷的持續打造人工智慧的核心技術的領先引擎，包括無監督訓練等技術，讓機器用更小的資料、更少的標註學習更多的知識，現在在語音合成上已經實現一句話就能模仿一個人的音色。

在小語種識別上，科大訊飛提出的統一空間表達的半監督語音識別技術，使得研究人員只用

100個小時

的有監督語音和無標籤文字資料訓練，就能達到之前

10000小時

有監督語音資料訓練的效果。

其五，用AI讓學生無效作業時間平均降低50%。

據劉慶峰介紹，科大訊飛在安徽合肥率先用人工智慧助力

“雙減”

，利用AI複雜系統，結合OCR自動評分、語音推理等技術，分析學生的學習情況，對過程性作業考試資料進行評價，精準給予指導，將孩子的無效作業時間平均降低了50%。

這一系列亮眼的成績之上，劉慶峰公開了科大訊飛AI開放平臺2。0戰略，共包括6大措施：

劉慶峰表示，行業關鍵問題，需要各行業的人共同努力：

開發者可以不瞭解AI技術，只要有靈感、創意和想象力，就可以加入到AI開放平臺2。0來。

只有生態的繁榮，才能決定AI的未來。

AI開放平臺2。0升級

接下來，基於過去5年的開發者生態積累，科大訊飛總裁吳曉如提出

1024計劃5.0

——用系統性創新，打造人工智慧產業新生態。

當中最重要的部分，就是AI開放平臺2。0的釋出。

與過去1。0相比，簡單來說，就是

二維到三維

的升級。

以往的解決方案，都是單向提供給創業夥伴，但隨著人工智慧逐漸向傳統產業落地，需要解決的問題更為複雜，需要系統性架構來解決。

既然如此，就需要與行業龍頭打造基線底座模型，再與上下游合作伙伴展開合作，形成完整的行業方案。

以

智慧農業

為例。

訊飛就與中國農業大學展開合作，共同研發預測生產模型、澆水施肥模型等，然後提供給感測器等上下游供應商，共同將方案提供給業內的合作伙伴。

目前，科大訊飛首次推出18個行業，並表示將每年投入5億研發基金，服務100萬開發者。

既然如此，那該如何推動開放平臺2。0的戰略？有

四大維度

。

1、與高校合作開設人工智慧專業，目前已經開發339門課程，培養超60萬開發者。

2、與合作伙伴籌建智慧語音創新中心，為每個行業制定標準測試環境。

3、舉辦頂尖賽事，選出行業標杆。正如此次1024開發者節，就舉辦了兼具行業應用、學術研究、公益等105個賽道賽事，共有兩萬多支隊伍報名。

3、孵化創新企業，提供優質資源。除了中國聲谷之外，訊飛在全國共有十餘家雙創基地。

四大技術方向突破

接著，科大訊飛高階副總裁、AI研究院院長

胡國平

，就分享了四大技術方向的突破。

嗯，實際上就是去年釋出的“AI科技樹”，今年已然開出一些果來。

第一項，

端到端建模

技術。

這項技術將前端多路訊號直接同步輸入到後端聲學模組，來實現更精細的建模，可實現複雜（比如嘈雜環境）場景下的一體化語音識別、語音翻譯等。

在語音識別上，以賣場為例，這項技術成功將只有35%的語音識別準確率，提升到了88%；同時語音喚醒的成功率，也成功從40%提升到了90%。

在語音翻譯上，科大訊飛還成功在IWSLT國際口語機器翻譯大賽的

同傳任務

上，包攬了三個賽道的冠軍。

第二項，

無監督訓練

技術。

為了降低對語音合成資料規模的要求，科大訊飛提出了

聽感量化編碼

，充分藉助語音識別資料來合成音庫，成功實現了多人混合模型訓練。

在小語種識別上，提出的統一空間表達的半監督語音識別技術，使得只用

100個小時

的有監督語音和無標籤文字資料，就能達到之前

10000小時

有監督語音資料訓練的效果。

在語音合成上，利用無監督訓練甚至實現了發音內容、情感和音色

分別可控

的效果，例如1句話合成語音、方言自由切換等等……

注意，不止是普通的四川和合肥話，科大訊飛甚至開放了6種船新的少數民族語種：

第三，

多模態融合

技術。

在人機互動上，現在甚至已經不需要喚醒詞了，機器會看到你的嘴型，從而自動判斷你“是否在對它說話”，並自動做出應答，誤喚醒率降低到

0.01%

。

在複雜文件

（例如試卷）

識別上，多模態技術會結合OCR、手寫數學公式識別等技術，將一張紙上的所有資訊準確識別出來，已經實現教輔作業批改準確率從92%進化到98%的效果。

第四，

外部知識融入

技術。

我們都知道，做語音互動的AI總是有點“呆”，這是因為它們雖然學習了不少技術知識和新科技，但對人類的一些

常識

掌握得卻還不夠深。

為了提升AI在這方面的“人情味”，科大訊飛特意將人類的常識和知識整理成一個事理圖譜。

像兒童玩具互動場景中，就包括“搶玩具”“收拾玩具”這樣具體的動作，讓它知道人類平時會做、會說的事情。

這樣，在面對小朋友亂拋玩具時，AI就能從容說出“來收拾一下玩具”這樣的語句，而不是隻會幫小朋友一遍遍親自收拾玩具。

又例如電子病歷場景下，運用外部知識融入技術也能讓AI學習到人類醫生看病的經驗，最終將罕見病診斷率從

87%

提升到了

93%

，整體病情判斷準確率從

92%

提升到了

95%

。

兩大平臺+生態助力產業

最後面向合作伙伴，科大訊飛交出自身探索成果——

兩大平臺+兩大生態

。

首先是企業數字化平臺的釋出和虛擬人互動平臺的開放。

簡單來說，這個企業數字化平臺其實是原來的AI開放平臺基礎上，配置了RPA引擎，從而具有智慧化、自動化

（RPA）

、低程式碼、流程管理等特性。

以智慧招聘為例，這位“虛擬小助理”可以在前期分發資訊、電話通知等重複性工作上替代HR的工作，據稱流程

至少提效10倍

。

除了企業數字化平臺的釋出以外，還開放了虛擬人互動平臺。

值得一提的是，在傳統意義上開放給開發者外，還接受聲音、形象提供者提供相應的資料，以應用於各類應用場景。

實際上，在過去一年裡，這個互動平臺已經在400+個企業客戶進行試點，應用在了新聞生產、企業客服、泛娛樂營銷等場景，新增54個形象，彙集了4988份聲音。

接著，就是科大訊飛過去一年中成績最顯著的兩大生態：教育+城市。

在教育生態上，科大訊飛今年提出了三大計劃，包括

教育科研基金資助計劃

，即在未來三年投入

1個億

的科研基金，開展前沿的理論與應用的研究；

此外

合作伙伴聯合創新計劃

，設立創新孵化投資基金，每年投入1億元，技術上提供300人以上的技術和市場領域的專家服務；

還有

教學教研聯盟的公益計劃

，預計新增建設10個區域聯合教研機構、100所名校聯盟新增合作校，推動內容共創平臺新增骨幹教研員

1萬名

。

在

城市生態

上，據科大訊飛高階副總裁張友國表示，科大訊飛預計在2025年的智慧城市中，實現一年銷售收入150億，在“十四五”期間實現約500億收入，其中預計60%

（約300億）

的收入，科大訊飛都會分享給生態合作伙伴。

人工智慧的未來：由表及裡的生態

一天釋出會下來，聽到最多的一個關鍵詞就是生態。

隨著浪潮向前，人工智慧不再像此前那般是一個觸不可及的概念，而是真正普惠於民、用之於民的全民技術。

“幫助每個人、陪伴每個人、更懂每個人”，這是科大訊飛所描述的AI未來。

而預見未來最好的方式，就是共創未來。

去年這個時候，劉慶峰在演講的最後提到，

唯有生態，才能生生不息

。

今年開發者節上，“生態”的味道更加明晰，從技術、到產業，再到開發者從內到外全面滲透。

作為一家上市13年的老牌企業，正在用這種方式去完成人工智慧產業的全面盛放。

One More Thing

對了，在本次開發者節上，還有其他意想不到的亮點。

比如，安徽人

餘承東

回到家鄉，在父老鄉親面前“帶貨”。

（手動狗頭）

— 完 —

量子位 QbitAI · 頭條號簽約

1句話克隆真人語音，AI問診超96%全科醫生！科大訊飛年度黑科技秀

相關文章

猜你喜歡