首頁 > 書法

如何從零開始開發一款智慧軟體?

作者:由 驅動中國 發表于 書法日期:2022-05-20

怎麼降低文字的清晰度

現實中,你可以輕鬆無障礙的閱讀各類平面印刷文字以及身邊的一切,或許你未曾想過,視障人群該怎麼辦呢?

統計資料顯示,中國大約有1700萬的視障群體,相當於每100個人中就有超過1位是視障人士。但我們在日常生活中卻很少見到他們,那是因為視障群體在日常生活中會有諸多不便,出門對他們而言危機四伏。AI有可能成為他們的“眼睛”嗎?

成為他們的眼睛

白描

App

視障群體的故事

如果手機上只能有一款App,你會選擇哪一款?視障人士安之堅定地給出了答案——白描。因為白描App讓視力不佳的他用另一種方式“看”清世界,文字不再遙不可及。他用白描“看”過優美的詩篇,“聽”過動人的樂章,甚至在獨自上樓看不清所在樓層時,白描也準確地將答案告訴了他,將他從窘境中解救出來。一個App讓曾經望“字”興嘆的他更加勇敢的走出家門,參與豐富多彩的生活。

“白描是我的眼。”同為視障人士的小杰從不吝嗇對白描的誇讚,甚至直言白描是視障夥伴賴以生存的工具。白描幫助他解決了生活的難題,從各類電器、數碼產品、藥品說明書到各種洗漱用品包裝都可以識別,他還可以給可愛的小侄女講繪本故事。如果沒有白描,這種事情是他難以想象的。

如何從零開始開發一款智慧軟體?

白描是如何做到被視障群體視若珍寶的呢?白描App是一款簡潔高效的OCR文字識別軟體,不僅簡單好用,而且設計美觀,可以輕鬆實現“拍照-識別文字-朗讀結果”一系列流程。同時,白描適配了手機無障礙輔助功能,視障者可以在手機上非常輕鬆地操作。

如何從零開始開發一款智慧軟體?

“白描”這個詞本意是一種文學寫作手法,魯迅先生曾把這種手法概括成十二個字,即“有真意,去粉飾,少做作,勿賣弄”。白描App的開發者陶新樂正是這樣的一個人,他觀察到了不同人群的實際需求,用虛擬世界的程式碼滿足了現實世界有需求的人,讓他們的生活變得更加美好、便捷。

白描App開發者的心路歷程

切入不同場景

最佳化產品細節

你或許很難想象,作為一名個人開發者的陶新樂,他最早開發白描App是為了女朋友。陶新樂的女友熱愛閱讀,經常做讀書筆記。為了減輕抄錄壓力,她嘗試使用了當時市面上的各類文字識別軟體,但她發現:有的軟體操作流程繁瑣,有的費用高昂,有的則識別不準確……看到女朋友痛苦不已,陶新樂當下決定親自做個體驗好、效果佳的OCR文字識別工具給女朋友使用,並且很快付諸了行動。這或許就是開發者獨有的浪漫。

然而,一款App的開發過程是充滿未知與挑戰的。在當時的條件下,開發一款具有OCR功能的軟體,面臨的一個巨大挑戰是:如何讓文字識別的又快又準。因此,他調研了市面上提供此服務的廠商,並對不同廠商的產品進行了對比,嘗試識別不同場景的圖片,找出識別效果最好的那個。於是他發現,百度大腦AI開放平臺的OCR技術能力和使用體驗都是最好的,尤其是識別準確度更領先於其他廠商,所以在2017年他就毫不猶豫的選擇了百度OCR技術,並一直使用至今。

但是優秀的底層技術並不意味著全部,百度大腦OCR已提供近60項技術能力,好的技術也需要應用於匹配的場景才能發揮更大的價值。

於是,陶新樂首先對白描的使用場景做了細分研究,比如:學生上課拍PPT提取文字記筆記、企業員工把紙質合同掃描成電子版並且製作PDF、把紙質表格轉成Excel電子版、翻譯圖片上的文字、老師拍攝並識別試題後對試題再加工、律師用來提取紙質文書上的文字等等。特別的是,視障人群特殊的使用需求,他都有關注和調研。

如何從零開始開發一款智慧軟體?

考慮完使用者的使用場景之後,再者就是對產品的不斷打磨。當時,圖片轉文字常常會有識別錯誤的情況發生,為了彌補這一問題,在識別之前,白描APP會進行一些技術上的處理,比如影象壓縮如何保證清晰度又儘量減小圖片大小;如何在進行長圖自動裁剪時,檢測到長圖的空行位置自動裁剪,且不會裁到文字;如何針對文章進行自動分段,更便於讀者閱讀等等。這些精細化的產品設計保證了圖片的清晰度,讓文字資訊更易於被識別。而在識別之後,白描的校對功能,可以讓識別結果與原圖顯示在同一介面上,方便使用者快速找到需要修改的地方,在此基礎上進行編輯。

依託百度優秀的深度學習演算法和基於海量優質資料的預訓練模型,以及白描App的影象預處理能力,最終實現了關鍵欄位識別準確率99%+。看到女友使用白描時綻放的笑顏,陶新樂覺得一切都是值得的,他也希望更多人能夠享受到這份快樂。

成功的背後:用“匠人”之心雕琢產品之光

程式設計師出身的陶新樂在做產品這件事上一直懷揣一顆“匠人”之心。陶新樂提到,AI在落地的過程中會遇到很多的困難,很多時候都是一邊踩坑一邊向前走。當遇到無法解決的問題時,就需要不斷學習,攻堅克難。

百度大腦OCR技術與無數像陶新樂一樣的開發者並肩同行。作為最早規模化應用的AI技術之一,OCR技術的產業級應用持續取得突破。百度大腦OCR技術可提供多場景、多語種、高精度的文字檢測與識別服務,多項ICDAR指標居世界第一,已廣泛適用於遠端身份認證、財稅報銷、文件電子化等場景,為企業降本增效,為使用者帶來更智慧化的應用體驗。

如何從零開始開發一款智慧軟體?

當然,AI技術的應用落地,除了需要有百度大腦這樣提供領先AI技術能力的平臺外,還需要更多像陶新樂這樣的開發者們,發揮想象將AI應用在更多真實場景中,滿足不同使用者群體,甚至是容易被忽視的殘障人群的需求,讓社會更有“AI”。同時,為了降低獨立開發者和企業自主訓練OCR文字識別模型的門檻,百度大腦推出業界首個EasyDL OCR自訓練平臺,提供零門檻、定製化、低成本的一站式OCR模型訓練服務。保證高準確率的同時,滿足多元化的場景需求,並有效保障資料安全。

在這個科技為大眾生活賦能的時代,產品的設計更是一種普惠理念的輸出。已擁有超過800萬用戶的白描App,已經成為業界的口碑產品。相信,未來還將有越來越多的開發者透過百度大腦AI開放平臺提供的AI技術與服務,創造出更多與場景相結合的智慧應用,讓更多人生活更便捷、更美好。