如何從零開始開發一款智慧軟體？

怎麼降低文字的清晰度

現實中，你可以輕鬆無障礙的閱讀各類平面印刷文字以及身邊的一切，或許你未曾想過，視障人群該怎麼辦呢？

統計資料顯示，中國大約有1700萬的視障群體，相當於每100個人中就有超過1位是視障人士。但我們在日常生活中卻很少見到他們，那是因為視障群體在日常生活中會有諸多不便，出門對他們而言危機四伏。AI有可能成為他們的“眼睛”嗎？

成為他們的眼睛

：

白描

App

與

視障群體的故事

如果手機上只能有一款App，你會選擇哪一款？視障人士安之堅定地給出了答案——白描。因為白描App讓視力不佳的他用另一種方式“看”清世界，文字不再遙不可及。他用白描“看”過優美的詩篇，“聽”過動人的樂章，甚至在獨自上樓看不清所在樓層時，白描也準確地將答案告訴了他，將他從窘境中解救出來。一個App讓曾經望“字”興嘆的他更加勇敢的走出家門，參與豐富多彩的生活。

“白描是我的眼。”同為視障人士的小杰從不吝嗇對白描的誇讚，甚至直言白描是視障夥伴賴以生存的工具。白描幫助他解決了生活的難題，從各類電器、數碼產品、藥品說明書到各種洗漱用品包裝都可以識別，他還可以給可愛的小侄女講繪本故事。如果沒有白描，這種事情是他難以想象的。

白描是如何做到被視障群體視若珍寶的呢？白描App是一款簡潔高效的OCR文字識別軟體，不僅簡單好用，而且設計美觀，可以輕鬆實現“拍照-識別文字-朗讀結果”一系列流程。同時，白描適配了手機無障礙輔助功能，視障者可以在手機上非常輕鬆地操作。

“白描”這個詞本意是一種文學寫作手法，魯迅先生曾把這種手法概括成十二個字，即“有真意，去粉飾，少做作，勿賣弄”。白描App的開發者陶新樂正是這樣的一個人，他觀察到了不同人群的實際需求，用虛擬世界的程式碼滿足了現實世界有需求的人，讓他們的生活變得更加美好、便捷。

白描App開發者的心路歷程

：

切入不同場景

、

最佳化產品細節

你或許很難想象，作為一名個人開發者的陶新樂，他最早開發白描App是為了女朋友。陶新樂的女友熱愛閱讀，經常做讀書筆記。為了減輕抄錄壓力，她嘗試使用了當時市面上的各類文字識別軟體，但她發現：有的軟體操作流程繁瑣，有的費用高昂，有的則識別不準確……看到女朋友痛苦不已，陶新樂當下決定親自做個體驗好、效果佳的OCR文字識別工具給女朋友使用，並且很快付諸了行動。這或許就是開發者獨有的浪漫。

然而，一款App的開發過程是充滿未知與挑戰的。在當時的條件下，開發一款具有OCR功能的軟體，面臨的一個巨大挑戰是：如何讓文字識別的又快又準。因此，他調研了市面上提供此服務的廠商，並對不同廠商的產品進行了對比，嘗試識別不同場景的圖片，找出識別效果最好的那個。於是他發現，百度大腦AI開放平臺的OCR技術能力和使用體驗都是最好的，尤其是識別準確度更領先於其他廠商，所以在2017年他就毫不猶豫的選擇了百度OCR技術，並一直使用至今。

但是優秀的底層技術並不意味著全部，百度大腦OCR已提供近60項技術能力，好的技術也需要應用於匹配的場景才能發揮更大的價值。

於是，陶新樂首先對白描的使用場景做了細分研究，比如：學生上課拍PPT提取文字記筆記、企業員工把紙質合同掃描成電子版並且製作PDF、把紙質表格轉成Excel電子版、翻譯圖片上的文字、老師拍攝並識別試題後對試題再加工、律師用來提取紙質文書上的文字等等。特別的是，視障人群特殊的使用需求，他都有關注和調研。

考慮完使用者的使用場景之後，再者就是對產品的不斷打磨。當時，圖片轉文字常常會有識別錯誤的情況發生，為了彌補這一問題，在識別之前，白描APP會進行一些技術上的處理，比如影象壓縮如何保證清晰度又儘量減小圖片大小；如何在進行長圖自動裁剪時，檢測到長圖的空行位置自動裁剪，且不會裁到文字；如何針對文章進行自動分段，更便於讀者閱讀等等。這些精細化的產品設計保證了圖片的清晰度，讓文字資訊更易於被識別。而在識別之後，白描的校對功能，可以讓識別結果與原圖顯示在同一介面上，方便使用者快速找到需要修改的地方，在此基礎上進行編輯。

依託百度優秀的深度學習演算法和基於海量優質資料的預訓練模型，以及白描App的影象預處理能力，最終實現了關鍵欄位識別準確率99%+。看到女友使用白描時綻放的笑顏，陶新樂覺得一切都是值得的，他也希望更多人能夠享受到這份快樂。

成功的背後：用“匠人”之心雕琢產品之光

程式設計師出身的陶新樂在做產品這件事上一直懷揣一顆“匠人”之心。陶新樂提到，AI在落地的過程中會遇到很多的困難，很多時候都是一邊踩坑一邊向前走。當遇到無法解決的問題時，就需要不斷學習，攻堅克難。

百度大腦OCR技術與無數像陶新樂一樣的開發者並肩同行。作為最早規模化應用的AI技術之一，OCR技術的產業級應用持續取得突破。百度大腦OCR技術可提供多場景、多語種、高精度的文字檢測與識別服務，多項ICDAR指標居世界第一，已廣泛適用於遠端身份認證、財稅報銷、文件電子化等場景，為企業降本增效，為使用者帶來更智慧化的應用體驗。

當然，AI技術的應用落地，除了需要有百度大腦這樣提供領先AI技術能力的平臺外，還需要更多像陶新樂這樣的開發者們，發揮想象將AI應用在更多真實場景中，滿足不同使用者群體，甚至是容易被忽視的殘障人群的需求，讓社會更有“AI”。同時，為了降低獨立開發者和企業自主訓練OCR文字識別模型的門檻，百度大腦推出業界首個EasyDL OCR自訓練平臺，提供零門檻、定製化、低成本的一站式OCR模型訓練服務。保證高準確率的同時，滿足多元化的場景需求，並有效保障資料安全。

在這個科技為大眾生活賦能的時代，產品的設計更是一種普惠理念的輸出。已擁有超過800萬用戶的白描App，已經成為業界的口碑產品。相信，未來還將有越來越多的開發者透過百度大腦AI開放平臺提供的AI技術與服務，創造出更多與場景相結合的智慧應用，讓更多人生活更便捷、更美好。

如何從零開始開發一款智慧軟體？

相關文章

猜你喜歡