• 中國臺灣網(wǎng)移動版

    中國臺灣網(wǎng)移動版

教AI認(rèn)手語的年輕人:借助科技讓更多聾人被“聽見”

2021-12-29 09:45:00
來源:新華每日電訊
字號

  教AI認(rèn)手語的年輕人

  他們借助科技力量,試圖讓更多聾人被“聽見”“聽懂”

  本報記者雷琨、李亭、梁姊

  今年5月,世界智能大會現(xiàn)場,一個“手語角”吸引了不少人駐足。只要在攝像頭前打出手語,身后的顯示屏上就會出現(xiàn)語意連貫的文字翻譯。這套由天津理工大學(xué)聾人工學(xué)院和計算機學(xué)院共同參與研發(fā)的“復(fù)雜場景下中國手語實時翻譯系統(tǒng)”(下簡稱“手語實時翻譯系統(tǒng)”),已經(jīng)覆蓋了教育、法律咨詢、餐飲、交通幾大應(yīng)用場景,在光線充足穩(wěn)定的室內(nèi),識別率最高能達到95%,部分場景下可以實現(xiàn)“秒翻”。

  王建源是研發(fā)團隊的成員之一。他是聾人家庭長大的聾兒,聽力損失嚴(yán)重,吐字發(fā)聲非常困難,手語是他和這個世界打交道最初也最有效的方式。一路長到22歲,聾人的身份不曾讓他感到自卑;口不能言,也沒耽誤他長成一個妥妥的“學(xué)霸”;但如果你問他,因為聽力障礙,從小到大遇到過哪些方面的不便,他會平靜地在手機上打出四個字:方方面面——因為認(rèn)識手語的人太少了。

  一個最典型的例子是看病,如果沒有手語翻譯陪著,即便只是頭疼腦熱,像王建源這樣的“手語族”也很難獨自就醫(yī)——絕大多數(shù)醫(yī)生不會手語,你不能要求一個病人在急診室里,用手寫或打字的方式,條分縷析地快速描述自己的癥狀。

  袁甜甜是王建源的老師,也是“手語實時翻譯系統(tǒng)”項目團隊的負責(zé)人。2006年研究生一畢業(yè),她就在聾人工學(xué)院計算機系工作。15年來,袁甜甜記不清有多少次,凌晨一兩點鐘接到學(xué)院的電話,讓她陪學(xué)生去看病,幫忙做手語翻譯。如今,她已經(jīng)是學(xué)院的副院長,帶聽障生上醫(yī)院依然是她和學(xué)院所有老師的職責(zé)。

  她不怕辛苦,就怕自己的手語水平耽誤事。袁甜甜是健聽人(聽力健全人的簡稱),手語是走上教職之后自學(xué)的,她常常自嘲說,在語言方面天賦有限,“我是個‘半顫子’(天津方言,指半吊子、不熟練)手語翻譯。學(xué)生描述的情況一復(fù)雜,或者打手語的速度太快,我就只能看懂一部分了!

  聽障大學(xué)生自立自強、想方設(shè)法克服身體上的不便,特教老師盡職盡責(zé)、苦練手語為殘疾人事業(yè)無私奉獻——如果要講一個勵志故事,這樣的情節(jié)就足夠了。但袁甜甜和王建源們顯然更想講一個“科幻故事”:他們想教計算機學(xué)手語,讓機器代替人,成為隨叫隨到、及時準(zhǔn)確的“手語翻譯”。

  袁甜甜學(xué)計算機出身,王建源的專業(yè)是網(wǎng)絡(luò)工程,他們篤信,依靠科技的力量可以幫助中國2780萬聾人,乃至更多有需要的人,克服生活上的種種不便。他們想讓手語實時翻譯系統(tǒng)化作一道橋梁,無論是聽障者還是健聽人,都可以通過它無障礙地交流。

  這個目標(biāo)聽起來宏大,想實現(xiàn)也很難,但他們還是決定動手試試看。

  新的橋梁

  幫助聾人與健聽人交流,前一座已經(jīng)建成的“技術(shù)之橋”,是語音識別。

  2007年,曾任中國聾人協(xié)會副主席的富志偉,發(fā)表了一篇題為《我看“聾人信息無障礙”》的學(xué)術(shù)文章。他在文中寫道:“我期望將來能研制出一種機器,它可以和現(xiàn)在的微型攝像機一樣大小,一端輸入口語,另一端小屏幕上即顯示文字……等到這種機器問世,聾人信息無障礙環(huán)境將大大改觀!

  十幾年后回看這段話,會發(fā)現(xiàn)富志偉期待中的機器,和如今智能手機上常見的語音識別應(yīng)用,幾乎一模一樣。語音識別技術(shù)的受益者,也已不限于聽障群體——看看身邊有多少人在用語音輸入法就知道了。

  袁甜甜帶領(lǐng)團隊研發(fā)的“手語實時翻譯系統(tǒng)”,就類似于手語版的“語音輸入法”。只不過后者是輸入語音、機器識別、轉(zhuǎn)成文字,而前者是輸入手語動作和表情、機器識別,再翻譯成文字——“老橋”與“新橋”,相似又不同。

  袁甜甜沒想到,“老橋”的存在竟然會成為項目團隊建設(shè)“新橋”的“阻力”。

  “為什么一定要搞手語翻譯呢?聾人聽不到,現(xiàn)在有語音識別。∮械拿@人不會說話,拿手機打字不就行了嗎?”曾經(jīng)有一些企業(yè)向袁甜甜了解過正在開發(fā)中的手語實時翻譯系統(tǒng),想談投資。但談來談去,他們卻對項目的必要性產(chǎn)生了質(zhì)疑,覺得手語翻譯除了“做善事”沒有其他意義。類似的話聽得太多,快人快語的袁甜甜有點兒急了,“那要這么說,當(dāng)初搞什么微信呢?就用短信不一樣嗎?搞什么語音識別呢,就直接打字唄?很多創(chuàng)新都有傳統(tǒng)形式上的替代品,那科技就別進步了唄?”

  袁甜甜說,直到今天,手語仍然是許多聽障人士最自然、高效的表達方式,“比寫字、打字都快!钡珵榱舜龠M無障礙交流,要求健聽人都去學(xué)手語,顯然不現(xiàn)實。人類要掌握一門語言,總會受到認(rèn)知水平、記憶力等各方面的限制,“我們的手語實時翻譯系統(tǒng),就是要解決這個問題!痹鹛鹩兄湫偷墓た扑季S,遇到難題,第一反應(yīng)就是思考能不能從技術(shù)層面突破。“我感覺如果技術(shù)到了那兒,機器的記憶力和它的學(xué)習(xí)能力,要比人強很多。所以要是能讓機器學(xué)會手語,它肯定比我這種‘半顫子’手語翻譯管用多了!

  目前,手語實時翻譯系統(tǒng)還處于試用階段。理想狀態(tài)下,等到研究成果真正落地,健聽人只要打開手語翻譯程序,就能和“手語族”直接交流了。

  但對袁甜甜和年輕的研發(fā)團隊來說,想達到這個“理想狀態(tài)”并不容易! ∽鳛樯疃葏⑴c項目的聽障生,王建源和聾人工學(xué)院計算機專業(yè)的烏力杰在手語識別、翻譯技術(shù)上投入的精力越來越多。他倆開過一個向全社會推廣、普及手語的微信公眾號,如今已經(jīng)一年半沒顧上更新了。當(dāng)初辦公眾號的時候,他們的想法是,要打開一扇窗,讓聾人被“看見”。而現(xiàn)在,他們忙著造橋,想讓聽障者被“聽懂”。

  手語之美

  除了聽障生,“手語實時翻譯系統(tǒng)”項目團隊中也有健聽人。無論是不是手語的日常使用者,他們之間有個共識:手語是一門很美的語言。

  袁甜甜對手語之美的直觀感受,都來自她的學(xué)生。袁甜甜的母校是天津師范大學(xué),當(dāng)老師是她唯一的職業(yè)目標(biāo),但她沒有特教專業(yè)背景,平時打的手語,一部分是自己照著書學(xué)的,另一部分是在和聽障生的日常交流中逐漸掌握的。剛?cè)肼毜臅r候,學(xué)院的老教師還夸她,“挺厲害啊,一上講臺就敢跟學(xué)生‘比畫’!”

  袁甜甜有著典型的老天津人性格,心腸熱、說話直,她坦言當(dāng)初苦練手語,心里也沒存著“為殘疾人教育事業(yè)貢獻力量”這樣的遠大理想。只是覺得,既然要當(dāng)老師,教的又是聽障生,手語就是上課必備的工具,“你不敢‘比畫’就永遠學(xué)不會,永遠沒法跟孩子們無障礙溝通,對吧?”

  就這樣一邊用一邊學(xué),她發(fā)現(xiàn)聾人日常使用的自然手語,遠不止“照著書比畫”這么簡單。它有自己的語序和語法,口語里說“滅火”,滅在火之前,而學(xué)生們打手語時,會先比出“火”——起了“火”,再去“滅”;它有獨特的空間感,同樣一個掌心向下,五指由聚到散,模擬光源的手勢,在室內(nèi)打意思是燈,在室外打就可以指代太陽;同樣一句話,來自五湖四海的學(xué)生,可能打出好幾種不同的“方言”版本;手語的表達方式更是豐富,要打出一個意思完整的句子,不光靠手勢,也要配合相應(yīng)的表情,還需要加上肢體動作……

  “真的是一門很美的語言!”袁甜甜說,直到今天,她和學(xué)生用手語交談,有時候還會愣神,覺得他們“身上有光”。而親眼看過王建源、烏力杰打手語的人,就會承認(rèn)袁甜甜的感受并不夸張。

  王建源生在青島一個聾人家庭,父母都是聽障人士。2018年考進聾人工學(xué)院網(wǎng)絡(luò)工程專業(yè)之前,他一路都在聾校接受教育。

  小時候,父親就像其他家長教孩子說話一樣,帶著王建源認(rèn)認(rèn)真真地練習(xí)手語。父親并不認(rèn)為那是一門“特殊”的語言,“他覺得普通話能字正腔圓、抑揚頓挫,手語同樣能夠大開大合、詼諧幽默。”父母對手語的坦然態(tài)度,影響了王建源。他從不避諱在公開場合使用手語,也從不隱藏自己的聾人身份。在他看來,手語就是手語,不是某種“殘疾的外顯”。聾人可以用它表達內(nèi)心的想法,而健聽人,只要掌握了這門語言,同樣可以用它來交流——手語和其他任何語言一樣,是破除障礙、溝通彼此的工具,它可以是橋梁、是紐帶,唯獨不該是障礙本身。

  烏力杰是來自青海的蒙古族小伙,“家在茶卡鹽湖邊上”——除了精通手語,他也可以用口語交流,只是聲音有些沙啞低沉。

  比起同年入學(xué)的王建源,烏力杰的求學(xué)經(jīng)歷要更復(fù)雜些。小學(xué)階段,他靠助聽器和讀唇的本領(lǐng),與健聽孩子一道讀過三年普校,“三年都是全班第一”。那段經(jīng)歷鍛煉了他的適應(yīng)性和口語表達能力。后來,他離開青海,在武漢第二聾校完成高中學(xué)業(yè),通過單考單招來到天津理工大學(xué)。這樣的成績在家族同輩的孩子中“笑傲群雄”,更讓他堅信“聾人也不比誰差”。他一度直接把“Deaf-無音”用作自己的微信昵稱——在英文中,Deaf就有聾人的意思。

  無論是學(xué)專業(yè)課、推廣手語還是做科研,這個古銅色皮膚的蒙古族青年有股“一馬當(dāng)先”的闖勁兒,“海倫·凱勒能做到的事情,我們?yōu)槭裁醋霾坏??/p>

  技術(shù)之難

  王建源和烏力杰是受袁甜甜邀請加入項目團隊的。2019年,他倆才上大二,就被委以重任,負責(zé)收集手語語料,撰寫符合自然手語語法、語序的句子。手語是一門視覺性語言,基于這一特點,“撰寫”的過程不是通過手寫或打字輸入,而是以錄制視頻的方式完成的——王建源、烏力杰以及團隊中其他聽障生的重要工作之一,就是對著攝像頭反復(fù)打手語。

  為什么是他們?

  因為手語實時翻譯技術(shù)之難,恰恰源于手語之美:

  獨立的語法體系,意味著團隊研發(fā)出的系統(tǒng),除了要將單個手語詞匯的意思識別出來,還得把手語語序轉(zhuǎn)化為健聽人習(xí)慣的漢語語序,把手語的“火滅”調(diào)整成“滅火”,才算完成翻譯;獨特的空間感,意味著高度相似的手語動作,在不同的環(huán)境中,可能有不同的譯法,計算機要學(xué)著區(qū)分“屋外的太陽,屋里的燈”;豐富的表達方式,意味著手語識別不像語音識別那樣,只需收集“聲音”這一種“學(xué)習(xí)資料”,要把人工智能訓(xùn)練成一個合格的手語翻譯,得把手勢、表情、大肢體動作,通通從視頻轉(zhuǎn)化為數(shù)據(jù),再“教”給計算機。所以,能充分理解、展示手語之美的聽障生,是最適合給人工智能當(dāng)“老師”的人。

  王建源和烏力杰“教機器”學(xué)手語的本事,來自“教人”。

  盡管年紀(jì)輕,他們的手語教學(xué)經(jīng)驗卻可謂豐富。剛上大一,他們就發(fā)現(xiàn),對手語心存偏見的人不在少數(shù)。不止健聽人,即使在聽障生內(nèi)部,也有很多同學(xué),因為從小就受“打手語就是承認(rèn)自己有殘疾”“要像‘正常人’一樣講話”等觀點影響,對手語懷有抵觸情緒。

  因此,入學(xué)沒多久,王建源和烏力杰就開始通過學(xué)院的手語社團、通過他們的微信公號、通過短視頻平臺,通過線下、線上各種渠道開班授課。像所有教語言的老師那樣,講語法、單詞、句型……兩個人甚至開始研究起更“超綱”的手語語言學(xué)知識:在王建源的書包里,一本《手語動詞研究》和專業(yè)課教材揣在一起,有時間他就掏出來看兩眼。烏力杰干脆跑去參加了中國殘聯(lián)主辦的國家通用手語骨干教師培訓(xùn)班,畢業(yè)考核的時候,還拿了個總成績第一。

  一開始,他們做這一切,只是想給這門語言“正名”,想告訴大家:手語有它的特性,但絕不“特殊”,手語和它的使用者一樣,都是普通的、正常的。他們并沒有預(yù)料到,那些為了教人學(xué)手語做的“額外功課”,會和他們各自的專業(yè)知識相結(jié)合,成為教“AI”學(xué)手語的利器。

  “我們的聽障生知道手語的語法結(jié)構(gòu),還有它的一些基本要素,比如說臉上的表情到什么程度算是表達到位了,什么時候該用上肢體語言了,他們都明白。所以他們做數(shù)據(jù)收集、處理方面的工作,有天然優(yōu)勢。”袁甜甜很看重聾人在項目團隊中發(fā)揮的作用,“咱要是叫沒用過手語的健聽人來收集數(shù)據(jù)、建語料庫的話,那可真是費勁了!”

  因為缺少聾人的參與,在手語識別和翻譯技術(shù)領(lǐng)域,各國學(xué)界都走過彎路:比如嘗試通過數(shù)據(jù)手套建立手語語料庫。作為一種常見的傳感器,數(shù)據(jù)手套在手勢識別技術(shù)上的應(yīng)用已經(jīng)相對成熟——盡管成本高昂,但用手套來收集“手勢”,看起來理所當(dāng)然,準(zhǔn)確率也該有保證。只可惜手語不是簡單的手勢:拋開表情和大動作不談,即便是同樣的手勢,指向稍有不同,也可能意思迥異,這樣微妙的差異,手套是識別不出來的。

  意識到這一點,近年來各國推進的手語識別、翻譯項目,大多采用計算機視覺的方法,利用攝像頭收集數(shù)據(jù)、建立語料庫,袁甜甜和她的團隊也是如此,F(xiàn)階段更常見的問題,一是收集的樣本太少,數(shù)據(jù)集不夠大。二是數(shù)據(jù)集建起來了,但沒能對語料進行高質(zhì)量篩選和標(biāo)注。說白了,就是語料“不好使”。

  袁甜甜說,人工智能深度學(xué)習(xí)的過程,有點像教小孩學(xué)說話,一個單詞先得全家上陣,翻來覆去地重復(fù),次數(shù)夠了,孩子才能建立印象,“哦,這個單詞叫媽媽,不管是從爸爸嘴里說出來,姥姥嘴里說出來,還是舅舅、阿姨說出來,都叫媽媽!蓖瑯拥,要讓機器識別一個手語句子,也要有足夠多的人面對攝像頭,以不同的風(fēng)格重復(fù)打同一套動作,計算機才能“記住”。

  很多國外團隊建立的手語數(shù)據(jù)集無法支持復(fù)雜場景下的手語翻譯,一個直接的原因,就是無法找到足夠多的人在自然狀態(tài)下采集手語!岸覀兊膱F隊背靠聾人工學(xué)院,很多成員本身就是手語使用者,在自然手語的采集上有優(yōu)勢!痹鹛鹫f。

  “但是跟您實話實說,我們也建過‘不好使’的數(shù)據(jù)集!痹鹛鹬苯咏o團隊2018年建立的手勢漢語數(shù)據(jù)集下了定義,“花了錢、費了功夫,最后挺失敗的”——失敗之處在于,那一次他們收集的語料是手勢漢語而不是自然手語。手勢漢語是按照健聽人習(xí)慣的漢語語序,而不是手語語序連詞成句的。

  “比如說,‘愛是我們共同的語言’。這個句子用手勢漢語來打的話,就是按順序一個字一個字地比畫,‘的’也有對應(yīng)的手勢,也要打出來。但聾人日常使用手語的時候,慣用的語序是:愛、我們、共同、語言、是,‘的’不用打。我這個‘半顫子’手語,講課的時候也不會把‘的’‘了’都打出來,那不符合自然手語的表達習(xí)慣!痹鹛鸾忉尅

  “你把手勢漢語翻譯得再精準(zhǔn)也沒用,聾人平時打的不是這個!”汲取了教訓(xùn),這一次再建手語數(shù)據(jù)集,袁甜甜說,他們不求速成,只求每條語料都是原汁原味的自然手語。先按手語語序識別、再按口語習(xí)慣翻譯,雖然多了一個技術(shù)環(huán)節(jié),團隊研發(fā)的難度也就長了一截,袁甜甜們卻堅持要選擇那條“難走但正確”的路徑。

  “咱做這個研究,不想跟人吹我們的數(shù)據(jù)集有多大,也不想說我們發(fā)了多么高大上的論文,我們就一個目的:能用!痹鹛饠蒯斀罔F,“這個系統(tǒng)出來了,聾人必須真的能用。”

  收獲之年

  對于袁甜甜和她的團隊來說,2019年和2021年是兩個關(guān)鍵的時間節(jié)點。2019年,是他們的初創(chuàng)之年,“手語實時翻譯系統(tǒng)”入選國家工信部新一代人工智能產(chǎn)業(yè)創(chuàng)新揭榜項目,獲得了2000萬的資金支持。袁甜甜很高興,一方面是因為國家對無障礙建設(shè)的重視讓她欣慰,另一方面,數(shù)據(jù)采集、技術(shù)研發(fā)、成果落地也確實是處處都要花錢。

  2021年,則可以說是團隊的收獲之年。

  閆思伊到現(xiàn)在還記得,今年年初她第一次跑通手語翻譯系統(tǒng)代碼框架時的心情。“就好像你在組裝一臺機器,零件都已經(jīng)拼全了,但是因為各種各樣的小毛病,比如說有幾個螺絲沒擰緊,它就是不能正常運轉(zhuǎn)。我每天在實驗室,一個一個地把螺絲給上緊。都調(diào)完之后,忽然有一天,我一按開關(guān),機器就轟轟地轉(zhuǎn)起來了。那種成就感啊……”

  閆思伊在天津理工大學(xué)計算機學(xué)院讀研二,是手語實時翻譯項目團隊的健聽人成員,主要負責(zé)“后臺”工作——構(gòu)建手語識別算法框架模型。如果沿用教孩子學(xué)說話的比喻,學(xué)前階段完成了反復(fù)加深印象的步驟,一上小學(xué),孩子就要開始學(xué)習(xí)拼音、語法,學(xué)會按照教材上總結(jié)的規(guī)律,把學(xué)過、聽過的那些單詞組成句子和課文,寫在作業(yè)本和卷子上——閆思伊就是編“教材”,幫AI這位“同學(xué)”總結(jié)手語規(guī)律的“老師”之一。

  “這部分技術(shù)要求更高的工作,主要由我們學(xué)校計算機學(xué)院的師生來完成。”袁甜甜說,給人工智能“編教材”的過程很艱辛。在手語識別、翻譯領(lǐng)域,可借鑒的經(jīng)驗太少,同行的進度也都差不多。項目團隊參考了德國天氣預(yù)報自然手語翻譯系統(tǒng)的算法,也通過各種渠道尋找類似系統(tǒng)在網(wǎng)絡(luò)上公開發(fā)布的源代碼,然后就是一遍遍地嘗試和修正。

  閆思伊他們每天早上8點半就扎進機房,等意識到天黑該回宿舍,再看表已經(jīng)是晚上10點了。“我覺得我們的項目有意義啊,就想快點出成果,能落地的成果!彼f自己是個典型的理工女,就喜歡計算機,導(dǎo)師讓周一到周五做項目,她周六日也忍不住去跑代碼。就這樣一點點摸索,一點點“緊螺絲”,第一次跑通代碼的那天早上,計算機“同學(xué)”在它的人類老師們面前,寫下了一份不算完美,但成績合格的手語翻譯試卷。

  今年5月,王建源、烏力杰帶著研究成果上了世界智能大會;10月,他倆又和聾人工學(xué)院其他幾位同學(xué)組成創(chuàng)業(yè)團隊,代表天津理工大學(xué),拿下了第七屆中國國際“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽總決賽高教主賽道的金獎。

  他們的“奪金”項目叫“鯨可語”,全稱“鯨可語多模態(tài)連續(xù)手語自動標(biāo)注識別系統(tǒng)”。自動標(biāo)注識別就是手語翻譯的前期步驟,而“鯨可語”正是依托“手語實時翻譯系統(tǒng)”而生的——他們把兩年來“教機器學(xué)手語”的經(jīng)驗轉(zhuǎn)化成自己的科創(chuàng)項目,親手為他們想象中那座“聾健融合之橋”建起了“橋基”。

  決賽奪金的那天,袁甜甜在朋友圈給她的學(xué)生們一個個點贊。作為“鯨可語”的指導(dǎo)老師,她很喜歡這個溫柔又有力的名稱。

  鯨可語,來源于“52赫茲鯨”的故事,在海洋中,這只因為叫聲頻率與眾不同而無法與同類交流的鯨魚,被稱為“最孤獨的存在”。但事實上,如果你能破解52赫茲的密碼,就會發(fā)現(xiàn)它并非一座孤島,它也會歌唱,也有自己的語言。王建源覺得這只鯨魚很像聽障群體,“沉寂在人海中,無時無刻不在渴望著與外界溝通,渴求著回應(yīng)。”

  幾個聽障年輕人給“鯨可語”設(shè)計的標(biāo)志,像一只藍色海洋中漂浮的白色鯨魚,也像人們把拇指和食指搭在一起“比心”時的手形!拔覀兘ㄊ终Z語料庫的時候,就是要把手語的動作手型概括為像這樣簡潔的線條,正是這一個個線條,支撐起了‘鯨可語’系統(tǒng),實現(xiàn)了對手語的識別。”王建源說。

  而他們開發(fā)手語識別系統(tǒng)的初心,就是幫助那只“52赫茲鯨”,獲得言語的能力和“被聽懂”的權(quán)利……

  (參與采寫:吳澤運)

[責(zé)任編輯:楊永青]
姚安县| 荆门市| 平南县| 铁岭市| 河东区| 平度市| 进贤县| 定西市| 临汾市| 读书| 册亨县| 太白县| 吴川市| 房产| 鄂托克旗| 隆德县| 旌德县| 阳信县| 方城县| 徐汇区| 唐河县| 江门市| 株洲市| 延吉市| 文水县| 襄樊市| 革吉县| 巩留县| 城市| 禹城市| 深圳市| 招远市| 齐齐哈尔市| 南陵县| 桓台县| 和龙市| 郸城县| 塔河县| 银川市| 儋州市|