“中文十級(jí)”難題,AI怎樣解讀
產(chǎn)業(yè)界
陶玉祥 本報(bào)記者 盛 利
在人工智能領(lǐng)域,“懂語(yǔ)言者得天下”是普遍的共識(shí)。其中,可幫助人工智能識(shí)別人類語(yǔ)言的自然語(yǔ)言處理(NLP)被譽(yù)為人工智能語(yǔ)言“皇冠上的明珠”。
當(dāng)人工智能自然語(yǔ)言處理技術(shù)遇到“要你管和不要你管”“掉地上和掉地下”“我一把把把把住了”等中文“繞口令”,“小意思”“意思意思”等多義詞時(shí),及“俺們那疙”“中不中”等方言時(shí),該怎樣“聽(tīng)懂”這些“中文十級(jí)”語(yǔ)句呢?日前在成都舉辦的科大訊飛未來(lái)科?;顒?dòng)上,記者采訪了相關(guān)專家。
能分詞會(huì)斷句 機(jī)器尚在努力
NLP就是機(jī)器讓計(jì)算機(jī)來(lái)理解和處理人類自然語(yǔ)言的技術(shù),它和計(jì)算機(jī)視覺(jué)、語(yǔ)音處理的區(qū)別在于信息處理的類型。
“計(jì)算機(jī)視覺(jué)主要處理圖像,語(yǔ)音技術(shù)處理聲音,而NLP主要是對(duì)文字的理解。”云浮科技的創(chuàng)始人兼CEO張文斌說(shuō),在人工智能中,語(yǔ)音識(shí)別是耳朵,語(yǔ)音合成是嘴巴,計(jì)算機(jī)視覺(jué)是眼睛,而NLP則負(fù)責(zé)將抽象的文字符號(hào)轉(zhuǎn)化為計(jì)算機(jī)能理解的語(yǔ)言。
“‘中文十級(jí)’的某些語(yǔ)句,人類去理解都有很大難度,何況是計(jì)算機(jī)。”張文斌說(shuō),在口語(yǔ)和書(shū)寫(xiě)上,漢字往往沒(méi)有詞與詞之間的邊界,即便機(jī)器能夠準(zhǔn)確識(shí)別文字,但理解它的意思卻很難;再比如各種五花八門(mén)的地方口音和方言,也是“絆腳石”。
“自然語(yǔ)言處理一般從最小的語(yǔ)意單位‘詞’開(kāi)始,即分詞算法。這最簡(jiǎn)單,也最成熟。”張文斌說(shuō), NLP的算法分為語(yǔ)法級(jí)別、句子級(jí)別分析等,其中分詞就是將字詞切開(kāi),讓機(jī)器明白哪幾個(gè)字組成一個(gè)詞,哪幾個(gè)詞組成一句話,從而理解整句、整段的意思。但在“分詞”實(shí)際的應(yīng)用過(guò)程中,仍有各種問(wèn)題。
張文斌解釋,首先是分詞標(biāo)準(zhǔn)不確定、存在歧義,及新詞和實(shí)體詞困擾等問(wèn)題。如“乒乓球,拍賣(mài)完了”和“乒乓球拍,賣(mài)完了”無(wú)論怎么切分都正確,這就要依賴上下文語(yǔ)境。其次,每年都會(huì)涌現(xiàn)出的網(wǎng)絡(luò)詞匯,“神馬”“不明覺(jué)厲”“佛系”等原來(lái)不存在的詞也需要計(jì)算機(jī)理解。
聽(tīng)語(yǔ)氣判關(guān)系 AI有新招
如何讓機(jī)器讀懂上下文語(yǔ)境,從而進(jìn)一步了解整段話的含義?
“我們會(huì)嘗試?yán)寐?tīng)人類說(shuō)話時(shí)的停頓信息,作為一種分詞算法的輔助。”訊飛翻譯業(yè)務(wù)負(fù)責(zé)人翟吉博說(shuō)。
對(duì)于AI工程師們來(lái)說(shuō),更重要的是深層次的算法,如實(shí)體識(shí)別、屬性抽取等。“就是把人名、地名、機(jī)構(gòu)名等實(shí)體識(shí)別出來(lái)后,再抽取實(shí)體之間的關(guān)系,搞清楚不同實(shí)體在句子中的不同屬性。”張文斌說(shuō),五花八門(mén)的算法還有很多,比如情感分析,分析文本里面蘊(yùn)藏了什么樣的情感,是正面、負(fù)面還是中性的;文檔摘要,把長(zhǎng)文生成一兩百字簡(jiǎn)短的摘要等。而基于這些算法層,又可以做很多NLP的衍生應(yīng)用,包括自動(dòng)問(wèn)答、機(jī)器翻譯等。
那如何識(shí)別方言呢?在科大訊飛的新款翻譯機(jī)設(shè)備中,首次推出方言翻譯功能,實(shí)現(xiàn)河南話、東北話、粵語(yǔ)等方言互譯,或?qū)⒅g成外語(yǔ)。翟吉博說(shuō),針對(duì)不同類型方言,機(jī)器采用不同翻譯流程——對(duì)同屬北方方言區(qū)的河南話、東北話等,可先翻譯成普通話再翻譯成外語(yǔ);對(duì)于粵語(yǔ)等南方語(yǔ)言,則建立獨(dú)立的語(yǔ)料庫(kù),直接從粵語(yǔ)到外語(yǔ)進(jìn)行翻譯。“考慮到方言中帶有許多地方特色的說(shuō)法、語(yǔ)言、詞匯,‘雄起’‘中不中’等也可以作為獨(dú)立的語(yǔ)料,由機(jī)器單獨(dú)學(xué)習(xí)。”他說(shuō),人工智能的優(yōu)勢(shì)是在自然語(yǔ)言處理方面能夠不斷從用戶處積累語(yǔ)料,學(xué)習(xí)新的詞匯和表達(dá)方式,不斷完成自身數(shù)據(jù)庫(kù)和語(yǔ)料庫(kù)的更新。
標(biāo)簽:
凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。
原標(biāo)題:《子夜外賣(mài)》描繪城市的夜色畫(huà)卷(主題)總制片人張燁鏑:帶觀
2023-06-17 15:43
原標(biāo)題:用腳和筆丈量世界(引題)?阿來(lái)《西高地行記》出版(主題)華
2023-06-17 13:45
原標(biāo)題:“這里是三星堆”:高清手繪圖“復(fù)活”國(guó)寶華西都市報(bào)-封面新
2023-06-17 13:49
原標(biāo)題:90多個(gè)“關(guān)鍵詞”還原蘇軾(引題)?蔣藍(lán)新作《蘇東坡辭典》出
2023-06-17 11:34
原標(biāo)題:圖博會(huì)天津出版?zhèn)髅郊瘓F(tuán)再創(chuàng)佳績(jī)(引題)?《閱讀天津·津渡》
2023-06-17 11:35
原標(biāo)題:良渚遺址“琮王”“鉞王”現(xiàn)身上博(主題)6月20日起亮相“實(shí)
2023-06-17 11:51
原標(biāo)題:《魚(yú)廬記》:鄂地小人物的傳奇華西都市報(bào)-封面新聞?dòng)浾邚埥芙?/p>
2023-06-17 11:52
原標(biāo)題:伴隨著人工智能技術(shù)飛速發(fā)展,科幻電影創(chuàng)作將走向何方──(引
2023-06-17 11:56
原標(biāo)題:國(guó)標(biāo)舞劇《人間四月天》啟動(dòng)創(chuàng)排北京日?qǐng)?bào)訊(記者韓軒)北京舞
2023-06-17 10:40
原標(biāo)題:2023年青年攝影獎(jiǎng)申報(bào)啟動(dòng)天津日?qǐng)?bào)訊(記者仇宇浩)近日,世界
2023-06-17 10:37
原標(biāo)題:別樣《鳳求凰》百人合唱點(diǎn)擊量百億次作品(主題)中國(guó)古詩(shī)詞藝
2023-06-17 10:53
原標(biāo)題:首屆天津音樂(lè)節(jié)中國(guó)天津·2023圣彼得堡愛(ài)樂(lè)樂(lè)團(tuán)演繹經(jīng)典(引題
2023-06-17 10:32
原標(biāo)題:電視劇《淬火丹心》唱響武鋼人的青春之歌長(zhǎng)江日?qǐng)?bào)訊(記者萬(wàn)旭
2023-06-17 10:53
【作品廣議】原標(biāo)題:主動(dòng)自覺(jué),珍視生命肖承森汗流禾下土 蘇慶眼下正
2023-06-17 05:45
解碼文化自信的城市樣本原標(biāo)題:長(zhǎng)沙:千載星城吐芳華天上一顆星,地上
2023-06-17 05:56
原標(biāo)題:第五屆中國(guó)西藏旅游文化國(guó)際博覽會(huì)6月16日晚開(kāi)幕由文化和旅游
2023-06-17 05:54
原標(biāo)題:開(kāi)心果左一:節(jié)約用水左二:面具左三:——把衣服穿上!右一:
2023-06-17 06:00
原標(biāo)題:“中國(guó)戲曲節(jié)2023”在香港開(kāi)鑼新華社香港6月16日電(記者褚萌
2023-06-17 06:01
原標(biāo)題:取材于武鋼的發(fā)展歷史(引題)《淬火丹心》凝聚鋼鐵人的青春與
2023-06-16 21:32
原標(biāo)題:山東:文化館里涌動(dòng)“青春力量”中國(guó)文化報(bào)駐山東記者蘇銳剛過(guò)
2023-06-16 17:49
原標(biāo)題:北京國(guó)際圖書(shū)博覽會(huì)開(kāi)幕6月15日,北京國(guó)際圖書(shū)博覽會(huì)現(xiàn)場(chǎng),參
2023-06-16 16:42
原標(biāo)題:芭蕾舞劇,如何圈粉諸多觀眾?中新網(wǎng)北京6月16日電(記者上官云
2023-06-16 14:44
原標(biāo)題:中新人物丨演員楊蓉:學(xué)演戲,得先學(xué)做人中新網(wǎng)北京6月16日電(
2023-06-16 14:49
原標(biāo)題:《尋她》首映舒淇暢聊與九零后導(dǎo)演的“碰撞”(引題)我心里曾
2023-06-16 14:52
原標(biāo)題:“京城飄書(shū)香五洲共閱讀”(引題)第21屆北京國(guó)際圖書(shū)節(jié)開(kāi)幕(
2023-06-16 13:52