
一、術(shù)語庫建設(shè)
1. 數(shù)據(jù)收集
從專業(yè)文獻、行業(yè)標(biāo)準(zhǔn)、學(xué)術(shù)著作等多渠道收集術(shù)語。例如,對于醫(yī)學(xué)領(lǐng)域,收集世界衛(wèi)生組織發(fā)布的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)文檔,以及各大醫(yī)學(xué)期刊中的術(shù)語用法。
與行業(yè)專家合作,獲取特定領(lǐng)域最準(zhǔn)確、最前沿的術(shù)語。比如在航空航天領(lǐng)域,與航空工程師和科學(xué)家合作,確定諸如“渦扇發(fā)動機(Turbofan Engine)”等術(shù)語的準(zhǔn)確翻譯。
2. 分類整理
根據(jù)不同行業(yè),如機械、電子、金融等,對術(shù)語進行分類。在機械行業(yè),將“車床(Lathe)”“銑床(Milling Machine)”等歸為一類;在電子行業(yè),將“集成電路(Integrated Circuit)”“晶體管(Transistor)”等分別歸類。
標(biāo)注術(shù)語的多種屬性,如詞性、語義范圍、使用頻率等。對于像“l(fā)ead”這個詞,在電子行業(yè)中作為名詞“導(dǎo)線”時,標(biāo)注其行業(yè)屬性、詞性等信息,以便準(zhǔn)確翻譯。
二、預(yù)訓(xùn)練與微調(diào)
1. 大規(guī)模預(yù)訓(xùn)練
在海量的多語言語料上進行預(yù)訓(xùn)練。例如,使用包含多種語言的新聞報道、學(xué)術(shù)論文、小說等語料。這樣可以讓模型學(xué)習(xí)到不同語言的通用表達模式和語義關(guān)系,為處理專業(yè)術(shù)語打下基礎(chǔ)。
預(yù)訓(xùn)練過程中,采用注意力機制等技術(shù),提高對語義的理解能力。當(dāng)遇到像“區(qū)塊鏈(Blockchain)”這樣的術(shù)語時,模型能夠更好地理解其語義結(jié)構(gòu)。
2. 特定領(lǐng)域微調(diào)
針對不同專業(yè)領(lǐng)域,使用該領(lǐng)域的專業(yè)語料對預(yù)訓(xùn)練模型進行微調(diào)。如果是法律領(lǐng)域,就使用大量的法律條文、案例文檔等進行微調(diào)。
在微調(diào)過程中,調(diào)整模型的參數(shù),使模型更適應(yīng)特定領(lǐng)域術(shù)語的翻譯。例如,在金融領(lǐng)域微調(diào)時,讓模型準(zhǔn)確翻譯“套期保值(Hedging)”等術(shù)語。
三、人工審核與校正
1. 專業(yè)譯員審核
聘請具有專業(yè)知識背景的譯員對翻譯結(jié)果進行審核。比如對于化學(xué)領(lǐng)域的翻譯,聘請化學(xué)專業(yè)且精通外語的譯員,審核“化學(xué)元素(Chemical Element)”等術(shù)語的翻譯準(zhǔn)確性。
譯員根據(jù)自己的專業(yè)知識和經(jīng)驗,對術(shù)語翻譯中的歧義、錯誤進行修正。例如,在醫(yī)學(xué)翻譯中,修正“心肌梗死(Myocardial Infarction)”可能出現(xiàn)的錯誤翻譯。
2. 用戶反饋校正
建立用戶反饋機制,鼓勵用戶對翻譯結(jié)果中的術(shù)語錯誤進行反饋。如果用戶發(fā)現(xiàn)金融術(shù)語“杠桿收購(Leveraged Buy
out)”翻譯不準(zhǔn)確,可以及時反饋。
根據(jù)用戶反饋,對術(shù)語翻譯進行改進,并更新術(shù)語庫和模型。這樣可以不斷提高術(shù)語翻譯的準(zhǔn)確性。