Gelt 寫:
新同文堂(20050312)的「詞彙修正表」似乎沒有作用耶...
舉例說明之,
「餵」仍然是「餵」,沒有變為「喂」...
還是我誤會了他修正的機制?所以我以為他應該會轉換的其實不會轉換?!
還有,想請問:
自訂「詞彙修正表」有什麼規則或是應注意事項嗎?
修正之詞彙,是否字數需對應?
還是只要想轉,就可以把自全都輸入「詞彙修正表」中?
比方說把「○○○」轉為「●●」?!
詞彙轉換規則,是先轉換只有一個字的,其次才是由字數多的先轉換,基本上跟 ConvertZ 的做法類似。
至於字數則不需要對應,例如 [內存] -> [記憶體],也是可以的。
想要轉的辭彙,基本上都可以加入,至於會不會有想要的修正效果,則需要視轉換的文章其內容而定。
詳盡的解說可以參考 CovertZ 作者寫的說明檔
ConvertZ 說明書中有關詞彙轉換的說明 寫:
有關詞彙修正的補充資料:
程式會從文件前端開始讀取內容,同時對照詞庫內有沒有相同字串
(對照時以較長的字串為優先),若找到相同的便會進行替換及
跳到該字串尾後繼續搜尋及轉換,全篇文章從首至尾只讀取一次。
下面是參巧例子:
在詞庫內有 : AB , MM
ABC , NNN
CD , OO
DE , PP
FG , QQ
轉換前的字串是: ABCDACDEFGABADE
轉換後變成: NNNDAOOEQQMMAPP
注意第一個出現的 AB 因為 ABC 的出現並無轉為 MM, 而第一個出現的 CD
亦因為被 ABC 中斷而無轉為 OO, 同樣道理,第一個出現的 DE 亦無轉為 PP。
利用這規律技巧地添加新字串到“詞彙修正”的詞庫便可有效提高辨識率。
『簡轉繁修正列表』內有大量左右兩邊都相同(左右兩組字串完全相同)的字串,
是依上述法則添加到表內作提高轉換的準確率之用,除非瞭解上述法則及將
相關的其它字彙作出修改,否則不應刪除這些字串。
<範例1>
列表中只有:明了,明瞭
原句 :他查明了原因。大家明了他的心情。
轉換後:他查明瞭原因。大家明瞭他的心情。 <-- 第一個「明了」轉錯了
︿錯
若列表中再加入:查明,查明 (用“查明了,查明了”代替亦可,結果相同。)
轉換後:他查明了原因。大家明瞭他的心情。 <---- 全部正確
<範例2>
列表中只有:十裡,十里
裡余,里餘
原句 :這裡余下三人,他們行了裡余路,離目的地還有十裡余。
轉換後:這里餘下三人,他們行了里餘路,離目的地還有十里余。
︿︿ ︿
第一個“裡余”轉錯意思,第三個“裡余”因為被“十裡”中斷了而沒有被轉換。
若在列表中再加入:裡余下,裡餘下
十裡余,十里餘
轉換後會是:這裡餘下三人,他們行了里餘路,離目的地還有十里餘。 <--- 全部正確