MozTW 討論區
https://forum.moztw.org/

「詞彙修正表」似乎沒有作用?!
https://forum.moztw.org/viewtopic.php?f=11&t=7095
1 頁 (共 1 頁)

發表人:  Gelt [ 2005-03-17, 03:03 ]
文章主題 :  「詞彙修正表」似乎沒有作用?!

新同文堂(20050312)的「詞彙修正表」似乎沒有作用耶...

舉例說明之,
「餵」仍然是「餵」,沒有變為「喂」...

還是我誤會了他修正的機制?所以我以為他應該會轉換的其實不會轉換?! :roll:

還有,想請問:
自訂「詞彙修正表」有什麼規則或是應注意事項嗎?
修正之詞彙,是否字數需對應?
還是只要想轉,就可以把自全都輸入「詞彙修正表」中?
比方說把「○○○」轉為「●●」?!

發表人:  softcup [ 2005-03-17, 23:38 ]
文章主題 : 

Gelt 寫:
新同文堂(20050312)的「詞彙修正表」似乎沒有作用耶...

舉例說明之,
「餵」仍然是「餵」,沒有變為「喂」...

還是我誤會了他修正的機制?所以我以為他應該會轉換的其實不會轉換?! :roll:

還有,想請問:
自訂「詞彙修正表」有什麼規則或是應注意事項嗎?
修正之詞彙,是否字數需對應?
還是只要想轉,就可以把自全都輸入「詞彙修正表」中?
比方說把「○○○」轉為「●●」?!

詞彙轉換規則,是先轉換只有一個字的,其次才是由字數多的先轉換,基本上跟 ConvertZ 的做法類似。

至於字數則不需要對應,例如 [內存] -> [記憶體],也是可以的。

想要轉的辭彙,基本上都可以加入,至於會不會有想要的修正效果,則需要視轉換的文章其內容而定。

詳盡的解說可以參考 CovertZ 作者寫的說明檔

ConvertZ 說明書中有關詞彙轉換的說明 寫:
有關詞彙修正的補充資料:

程式會從文件前端開始讀取內容,同時對照詞庫內有沒有相同字串
(對照時以較長的字串為優先),若找到相同的便會進行替換及
跳到該字串尾後繼續搜尋及轉換,全篇文章從首至尾只讀取一次。

下面是參巧例子:

在詞庫內有 : AB , MM
ABC , NNN
CD , OO
DE , PP
FG , QQ
轉換前的字串是: ABCDACDEFGABADE
轉換後變成: NNNDAOOEQQMMAPP

注意第一個出現的 AB 因為 ABC 的出現並無轉為 MM, 而第一個出現的 CD
亦因為被 ABC 中斷而無轉為 OO, 同樣道理,第一個出現的 DE 亦無轉為 PP。

利用這規律技巧地添加新字串到“詞彙修正”的詞庫便可有效提高辨識率。

『簡轉繁修正列表』內有大量左右兩邊都相同(左右兩組字串完全相同)的字串,
是依上述法則添加到表內作提高轉換的準確率之用,除非瞭解上述法則及將
相關的其它字彙作出修改,否則不應刪除這些字串。


<範例1>

列表中只有:明了,明瞭
原句 :他查明了原因。大家明了他的心情。
轉換後:他查明瞭原因。大家明瞭他的心情。 <-- 第一個「明了」轉錯了
       ︿錯

若列表中再加入:查明,查明 (用“查明了,查明了”代替亦可,結果相同。)
轉換後:他查明了原因。大家明瞭他的心情。 <---- 全部正確



<範例2>

列表中只有:十裡,十里
      裡余,里餘
原句 :這裡余下三人,他們行了裡余路,離目的地還有十裡余。
轉換後:這里餘下三人,他們行了里餘路,離目的地還有十里余。
     ︿︿                    ︿

第一個“裡余”轉錯意思,第三個“裡余”因為被“十裡”中斷了而沒有被轉換。
若在列表中再加入:裡余下,裡餘下
         十裡余,十里餘
轉換後會是:這裡餘下三人,他們行了里餘路,離目的地還有十里餘。 <--- 全部正確

1 頁 (共 1 頁) 所有顯示的時間為 UTC + 8 小時
Powered by phpBB® Forum Software © phpBB Group
https://www.phpbb.com/