MozTW 討論區

各項 Mozilla 相關軟體與技術討論
現在的時間是 2017-09-22, 12:27

所有顯示的時間為 UTC + 8 小時





發表新文章 回覆主題  [ 5 篇文章 ] 
發表人 內容
文章發表於 : 2013-10-12, 13:59 
離線
[MozTW 版主群]
頭像

註冊時間: 2002-12-03, 21:00
文章: 744
來自: 地球
最近總覺得該留些東西下來,如果有人要查一些東西為何為何,至少看完了可以多少知道一點來龍去脈這樣。

ps: 以下公開的討論內容以徵得 piaip 大神同意。

_________________
想讓 Internet Explorer 當掉嗎?

「方法一」 - 被 google 檔掉的樣子,開不起來

「方法二」


回頂端
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:23.0) Gecko/20100101 Firefox/23.0 SeaMonkey/2.20
 個人資料  
引用回覆  
文章發表於 : 2013-10-12, 14:09 
離線
[MozTW 版主群]
頭像

註冊時間: 2002-12-03, 21:00
文章: 744
來自: 地球
Re: [MozTW-Dev] Re: 不知道該不該發這篇
=============================================
引言回覆:
Hung-Te Lin (piaip) 2005/9/28 上午 9:39
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
話說回來,關於 Mozilla 的 Big5 Table 我覺得有些想變動的地方

當年修訂的表格雖然大至與 TW-Big5 相容,但畢竟不是 Big5-2003
我想把它改為正式使用 Big5-2003 的版本
只是網路上 cns11643 好像沒有真正提供檔案 ><
唯一的版本只有 kcwu 的轉換表,感覺會給人不像正式資料的感覺

另外, Mozilla 支援 Big5 日文這麼久了,有哪些問題也大概了解,
最常看到的就是「從日文網頁(sjis or unicode)剪貼到 big5 網頁」
此時會轉出 big5 日文結果用純 cp950 的人就看不到

假定 Windows 短期內不會修正,我在想或許我們可以把 mozilla
unicode->big5 的對應表變成純 CP950,只有 Big5->Unicode 才是 Big5-2003
這樣應該問題會少很多。

這樣想的話,關於 UAO (Unicode 補完計畫, 以下以2.40a3 為主) 要不要進來或許也可以
在不與 Big5-2003 衝突的前提下加進來 (只給讀取用)

UAO 進來其實以「最廣泛的 extension」名義應該可以,但怕的是
(1) 影響自動偵測,因為 UAO 的 code range 比較大,而且還用了所謂 C1 區 (0x80~0x9F)
(2) 有些與 Big5-2003 衝突的字

上面兩點解決後,或許一切可以更美好...
只是不知道能不能趕上 1.5, 太晚動手了。

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
Jose Sun 2005/9/28 下午 7:12
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
http://pingyeh.net/big5/
這可以算權威資料嗎? 不過也不是官方的就是...

> 當年修訂的表格雖然大至與 TW-Big5 相容,但畢竟不是 Big5-2003
> 我想把它改為正式使用 Big5-2003 的版本
> 只是網路上 cns11643 好像沒有真正提供檔案 ><
> 唯一的版本只有 kcwu 的轉換表,感覺會給人不像正式資料的感覺

--
Jose Sun

引言回覆:
s793016 (Witch Five) 2005/9/28 下午 7:30
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
Hung-Te Lin (piaip) wrote:
> 話說回來,關於 Mozilla 的 Big5 Table 我覺得有些想變動的地方
>
> 當年修訂的表格雖然大至與 TW-Big5 相容,但畢竟不是 Big5-2003
> 我想把它改為正式使用 Big5-2003 的版本
> 只是網路上 cns11643 好像沒有真正提供檔案 ><
> 唯一的版本只有 kcwu 的轉換表,感覺會給人不像正式資料的感覺

關於這點,其實 cns11643
有提供詳細對照表,可是要拿到這份對照表,您必需去他的網站填一份「中文」切結資料,而且還要收台票300元,然後他才會慢慢的寄一張
cd 給您 ... orz
...
給人感覺上他們並不想人拿到這個東西的感覺,也因此我並不想花這300元。

另,當然我對 big5-2003 正式進入 gecko based
環境是給正面期待的。

> 另外, Mozilla 支援 Big5 日文這麼久了,有哪些問題也大概了解,
> 最常看到的就是「從日文網頁(sjis or unicode)剪貼到 big5 網頁」
> 此時會轉出 big5 日文結果用純 cp950 的人就看不到

這個問題其實跟 windows 內建 big5-2003
會遇到的問題一樣,簡單說,unicode
補完計畫到目前為止會被人唸的點,除了 1.不是標準
2.漢字對應
這兩點,其它的所有問題,只要您的系統內定使用
big5-2003,這些系統會必需全部照單全收這些「所謂的缺點」。

> 假定 Windows 短期內不會修正,我在想或許我們可以把 mozilla
> unicode->big5 的對應表變成純 CP950,只有 Big5->Unicode 才是 Big5-2003
> 這樣應該問題會少很多。
> 這樣想的話,關於 UAO (Unicode 補完計畫, 以下以2.40a3 為主) 要不要進來或許也可以
> 在不與 Big5-2003 衝突的前提下加進來 (只給讀取用)

我想如果 mozilla.org
那邊要搞這個大概會瘋掉吧,呵呵。而且就我認知他們不可能搞。

> UAO 進來其實以「最廣泛的 extension」名義應該可以,但怕的是
> (1) 影響自動偵測,因為 UAO 的 code range 比較大,而且還用了所謂 C1 區 (0x80~0x9F)

其實目前就會把 big5-hkscs 的字蓋掉了,選編碼也沒用
... org

> (2) 有些與 Big5-2003 衝突的字

這個我只知道幾點吧?
1.Big5-2003 C255 <-> U+5F5E,CP950 (& uao) C255 <-> U+5F5D。
2.Big5-2003 的 8140-a0fe、c8d4-c8fe、fa64-fefe 是造字區,uao
這些地方塞滿了字。
3.Big5-2003 的 c7f3-c875
全部當成「保留區」,理由:cns11643 沒這些東西。uao
這些地方放了原先的俄語字母。
4.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
在這挖了幾個字放半角假名。
5.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
在這挖了幾個字放半角假名。

其它 ... 或許 c6
段有幾個字對應不太一樣,不過大致上最大的不同就如上面這些。

引言回覆:
Hung-Te Lin (piaip) 2005/9/28 下午 9:17
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
在 2005/9/28,s793016(WitchFive) <s79...@gmail.com> 撰寫:
> > 只是網路上 cns11643 好像沒有真正提供檔案 ><
> > 唯一的版本只有 kcwu 的轉換表,感覺會給人不像正式資料的感覺
> 關於這點,其實 cns11643 有提供詳細對照表,可是要拿到這份對照表
> 給人感覺上他們並不想人拿到這個東西的感覺,也因此我並不想花這300元。
那一份應該是跟 kcwu 同的
http://www.csie.ntu.edu.tw/~r92030/project/big5/
只是沒有 .gov.tw 的網址... 可惜

> > 假定 Windows 短期內不會修正,我在想或許我們可以把 mozilla
> > unicode->big5 的對應表變成純 CP950,只有 Big5->Unicode 才是 Big5-2003
> 我想如果 mozilla.org 那邊要搞這個大概會瘋掉吧,呵呵。而且就我認知他們不可能搞。
嗯... 再試試吧,我是覺得如果我們能提供好的資料,一切都有談的機會。
https://bugzilla.mozilla.org/show_bug.cgi?id=310299

> 其實目前就會把 big5-hkscs 的字蓋掉了,選編碼也沒用
你是說 UAO240a3 嗎?
如果把 hkscs 的字保留下來,不知道對 UAO 影響多少?

> > (2) 有些與 Big5-2003 衝突的字
> 這個我只知道幾點吧?
> 1.Big5-2003 C255 <-> U+5F5E,CP950 (& uao) C255 <-> U+5F5D。
說實在我不清楚 5F5E/5F5D 差在哪裡... 細明體看起來一樣字?

> 2.Big5-2003 的 8140-a0fe、c8d4-c8fe、fa64-fefe 是造字區,uao
> 這些地方塞滿了字。
造字區我想勉強可以不算為衝突,因為反正一般人看都是空白

> 3.Big5-2003 的 c7f3-c875
> 全部當成「保留區」,理由:cns11643 沒這些東西。uao
> 這些地方放了原先的俄語字母。
是的,這點我想是 CNS11643 比較 OOXX 的地方

> 4.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
> 在這挖了幾個字放半角假名。
> 5.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
> 在這挖了幾個字放半角假名。

跟上面一樣,假定我們放棄 big5-2003 standard 之名,
而生出與 big5-2003 大致相容的大字集,或許也不是不行

我的看法是,假定有字在 big5-2003 是保留、或是一般顯示空白的造字,
那就可以塞 UAO 進去,因為一般人看也是空白,所以我們顯示 Ok。
但跟 big5-hkscs 不相容的地方就不太好了,因為香港用戶很多時候
是 big5/big5-hkscs 混用的,希望不要影響到他們。

其實我對 big5-hkscs 有哪些 code range 被 uao 蓋掉不太清楚,
可以麻煩你分析一下嗎?

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
s793016 (Witch Five) 2005/9/28 下午 11:26
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
Hung-Te Lin (piaip) wrote:
> 在 2005/9/28,s793016(WitchFive) <s793016@gmail.com> 撰寫:
> > > 假定 Windows 短期內不會修正,我在想或許我們可以把 mozilla
> > > unicode->big5 的對應表變成純 CP950,只有 Big5->Unicode 才是 Big5-2003
> > 我想如果 mozilla.org 那邊要搞這個大概會瘋掉吧,呵呵。而且就我認知他們不可能搞。
> 嗯... 再試試吧,我是覺得如果我們能提供好的資料,一切都有談的機會。
> https://bugzilla.mozilla.org/show_bug.cgi?id=310299

靜觀其變。

> > 其實目前就會把 big5-hkscs 的字蓋掉了,選編碼也沒用
> 你是說 UAO240a3 嗎?
> 如果把 hkscs 的字保留下來,不知道對 UAO 影響多少?

我發現我原來的理解錯了 ...
果然人不能太信任模糊的印像 ... orz

關於這個,實測結果是,不會有影響。末段會詳述。

> > > (2) 有些與 Big5-2003 衝突的字
> > 這個我只知道幾點吧?
> > 1.Big5-2003 C255 <-> U+5F5E,CP950 (& uao) C255 <-> U+5F5D。
> 說實在我不清楚 5F5E/5F5D 差在哪裡... 細明體看起來一樣字?

也沒人知道為什麼這樣選。細明體其實不太準,用標楷體看看,小字或許看不出來,放到144試試。

> > 3.Big5-2003 的 c7f3-c875
> > 全部當成「保留區」,理由:cns11643 沒這些東西。uao
> > 這些地方放了原先的俄語字母。
> 是的,這點我想是 CNS11643 比較 OOXX 的地方

big5 草稿跟 big5-2003 定稿 (kc wu 版) 的差別:
1.a3e2-a3fe - 保留區 - 草稿對應到造字,正版無
2.c6de、c6df - 重碼刪字 - 草稿對應到造字,正版無
3.c7f3-c8fe - 保留區 - 草稿對應到造字,正版無

> > 4.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
> > 在這挖了幾個字放半角假名。
> > 5.Big5-2003 的 c8a5-c8cc 全部當成「保留區」,不過 uao
> > 在這挖了幾個字放半角假名。
> 跟上面一樣,假定我們放棄 big5-2003 standard 之名,
> 而生出與 big5-2003 大致相容的大字集,或許也不是不行
> 我的看法是,假定有字在 big5-2003 是保留、或是一般顯示空白的造字,
> 那就可以塞 UAO 進去,因為一般人看也是空白,所以我們顯示 Ok。

這個嘛 ...
其實最近可能會有一版出來,所以才會有那個程式修改的需求,而且我覺得
... 搞不好是最後一版了,呵呵。

> 但跟 big5-hkscs 不相容的地方就不太好了,因為香港用戶很多時候
> 是 big5/big5-hkscs 混用的,希望不要影響到他們。
>
> 其實我對 big5-hkscs 有哪些 code range 被 uao 蓋掉不太清楚,
> 可以麻煩你分析一下嗎?

這部份 ... 我剛發現 ... 我以前理解錯了 ... orz

實驗網頁:
http://input.foruto.com/jptxt/arti003.htm

我用 windows me 繁中版,mozilla 1.7.12 繁中版,補完過的
uconv.dll,把這頁編碼設成 big5-hkscs 看的樣子:
https://googledrive.com/host/0BxHqn7o9v ... ample1.jpg

朋友用 windows xp sp2 日文版,firefox 1.4 日語版
(未補完),把這頁編碼設成 big5-hkscs 看的樣子:
https://googledrive.com/host/0BxHqn7o9v ... ample2.jpg

所以,其實 uao 對 mozilla 下的 hkscs
編碼,沒有任何影響 ...

以前我理解錯是因為那些「?」、「韓文」...
我以為那些字被補完蓋掉了 ... orz

引言回覆:
s793016 (Witch Five) 2005/9/28 下午 11:33
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
does anyone know where to get "fromu" and "tou" which is required to
generate new table of Mozilla Big5 table?
補充:
這個 mozilla source 裡有,不過您得要自己 compile
出來用,用法是跟 dos 下的 find 命令一樣一律 i/o
轉向,輸入用 < 輸出用 > ...
如果您真想玩我可以提供。

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 上午 12:49
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
在 2005/9/28,s793016(WitchFive) <s79...@gmail.com> 撰寫:
> 這個嘛 ... 其實最近可能會有一版出來,所以才會有那個程式修改的需求,
> 而且我覺得 ... 搞不好是最後一版了,呵呵。
呃,那你要不要趕快搞定,直接一起塞進 Mozilla big5 table
跟前版差異很多嗎?

> > 但跟 big5-hkscs 不相容的地方就不太好了,因為香港用戶很多時候
> > 是 big5/big5-hkscs 混用的,希望不要影響到他們。
> 這部份 ... 我剛發現 ... 我以前理解錯了 ... orz
這個我還不能確定,理由如下

> 實驗網頁: http://input.foruto.com/jptxt/arti003.htm
> 所以,其實 uao 對 mozilla 下的 hkscs 編碼,沒有任何影響 ...
你的實驗證明的是 "Firefox 的 big5-hkscs 看 big5-hkscs 網頁 ok"
但由於 firefox 的 big5 table 是自己處理的(自己 big5<->unicode),
所以其實本來就不受影響,因為 Firefox 會轉成 unicode 顯示。

但是,正如實驗網頁提到的,香港很多人不是使用修正過的 big5 table
而是安裝外字集 (EUDC)。

我的理解是(或許我有誤會),他們的做法是建立 CP950 字型造字區的
字型,而非改變 Unicode mapping

在這樣的前提下,一個有安裝外字集但使用標準 IE +CP950 的人,
也能 "看到" 香港字 (但 Unicode mapping 應該不是正確的)

回到 UAO 的 case, 這樣如果 UAO 使用了不同的 mapping, 則這些
本來可以看到香港字的人反而會看到 UAO 的字,結果就出問題了

不過我真的對香港 Big5-hkscs 不太熟,上面只是我的推測
找人來確認一下嗎....

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 上午 2:01
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
在 2005/9/29,Hung-Te Lin (piaip) <hun...@gmail.com> 撰寫:
> 在這樣的前提下,一個有安裝外字集但使用標準 IE +CP950 的人,
> 也能 "看到" 香港字 (但 Unicode mapping 應該不是正確的)
> 回到 UAO 的 case, 這樣如果 UAO 使用了不同的 mapping, 則這些
> 本來可以看到香港字的人反而會看到 UAO 的字,結果就出問題了
> 不過我真的對香港 Big5-hkscs 不太熟,上面只是我的推測
> 找人來確認一下嗎....
我在家裝了香港外字集
裝過 unicode-at-on 但已移除
結果 IE 看得到那些字
Fx big5-hkscs 部份是問號 (maybe ext.B)
Fx Big5 仍然是錯誤的字
等於跟是否安裝外字集完全無關...
或許我之前的假設有誤? 到 forum 上問問好了
如果香港用 Fx/Big5 本來就看不到香港字...
那我們就用力 UAO 下去吧

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
s793016 (Witch Five) 2005/9/29 上午 7:38
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
hkscs 用的是跟我們一樣的 nls
代換法。應該這麼說,補完是學 hkscs 作 nls
代換的。基本上香港鼓吹用 unicode 取代 big5 hkscs
的人比台灣早很多,因為他們的 hkscs 早就長大到 big5
造字區不夠用了,ext-a ext-b 幾千個 hkscs
字啊,每年還會生出幾十個新字。

還有就是,因為 ie 下 big5 & big5 hkscs
其實不是分開的,所以在 ie 這種 system wide
的環境,補完 跟 hkscs 只能選一個,不過 gecko based
就不一樣了,他可以即時切換,windows 沒辦法。

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 上午 11:11
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
在 2005/9/29,Hung-Te Lin (piaip) <hun...@gmail.com> 撰寫:
> > does anyone know where to get "fromu" and "tou" which is required to
> > generate new table of Mozilla Big5 table?
> > 這個 mozilla source 裡有,不過您得要自己 compile
> source 的哪邊? 提示一下是哪個目錄跟名字我去 build 吧,
> 我用 lxr 找不到 fromu 這種名字的東西
找到了,原來是 /intl/uconv/tools/umaptable.c
*.uf 指的是 unicode->big5, *.ut 是 big5->unicode 對吧?
我打算做個 patch 來試試看, UAO 那邊新的 table 完成還要很久嗎?
可以給我一份單向對應(b->u)的表嗎? 上次拿到的 uc-o2n.tbl 沒有單向雙向的資訊,
(2.40a3 的有),不太確定能不能直接用。

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
dken 2005/9/29 下午 12:37
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
http://pingyeh.net/big5/

上次 debian 慶生會,ping 有向我提到他們在做這件事,而且他們是計畫開放出來,
並將這套字碼推廣為標準用。

如果 moztw 這邊要搞,可以一起參與,這樣力量也不會過於分散。
我想 ping 會很樂意的。


On 9/28/05, Hung-Te Lin (piaip) <hun...@gmail.com> wrote:
> 那一份應該是跟 kcwu 同的
> http://www.csie.ntu.edu.tw/~r92030/project/big5/
> 只是沒有 .gov.tw 的網址... 可惜
>

--
To be or not to be, that is the question!

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 下午 4:23
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
在 2005/9/29,Hung-Te Lin (piaip) <hun...@gmail.com> 撰寫:
> 我拿上次收到的 uc-o2n.tbl ,在 Windows XP2 上把它的 unicode 全轉回 big5,
> 再放進 big5-2003,建出來的表放在
> http://moztw.org/docs/big5/final/b5-2003-uao3.zip
> 其中的 uao3.txt
其實我不知道這應該算 uao3.0, or uao 2.50, or uao 2.40 final,
uao3 只是我亂取的

比對了一下, 0xBDDE 在 uao3.txt 中是 0xe7b7, 這是錯誤嗎? (big5-2003=8c6c)
其它的多半只有在 big5 造字區或是保留區加字,
還有部首區的修正

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
s793016 (Witch Five) 2005/9/29 下午 5:56
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
噢 ... 拍謝在上班所以沒法即時回 ... orz

先回應一些。

基本上您要的表我都可以給,不過都在家裡,等我下班再
e-mail 過去。


關於 umaptable.exe
================
那個操作法我也覺得不好記,所以我都用 batch file
去操作他。他基本上是個很呆的程式。

.uf = from unicode ==> unicode -> codepage
.ut = to unicode ==> codepage -> unicode


關於 uc-02n.tbl:
=============
這張表轉出來會比我們用的對照表多字,因為他還要處理我們各版本間字對應修改的改名。

他的結構是,左右皆為
unicode,檔中間有個分隔線,整個檔是 uc -> big5
單向,分隔線以下的是 uc <-> big5 雙向。

今天上班前在作的事:
==================
寫程式把目前補完 a140 -f9fe 跟 big5-2003
作比對,列出不同的,目前只知道含 c7、c8 區約 187
字不同,其它等下班再看。

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 下午 7:48
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
2005/9/29, s793016(WitchFive) <s79...@gmail.com>:
> 基本上您要的表我都可以給,不過都在家裡,等我下班再
> e-mail 過去。
嗯,其實我比較想知道現在可以拿到的表,完成度多高?
i.e, 未來 final 版的可能變動性? 因為要重弄一次還滿麻煩的

> 關於 uc-02n.tbl:
> 這張表轉出來會比我們用的對照表多字,因為他還要處理我們各版本間字對應修改的改名。
喔,那就再等您的表格了

> 他的結構是,左右皆為
> unicode,檔中間有個分隔線,整個檔是 uc -> big5
> 單向,分隔線以下的是 uc <-> big5 雙向。
跟以前一樣, Ok
我之前發信沒注意到有分隔線,
後來實作時就發現了

> 寫程式把目前補完 a140 -f9fe 跟 big5-2003
> 作比對,列出不同的,目前只知道含 c7、c8 區約 187
> 字不同,其它等下班再看。
這個,其實我前面提的 b5-2003-uao3.zip 有整合過 review 一遍了
請參照之前的 mail, 除了有一個似乎是錯誤 (0xBDDE)
一個衝碼 (0xFC73)
還有部首區幾乎全不同外,基本上與 big5-2003 幾乎完全相容
(不計保留區與造字區)

所以我想,放進去是 OK 的

另外想請問一下之前您在 viewtopic.php?t=1335
提過,

> 我們先看一下 bug#9686 修正了什麼:
> 1.big5 碼區定義錯誤。
> 2.big5 c6a1 ~ c8fe 對應到 unicode 的正確區域 (日文、俄文、數字、etc.)。
> 3.big5 造字區 (8140 ~ a0fe, fa40 ~ fefe) 對應到 unicode 造字區。
(2) 跟 (3) 沒問題,請問 (1)big5 碼區定義錯誤指的是什麼?


--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
s793016 (Witch Five) 2005/9/29 下午 8:51
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
Hung-Te Lin (piaip) wrote:
> 2005/9/29, s793016(WitchFive) <s793016@gmail.com>:
> > 基本上您要的表我都可以給,不過都在家裡,等我下班再
> > e-mail 過去。
> 嗯,其實我比較想知道現在可以拿到的表,完成度多高?
> i.e, 未來 final 版的可能變動性? 因為要重弄一次還滿麻煩的

基本上除了文件、安裝程式、櫻花輸入法,其它都大致
ok。

> > 寫程式把目前補完 a140 -f9fe 跟 big5-2003
> > 作比對,列出不同的,目前只知道含 c7、c8 區約 187
> > 字不同,其它等下班再看。
> 這個,其實我前面提的 b5-2003-uao3.zip 有整合過 review 一遍了
> 請參照之前的 mail, 除了有一個似乎是錯誤 (0xBDDE)
> 一個衝碼 (0xFC73)
> 還有部首區幾乎全不同外,基本上與 big5-2003 幾乎完全相容
> (不計保留區與造字區)
> 所以我想,放進去是 OK 的

目前整理出來不一樣的地方(扣掉保留區):
ps: 放一份副本在
https://googledrive.com/host/0BxHqn7o9v ... 3-diff.htm

uao big5-2003(unicode)
¯ A1C2 00AF ¯ != 203E ‾
═ A2A4 2550 ═ != 2501 ━
╞ A2A5 255E ╞ != 251D ┝
╪ A2A6 256A ╪ != 253F ┿
╡ A2A7 2561 ╡ != 2525 ┥
十 A2CC 5341 十 = 3038 〸
卄 A2CD 5344 卄 != 3039 〹
卅 A2CE 5345 卅 != 303A 〺
彝 C255 5F5D 彝 != 5F5E 彞
丶 C6BF 4E36 丶 != 2F02 ⼂
丿 C6C0 4E3F 丿 != 2F03 ⼃
亅 C6C1 4E85 亅 != 2F05 ⼅
亠 C6C2 4EA0 亠 != 2F07 ⼇
冂 C6C3 5182 冂 != 2F0C ⼌
冖 C6C4 5196 冖 != 2F0D ⼍
冫 C6C5 51AB 冫 != 2F0E ⼎
勹 C6C6 52F9 勹 != 2F13 ⼓
匸 C6C7 5338 匸 != 2F16 ⼖
卩 C6C8 5369 卩 != 2F19 ⼙
厶 C6C9 53B6 厶 != 2F1B ⼛
夊 C6CA 590A 夊 != 2F22 ⼢
宀 C6CB 5B80 宀 != 2F27 ⼧
巛 C6CC 5DDB 巛 != 2F2E ⼮
幺 C6CD 5E7A 幺 != 2F33 ⼳
广 C6CE 5E7F 广 != 2F34 ⼴
廴 C6CF 5EF4 廴 != 2F35 ⼵
彐 C6D0 5F50 彐 != 2F39 ⼹
彡 C6D1 5F61 彡 != 2F3A ⼺
攴 C6D2 6534 攴 != 2F41 ⽁
无 C6D3 65E0 无 != 2F46 ⽆
疒 C6D4 7592 疒 != 2F67 ⽧
癶 C6D5 7676 癶 != 2F68 ⽨
辵 C6D6 8FB5 辵 != 2FA1 ⾡
隶 C6D7 96B6 隶 != 2FAA ⾪
̂ C6D9 02C6 ˆ != FF3E ^
╭ F9FA 256D ╭ != 2554 ╔
╮ F9FB 256E ╮ != 2557 ╗
╰ F9FC 2570 ╰ != 255A ╚
╯ F9FD 256F ╯ != 255D ╝

您可以看得出來其實比較起來,也不能說有什麼大差異,更何況
big5-2003 選了一些奇怪的字,如:f9fa ~ f9fd、a2a4 ~ a2ad。

> > 我們先看一下 bug#9686 修正了什麼:
> > 1.big5 碼區定義錯誤。
> (2) 跟 (3) 沒問題,請問 (1)big5 碼區定義錯誤指的是什麼?

viewtopic.php?t=563 <= here

引言回覆:
Hung-Te Lin (piaip) 2005/9/29 下午 10:09
文章所在群組: moztw-dev,舊 MozTW 團隊論壇
-----------------------------------------------------
2005/9/29, s793016(WitchFive) <s79...@gmail.com>:
> 基本上除了文件、安裝程式、櫻花輸入法,其它都大致
> ok。
那想請問有關...
- 0xBDDE? (錯誤)
- 0xFC73? (衝碼)
咦,等等,或許這些錯誤的原因是我拿 uc-o2n 轉的
那... 等您的單向 table

> 您可以看得出來其實比較起來,也不能說有什麼大差異,更何況
> big5-2003 選了一些奇怪的字,如:f9fa ~ f9fd、a2a4 ~ a2ad。
看來要順便把 CP950 找出來,然後看看 u->b 要怎麼改

> > > 我們先看一下 bug#9686 修正了什麼:
> > > 1.big5 碼區定義錯誤。
> > (2) 跟 (3) 沒問題,請問 (1)big5 碼區定義錯誤指的是什麼?
> viewtopic.php?t=563 <= here
了解,那這次不用擔心,謝謝。

--
Hun...@gmail.com , <pi...@csie.ntu.edu.tw>
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

_________________
想讓 Internet Explorer 當掉嗎?

「方法一」 - 被 google 檔掉的樣子,開不起來

「方法二」


回頂端
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:23.0) Gecko/20100101 Firefox/23.0 SeaMonkey/2.20
 個人資料  
引用回覆  
 文章主題 : Gmail - UAO 2.41
文章發表於 : 2013-10-12, 14:26 
離線
[MozTW 版主群]
頭像

註冊時間: 2002-12-03, 21:00
文章: 744
來自: 地球
引言回覆:
Hung-Te Lin (piaip) 2005年9月30日上午1:25
回覆:"Hung-Te Lin (piaip)"
收件者: s793016 (Witch Five)
-----------------------------------------------------
全部放 newsgroup 上奇怪了點,而且之前標題也無關了,
接下來技術細節用 mail 討論好了

我拿了你的新 table(UAO241) 跟之前我用你的 uc-o2n.tbl 在 Windows 上跑
U->B 再併入Big5-2003轉出的對照來比 (uao3.txt),有下列不同:

(下面列表是 Big5, UAO241, UAO3)
A156 2013 2015
A1C2 00AF 203E
A2A4 2550 2501
A2A5 255E 251D
A2A6 256A 253F
A2A7 2561 2525
A2CC 5341 3038
0xA2CD 0x5344 0x3039
0xA2CE 0x5345 0x303A
0xA3E2~0xA3FE (UAO3 缺)
C255 5F5D 5F5E
C87A (UAO241=F7E6, UAO3缺)
C87C F7E8 9FB0
C8A1 (UAO3缺)
C8A4-C8B2 (UAO3 缺)
0xF9FA 0x256D 0x2554
0xF9FB 0x256E 0x2557
0xF9FC 0x2570 0x255A
0xF9FD 0x256F 0x255D
0xFC73 0x698A 0x8A49
0xFD73 0x8A49 0xE20A

原則上我會直接使用你的新表,不過因為剛好之前跑的結果是這樣,
給你做個參考,或許你的 uc-o2n.tbl 要檢查一下

--
piaip@csie.ntu
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年9月30日上午9:10
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
基本上我會給您跟 kc wu 一樣的建議:big5 2003 不要照單全收。

貼一段補完的改版 history 給您看:

Version 2.40 Alpha3 2004-01-29
--------------------------------------
* 名稱: Unicode 補完計畫

! 更動:在 Big5-2003 正式成為標準前,先將 Big5 0xA2CC & 0xA2CE 改對應到
Unicode CJK Ideograph 內,暫時解決因「聯合新聞網」用字不當導致
「十」無法顯示的問題。(witch)

在 2005/9/30,Hung-Te Lin (piaip) 撰寫:
>
> 我拿了你的新 table(UAO241) 跟之前我用你的 uc-o2n.tbl 在 Windows 上跑
> U->B 再併入Big5-2003轉出的對照來比 (uao3.txt),有下列不同:
> (下面列表是 Big5, UAO241, UAO3)


這些是原 newgroup 上指的 cp950 & big5 2003 的不同處:

> A156 2013 2015
> A1C2 00AF 203E
> A2A4 2550 2501
> A2A5 255E 251D
> A2A6 256A 253F
> A2A7 2561 2525
> A2CC 5341 3038
> 0xA2CD 0x5344 0x3039
> 0xA2CE 0x5345 0x303A
> 0xA3E2~0xA3FE (UAO3 缺) <= big5 2003 草稿有編造字碼,正版刪了。
> C255 5F5D 5F5E
> C87A (UAO241=F7E6, UAO3缺) <= big5 2003 草稿有編造字碼,正版刪了。
> C8A4-C8B2 (UAO3 缺) <= big5 2003 草稿有編造字碼,正版刪了。
> 0xF9FA 0x256D 0x2554
> 0xF9FB 0x256E 0x2557
> 0xF9FC 0x2570 0x255A
> 0xF9FD 0x256F 0x255D


以下這些是 uc-o2n.tbl 的錯誤:

> C8A1 (UAO3缺) = u+F7EB
>
> C87C F7E8 9FB0 <= typo, 已修正 F7E"B" 9FB0
>
> 0xFC73 0x698A 0x8A49 <= 單向放到雙向,已修正。
> 0xFD73 0x8A49 0xE20A <= 這碼漏了。


這個 uc-o2n.tbl 還不知道要怎麼用程式去搞,目前為止都是人工維護的 ... orz

> 原則上我會直接使用你的新表,不過因為剛好之前跑的結果是這樣,
> 給你做個參考,或許你的 uc-o2n.tbl 要檢查一下


謝了。
--
請多多指教 ^_^ Ψ Witch - Five Ψ

引言回覆:
Hung-Te Lin (piaip) 2005年9月30日下午5:37
回覆:"Hung-Te Lin (piaip)"
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
http://www.moztw.org/docs/big5/big-2003_uao.zip (09/30)

b2u 的選取原則與過程
http://www.moztw.org/docs/big5/table/moz18-b2u-rule.txt

或許你可以 review 一下新的 table...
<不過這要求可能很無理 ^^; 超累的>

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年9月30日下午9:29
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/9/30,Hung-Te Lin (piaip) 撰寫:

> http://www.moztw.org/docs/big5/big-2003_uao.zip (09/30)


連結錯哦,不過東西我有抓到,u2b 表的 size 給人感覺很偷懶 ... orz

等我有精神會看的 ...

> b2u 的選取原則與過程
> http://www.moztw.org/docs/big5/table/moz18-b2u-rule.txt


如果像我 newsgroup 那篇一樣用 utf-8 wysiwyg 會更好,不然常常看字碼生不出形狀 ...

另,我環境是 win me + 細明體更新套件 (xp only 那個),那個 10 20 30 我自己也還是看不到 ... orz

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年9月30日下午9:39
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/9/30,Witch Five <s793016 (Witch Five)> 撰寫:

> 在 2005/9/30,Hung-Te Lin (piaip) 撰寫:
>
>> http://www.moztw.org/docs/big5/big-2003_uao.zip (09/30)
>
> 連結錯哦,不過東西我有抓到,u2b 表的 size 給人感覺很偷懶 ... orz
> 等我有精神會看的 ...


您這次重點的 b2u 表跟我的只有兩點不同:
1.加了 0x80。
2.0xc6d9 不同。

至於 u2b 表 ... 基本上那不是這次的重點,可以不用看了 ... orz

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年9月30日下午9:47
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/9/30,Witch Five <s793016 (Witch Five)> 撰寫:

> 在 2005/9/30, Witch Five <s793016 (Witch Five)> 撰寫:
>
>> 在 2005/9/30,Hung-Te Lin (piaip) 撰寫:
>>
>>> http://www.moztw.org/docs/big5/big5-2003_uao.zip (09/30)
>>
>> 連結錯哦,不過東西我有抓到,u2b 表的 size 給人感覺很偷懶 ... orz
>> 等我有精神會看的 ...
>
> 您這次重點的 b2u 表跟我的只有兩點不同:
> 1.加了 0x80。
> 2.0xc6d9 不同。


補充一下 0xc6d9:
這個是那位 ho 前輩依據 hkscs 標準「建議」改的。您的意見?如果要改比照 big5-2003 我是沒意見。

引言回覆:
Hung-Te Lin (piaip) 2005年9月30日下午10:54
回覆:"Hung-Te Lin (piaip)"
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/9/30,Witch Five <s793016 (Witch Five)> 撰寫:
> > http://www.moztw.org/docs/big5/big-2003_uao.zip (09/30)
> 連結錯哦,不過東西我有抓到,u2b 表的 size 給人感覺很偷懶 ... orz
除了 uao 外 (因為 uao 的造字區全部都要 double)
一般的字碼表都沒差太多呀...

來貼貼最近收集的字碼表長度吧 :)
-rw-r--r-- 1 piaip wheel 189519 Sep 30 09:36 big5_1984-b2u.txt
-rw-r--r-- 1 piaip wheel 189519 Sep 30 09:37 big5_1984-u2b.txt
-rw-r--r-- 1 piaip moztw 274176 Sep 30 02:17 big5_2003-b2u.txt
-rw-r--r-- 1 piaip moztw 274120 Sep 30 02:21 big5_2003-u2b.txt
-rw-r--r-- 1 piaip wheel 189057 Sep 30 02:30 cp950-b2u.txt
-rw-r--r-- 1 piaip wheel 282703 Sep 30 02:26 cp950-u2b.txt
-rw-r--r-- 1 piaip moztw 276095 Sep 30 12:20 hkscs2001-b2u.txt
-rw-r--r-- 1 piaip moztw 130054 Sep 30 12:23 hkscs2001-u2b.txt
-rw-r--r-- 1 piaip moztw 197429 Sep 30 09:39 ibm-b2u.txt
-rw-r--r-- 1 piaip moztw 197429 Sep 30 09:38 ibm-u2b.txt
-rw-r--r-- 1 piaip moztw 276095 Sep 30 12:18 moz15-b2u.txt
-rw-r--r-- 1 piaip moztw 284341 Sep 30 12:18 moz15-u2b.txt
-rw-r--r-- 1 piaip moztw 1683 Sep 30 15:59 moz18-b2u-rule.txt
-rw-r--r-- 1 piaip moztw 276965 Sep 30 15:52 moz18-b2u.txt
-rw-r--r-- 1 piaip wheel 282871 Sep 30 17:04 moz18-u2b.txt
-rw-r--r-- 1 piaip moztw 276965 Sep 30 02:34 uao241-b2u.txt
-rw-r--r-- 1 piaip moztw 915713 Sep 30 02:57 uao241-u2b.txt

看,只有 uao u2b 過大 ^^;

> > b2u 的選取原則與過程
> > http://www.moztw.org/docs/big5/table/moz18-b2u-rule.txt
> 如果像我 newsgroup 那篇一樣用 utf-8 wysiwyg 會更好,不然常常看字碼生不出形狀 ...
呃,也對, sorry

> 另,我環境是 win me + 細明體更新套件 (xp only 那個),
> 那個 10 20 30 我自己也還是看不到 ... orz
可是 unicode.org 有畫出正確的字來,所以我覺得只能說字型都還沒做

> 您這次重點的 b2u 表跟我的只有兩點不同:
其實我覺得重點是 u2b 耶,因為 b2u 我只是確認了正確性 (看那篇 rule),
其實只有改一個

> 1.加了 0x80。
這其實不能算加的,因為現用的 mozilla table (big5 and big5-hkscs)本來就有那項
我以為它是有特殊原因所以留在那
話說回來,剛重看了一下, CP950 寫
0x80 #UNDEFINED
還是別寫這個好了

> 2.0xc6d9 不同。
> 這個是那位 ho 前輩依據 hkscs 標準「建議」改的。
> 您的意見?如果要改比照 big5-2003 我是沒意見。
請見 rule。
每個 big5-2003 與 uao 不同的字碼我不取 big5-2003 都是有原因的,
但 c6d9 我找不到合理的原因說 big5-2003 不好,
big5-2003 選的是寬字,UAO 選的是窄字,這點來看 big5-2003 比較好
唯一會覺得不好應該是因為 Big5-2003 的版本箭頭偏下,而沒有像半形的 ^ 的感覺
但我的感覺是全型半形本就不同,除非我們定義那個字天生是上標字效果,不然
Big5-2003 選的字問題較少。其實 Big5-2003 這次很多選字都是因為考慮到
Character Width 的問題,想減少 Ambigious CJK Widith 的字

所以,我傾向照 Big5-2003。

> 至於 u2b 表 ... 基本上那不是這次的重點,可以不用看了 ... orz
其實我對 u2b 花的時間遠多於 b2u
因為要把 big5-2003 跟 uao 對應到非造字區的全塞回去:
(1) 拿 cp950 的 u2b
(2) 砍掉 big5-2003 跟 uao 的 u2b 中對應到造字區的
(3) diff cp950 跟 big5-2003 作 merge
若 big5-2003 有多的,看 map 到的東西是不是 unicode 造字區或
cp950 這邊是 big5 造字區的,都不是才能加進來
(4) 再跟 uao 作 merge
(5) 重新排序,檢查造成重複碼的部份並決定用哪個
超麻煩!

所以其實是想請您審這個的... orz

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年9月30日下午11:51
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/9/30,Hung-Te Lin (piaip) 撰寫:

> 在 2005/9/30,Witch Five <s793016 (Witch Five)> 撰寫:
> > 連結錯哦,不過東西我有抓到,u2b 表的 size 給人感覺很偷懶 ... orz
> 除了 uao 外 (因為 uao 的造字區全部都要 double)
> 一般的字碼表都沒差太多呀...


嗯啊 ... 其實那個 65535 個碼全列也是有好處的,查表時可以用 unicode 碼當 base 直接算長度去 seek 到要查的碼,很方便。

> > > b2u 的選取原則與過程
> > > http://www.moztw.org/docs/big5/table/moz18-b2u-rule.txt
> > 如果像我 newsgroup 那篇一樣用 utf-8 wysiwyg 會更好,不然常常看字碼生不出形狀 ...
> 呃,也對, sorry


不用跟我 sorry, 會比較麻煩的是老外才對。

> > 另,我環境是 win me + 細明體更新套件 (xp only 那個),
> > 那個 10 20 30 我自己也還是看不到 ... orz
> 可是 unicode.org 有畫出正確的字來,所以我覺得只能說字型都還沒做


是這麼說沒錯,不過連 m$ 都沒作那就有點 ooxx 了。而且看不到的字對推廣東西是會有阻力,看我的 2.40a3 還不是為了那個該死的聯合報不得不改回來 ... orz

> > 您這次重點的 b2u 表跟我的只有兩點不同:
> 其實我覺得重點是 u2b 耶,因為 b2u 我只是確認了正確性 (看那篇 rule),
> 其實只有改一個


這樣嗎?可是您如果目的是要避免 user 出字到 big5 forum 用 big5 日文的話,那應該是用補完的 big5 -> unicode,然後 unicode -> big5 用 cp950 的,至於程式可以不用改。

所以,我以為這次的主角是 b2u 才對。

> > 2.0xc6d9 不同。
> > 這個是那位 ho 前輩依據 hkscs 標準「建議」改的。
> > 您的意見?如果要改比照 big5-2003 我是沒意見。
> 請見 rule。
> 每個 big5-2003 與 uao 不同的字碼我不取 big5-2003 都是有原因的,
> 但 c6d9 我找不到合理的原因說 big5-2003 不好,
> big5-2003 選的是寬字,UAO 選的是窄字,這點來看 big5-2003 比較好
> 唯一會覺得不好應該是因為 Big5-2003 的版本箭頭偏下,而沒有像半形的 ^ 的感覺
> 但我的感覺是全型半形本就不同,除非我們定義那個字天生是上標字效果,不然
> Big5-2003 選的字問題較少。其實 Big5-2003 這次很多選字都是因為考慮到
> Character Width 的問題,想減少 Ambigious CJK Widith 的字
> 所以,我傾向照 Big5-2003。


本來我也這麼想,不過我剛又看了下面的東西一次 ... 先維持 uao 原樣好了... orz

etenchar.png
圖檔
> > 至於 u2b 表 ... 基本上那不是這次的重點,可以不用看了 ... orz
> 其實我對 u2b 花的時間遠多於 b2u
> 因為要把 big5-2003 跟 uao 對應到非造字區的全塞回去:
> (1) 拿 cp950 的 u2b
> (2) 砍掉 big5-2003 跟 uao 的 u2b 中對應到造字區的
> (3) diff cp950 跟 big5-2003 作 merge
> 若 big5-2003 有多的,看 map 到的東西是不是 unicode 造字區或
> cp950 這邊是 big5 造字區的,都不是才能加進來
> (4) 再跟 uao 作 merge
> (5) 重新排序,檢查造成重複碼的部份並決定用哪個
> 超麻煩!
> 所以其實是想請您審這個的... orz


噢 ... 好吧我改看看用程式去跑 ... 我只會寫 4dos 用的程式語言 ...

引言回覆:
Hung-Te Lin (piaip) 2005年10月1日上午12:29
回覆:"Hung-Te Lin (piaip)"
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/9/30,Witch Five <s793016 (Witch Five)> 撰寫:
> > 可是 unicode.org 有畫出正確的字來,所以我覺得只能說字型都還沒做
> 是這麼說沒錯,不過連 m$ 都沒作那就有點 ooxx 了。
> 而且看不到的字對推廣東西是會有阻力,看我的 2.40a3
> 還不是為了那個該死的聯合報不得不改回來 ... orz
是的,所以 rules 裡面就寫「沒字型」,然後選了 cp950/uao 而非 Big5-2003

> 這樣嗎?可是您如果目的是要避免 user 出字到 big5 forum 用 big5 日文的話,
> 那應該是用補完的 big5 -> unicode,然後 unicode -> big5 用 cp950 的,
> 所以,我以為這次的主角是 b2u 才對。
一開始我也是這樣以為的,但我很快就發現並不是這樣
因為 b2u 很快就審完了
但如果 u2b 不仔細審就會跑出一個問題,就是 copy paste 不回來。
當然, copy 不出來的會變 HTML Entity 的形式硬轉,
但若是在顯示得出來的範圍內,照理來說我們應該要能正確轉換。

所以, Big5-2003/UAO 有改(新增)的 mapping, 如果在 u2b 不衝突就應該
放進去。

像 Big5-2003 我們看不到的那些部首字,雖然 b2u 不放,可是 u2b 就該放,
因為轉出來都是正確的 Big5 、別人也看得到,所以該放,這樣才像有認真做
Big5-2003 ...

> > > 2.0xc6d9 不同。
> > 所以,我傾向照 Big5-2003。
> 本來我也這麼想,不過我剛又看了附件的東西一次 ... 先維持 uao 原樣好了... orz
這就牽扯到,誰才算原始 big5 的定義... 不過反正查不到了,
Cp950 沒定義,就照 ETEN 為準吧
MODIFIER LETTER CIRCUMFLEX ACCENT
若以這句英文為準,那 Big5-2003 就出局了

... ok, we got a full UAO ^^;

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月1日上午3:13
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/9/30,Hung-Te Lin (piaip) 撰寫:
>
> > 至於 u2b 表 ... 基本上那不是這次的重點,可以不用看了 ... orz
> 所以其實是想請您審這個的... orz


... 經過兩個多小時漫長的等待 ... 終於比對完了 ... orz

列表如下,其他等睡起來再說了,猛一看應該是沒什傢問題。

<pre>
uaob uaou mozb mozu
---- ---- ---- ----
C6D8 00A8 != A14C 00A8
A0FB 00B8 != A14D 00B8
FFFD 0305 != A1C2 0305
9D7D 2501 != A2A4 2501
9C41 3220 != A440 3220
9C42 3221 != A447 3221
9C43 3222 != A454 3222
9C44 3223 != A57C 3223
9C45 3224 != A4AD 3224
9C46 3225 != A4BB 3225
9C47 3226 != A443 3226
9C48 3227 != A44B 3227
9C49 3228 != A445 3228
9C4A 3229 != A451 3229
99FD 3231 != AEE8 3231
99FC 3232 != A6B3 3232
95BD FA16 != BDDE FA16
C8D0 FF02 != A1A8 FF02
91C2 FF07 != A1A6 FF07
C6E4 FF3B != A165 FF3B
C6E5 FF3D != A166 FF3D
5E20 FF3E != A173 FF3E
C8BC FF64 != A14E FF64
</pre>

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月1日上午10:14
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/10/1,Witch Five <s793016 (Witch Five)> 撰寫:

> 在 2005/9/30,Hung-Te Lin (piaip) 撰寫:
>
>> > 至於 u2b 表 ... 基本上那不是這次的重點,可以不用看了 ... orz
>> 所以其實是想請您審這個的... orz
>
> ... 經過兩個多小時漫長的等待 ... 終於比對完了 ... orz


因為程式 bug 所以超久,已修改了,原先方式要讀 1m 的表 65535 次,現在只讀一次,耗時1分半 ... orz

> 列表如下,其他等睡起來再說了,猛一看應該是沒什傢問題。
> uaob uaou mozb mozu
> ---- ---- ---- ----
> C6D8 00A8 != A14C 00A8
> A0FB 00B8 != A14D 00B8
> C8BC FF64 != A14E FF64
> 9D7D 2501 != A2A4 2501
> 9C41 3220 != A440 3220
> 9C42 3221 != A447 3221
> 9C43 3222 != A454 3222
> 9C44 3223 != A57C 3223
> 9C45 3224 != A4AD 3224
> 9C46 3225 != A4BB 3225
> 9C47 3226 != A443 3226
> 9C48 3227 != A44B 3227
> 9C49 3228 != A445 3228
> 9C4A 3229 != A451 3229
> 99FD 3231 != AEE8 3231
> 99FC 3232 != A6B3 3232
> 95BD FA16 != BDDE FA16
> C8D0 FF02 != A1A8 FF02
> 91C2 FF07 != A1A6 FF07
> C6E4 FF3B != A165 FF3B
> C6E5 FF3D != A166 FF3D


下面這個好像不改也沒差。

> 5E20 FF3E != A173 FF3E


下面這個 ... 我本來是有加,不過拿掉了。

> FFFD 0305 != A1C2 0305

引言回覆:
Hung-Te Lin (piaip) 2005年10月1日下午2:27
回覆:"Hung-Te Lin (piaip)"
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/10/1,Witch Five <s793016 (Witch Five)> 撰寫:
> > 列表如下,其他等睡起來再說了,猛一看應該是沒什傢問題。
其實真的要比的話還要再跟 cp950 比
我想確認的是這個表不會隨便把字 (除了 unicode 造字區外)
給 map 到 big5 的造字區、保留區或 cp950 中 b->u 跑到 unicode 造字區的部份。

以下這些因為 uao 對到造字區 8140 - A0FE
不取 uao 的表
> > uaob uaou mozb mozu
> > A0FB 00B8 != A14D 00B8
> > 9D7D 2501 != A2A4 2501
> > 9C41 3220 != A440 3220
> > 9C42 3221 != A447 3221
> > 9C43 3222 != A454 3222
> > 9C44 3223 != A57C 3223
> > 9C45 3224 != A4AD 3224
> > 9C46 3225 != A4BB 3225
> > 9C47 3226 != A443 3226
> > 9C48 3227 != A44B 3227
> > 9C49 3228 != A445 3228
> > 9C4A 3229 != A451 3229
> > 99FD 3231 != AEE8 3231
> > 99FC 3232 != A6B3 3232
> > 95BD FA16 != BDDE FA16
> > 91C2 FF07 != A1A6 FF07

以下 uao 用罕用符號區,也不取
> > uaob uaou mozb mozu
> > C6D8 00A8 != A14C 00A8
> > C6E4 FF3B != A165 FF3B
> > C6E5 FF3D != A166 FF3D

以下為保留區,也不取 uao
> > C8BC FF64 != A14E FF64
> > C8D0 FF02 != A1A8 FF02

這就照 big5-2003 的建議吧
> 下面這個好像不改也沒差。
> > 5E20 FF3E != A173 FF3E

FFFD 不是等於對不出字嗎?
這邊也是照 big5-2003 吧
> 下面這個 ... 我本來是有加,不過拿掉了。
> > FFFD 0305 != A1C2 0305

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月1日下午2:51
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)"
-----------------------------------------------------
在 2005/10/1,Hung-Te Lin (piaip) 撰寫:

> 在 2005/10/1,Witch Five <s793016 (Witch Five)> 撰寫:
> > > 列表如下,其他等睡起來再說了,猛一看應該是沒什傢問題。
> 其實真的要比的話還要再跟 cp950 比
> 我想確認的是這個表不會隨便把字 (除了 unicode 造字區外)
> 給 map 到 big5 的造字區、保留區或 cp950 中 b->u 跑到 unicode 造字區的部份。


要確認很好確認,把這張 u2b 表用 big5 排序,再找 big5 造字、保留碼位就知道了。

另,b2u 是會有跑到 unicode 造字區的碼,因為如果那碼在補完本身就沒對應,那他自然會跑去 unicode 造字區。這種碼雖然不多,不過可能也不該把它拿掉。

> 不取 uao 的表


這個道理我懂。


附加檔案:
etenchars.png [13.93 KiB]
被下載 434 次

_________________
想讓 Internet Explorer 當掉嗎?

「方法一」 - 被 google 檔掉的樣子,開不起來

「方法二」
回頂端
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:23.0) Gecko/20100101 Firefox/23.0 SeaMonkey/2.20
 個人資料  
引用回覆  
文章發表於 : 2013-10-12, 14:43 
離線
[MozTW 版主群]
頭像

註冊時間: 2002-12-03, 21:00
文章: 744
來自: 地球
引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月4日上午8:30
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)" <>
-----------------------------------------------------
https://bugzilla.mozilla.org/show_bug.cgi?id=212128

跟您最後提的方案差不多吧?
--
請多多指教 ^_^ Ψ Witch - Five Ψ

引言回覆:
Hung-Te Lin (piaip) <> 2005年10月4日下午2:36
回覆:"Hung-Te Lin (piaip)" <>
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/10/4,Witch Five <s793016 (Witch Five)> 撰寫:
> https://bugzilla.mozilla.org/show_bug.cgi?id=212128
> 跟您最後提的方案差不多吧?
那篇以前是 depend on 9686 的
不過我以為它的解決方案不同?
它的說法是改用 big5 加上日文假名後, big5 跟 big5-hkscs
在那部份就通了,所以解掉

我們想要的應該是強制改 charset
看了 source 覺得其實不好改, orz

我現在最想要的是 big5 變成可選它的造字字集,
然後有 big5-2003, UAO, hkscs 三種可讓 user 調 (by pref?)
但... 很難
還生不出 patch (就算能改 source)

另外一種方法是能讀網頁時 override 讀到的東西
不過也... 不好改(如果單純做 extension)

--
piaip@csie.ntu
http://ntu.csie.org/~r92030/gmailtree/img/radial.png

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月4日下午4:47
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)" <>
-----------------------------------------------------
在 2005/10/4,Hung-Te Lin (piaip) <> 撰寫:

> 在 2005/10/4,Witch Five <s793016 (Witch Five)> 撰寫:
> > https://bugzilla.mozilla.org/show_bug.cgi?id=212128
> > 跟您最後提的方案差不多吧?
> 那篇以前是 depend on 9686 的
>
> 不過我以為它的解決方案不同?
> 它的說法是改用 big5 加上日文假名後, big5 跟 big5-hkscs
> 在那部份就通了,所以解掉


那個其實沒解吧,一樣是 unconfirmed,再說提 bug 人的訴求, 其實跟我們現在想作的不是一樣嗎?

> 我們想要的應該是強制改 charset
> 看了 source 覺得其實不好改, orz
> 我現在最想要的是 big5 變成可選它的造字字集,
> 然後有 big5-2003, UAO, hkscs 三種可讓 user 調 (by pref?)
> 但... 很難
> 還生不出 patch (就算能改 source)
>
> 另外一種方法是能讀網頁時 override 讀到的東西
> 不過也... 不好改(如果單純做 extension)


viewtopic.php?t=726
how about this?

引言回覆:
Hung-Te Lin (piaip) <> 2005年10月4日下午8:00
回覆:"Hung-Te Lin (piaip)" <>
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/10/4,Witch Five <s793016 (Witch Five)> 撰寫:
> > 我們想要的應該是強制改 charset
> > 看了 source 覺得其實不好改, orz
> > 另外一種方法是能讀網頁時 override 讀到的東西
> > 不過也... 不好改(如果單純做 extension)
> viewtopic.php?t=726
> how about this?
改 charset alias 嘛,其實我也想過,只是...
我還不知道 extension 能不能動 charset.alias
話說回來,假定能寫出 extension,
再改成 Big5 有三種, big5/big5-hkscs/big5-uao
這樣就完美了
不過要 "加 encoding" 肯定來不及進 1.5, 起碼要 2.0

我先把 bugzilla 那篇註解說 .uf 比 .ut 重要,因為我一直有點擔心
相容問題 (對於使用非uao 也非 hkscs 的人來說,新的字集等於完全讓他爛掉)
另外再註解我們很希望兩個一起進。
聽天由命吧...

還有,上次你說要改的那幾個 code...
UAO 我覺得你可以先改,版號區分開來就好,就當 Fx 的是用 UAO2.41
然後你們改掉的就叫 2.42 之類

如果哪天要重送更新的表再順便 update, 但應該不會單純為了這個送 patch

引言回覆:
Witch Five <s793016 (Witch Five)> 2005年10月4日下午10:16
回覆:Witch Five <s793016 (Witch Five)>
收件者: "Hung-Te Lin (piaip)" <>
-----------------------------------------------------
在 2005/10/4,Hung-Te Lin (piaip) <> 撰寫:

> 在 2005/10/4,Witch Five <s793016 (Witch Five)> 撰寫:
> > > 我們想要的應該是強制改 charset


我有個想法哦,像某些 anti spam 軟體或防毒程式的原理一樣,寫一個 local 的 proxy server,然後把 mozilla proxy 指到此 local proxy,所有網頁先用此 server 攔下來,把 meta 的 encoding 檢查過,如果是 big5 就把它改成 big5-hkscs 再送給 browser 用。

不過這樣搞不好可以改同文堂來用 ... 把它的檢查字串改成只檢查 meta encoding,如果處理過 big5 -> big5hkscs 就直接用處理過的重繪 ...

阿阿阿阿阿阿阿阿阿 ... 我不會這些東西啦,只能亂想 ... orz

> 我先把 bugzilla 那篇註解說 .uf 比 .ut 重要,因為我一直有點擔心
> 相容問題 (對於使用非uao 也非 hkscs 的人來說,新的字集等於完全讓他爛掉)


您指 big5e 死忠者嗎?(爆)

> 另外再註解我們很希望兩個一起進。
> 聽天由命吧...


我覺得老外對此看法大概像 danielwang 在 vote 那篇寫的一樣 ...

引言回覆:
Hung-Te Lin (piaip) <> 2005年10月4日下午10:57
回覆:"Hung-Te Lin (piaip)" <>
收件者: Witch Five <s793016 (Witch Five)>
-----------------------------------------------------
在 2005/10/4,Witch Five <s793016 (Witch Five)> 撰寫:
> > 我先把 bugzilla 那篇註解說 .uf 比 .ut 重要,因為我一直有點擔心
> > 相容問題 (對於使用非uao 也非 hkscs 的人來說,新的字集等於完全讓他爛掉)
> 您指 big5e 死忠者嗎?(爆)
不只, 我指的是其它的外字集
雖說看起來最大的就是 UAO (for TW) 跟 HKSCS,
但像 HKSCS 也有2001,2002,2004 etc etc
如果我是一個裝了 HKSCS-2004 在 Unicode 造字區有對應字型的 user
本來我開 big5 就會看到正確形狀的字
但現在我不管用 big5/big5-hkscs 都不對了 (我指 big5-hkscs(2001) 與 2004 不同的部份)
同樣的,或許還有許多未知的外字集
畢竟 big5-2003 也把那邊定為 CP950 的 Unicode 造字區
理論上真的會有人作其它外字集的

> 我覺得老外對此看法大概像 danielwang 在 vote 那篇寫的一樣 ...
嗯... 我是覺得還好,只怕大部份的人都在忙 1.5,
然後這種大改會讓人害怕,尤其是他們不確定的領域

至於對 big5/utf8 ,Daniel 似乎不是住台灣的?
另外他可能也不是在反對這個議題,只是在感嘆為什麼大家不用 utf8 (maybe)
我知道你做這些東西做的很辛苦,不過... 看開點吧 ^^;

像有些地方進行全面把 big5 換成 utf-8 的計畫,
就會有人跳出來說 "What's wrong with Big5?"
Don't mind!

_________________
想讓 Internet Explorer 當掉嗎?

「方法一」 - 被 google 檔掉的樣子,開不起來

「方法二」


回頂端
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:23.0) Gecko/20100101 Firefox/23.0 SeaMonkey/2.20
 個人資料  
引用回覆  
文章發表於 : 2013-10-12, 14:44 
離線
[MozTW 版主群]
頭像

註冊時間: 2002-12-03, 21:00
文章: 744
來自: 地球
ok,大致上就這些了,以上有需要請自行取用。

_________________
想讓 Internet Explorer 當掉嗎?

「方法一」 - 被 google 檔掉的樣子,開不起來

「方法二」


回頂端
Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:23.0) Gecko/20100101 Firefox/23.0 SeaMonkey/2.20
 個人資料  
引用回覆  
顯示文章 :  排序  
發表新文章 回覆主題  [ 5 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
Powered by phpBB® Forum Software © phpBB Group
正體中文語系由 竹貓星球 維護製作
© moztw.org, Mozilla Foundation
MozTW,Mozilla 台灣社群