跳去內容

中文資訊交換碼

出自維基百科,自由嘅百科全書

中文資訊交換碼Chinese Character Code for Information Interchange, 簡稱CCCII)係一套中文字電腦編碼。編碼同ISO-2022相容,每個中文字有有三(byte),每卦七(bit),可以容納94x94x94咁多個中文字,佢亦可以同其他ISO-2022相容編碼混合來用。係好受圖書館歡迎嘅編碼系統。

[編輯]

初時係美國圖書館要同中文書目録輸入電腦,之但係當時美國並無咁嘅標準,所以美國有關組織就向當時中國(中華民國)求助。其實當時國內都一樣無咁嘅系統,亦美國亦有人提議用日本系統,但係日本字為本實在好難接受。所以1980年行政院文化建設委員會就成立國字小組,專門搞呢件事,當時編碼已經考慮埋中文正體字異體字同埋大陸簡化字,兼埋收入日文字韓文字。最後寫成中文資訊交換碼,分幾部交畀美國。而美國亦定做國家標準,ANSI/NISO Z39.64,而美國國會圖書館因為見佢可以編晒東亞典藉,就叫佢做East Asia Coded Character (EACC),即東亞已編碼文字。

雖然呢套系統咁受世界各地圖書館歡迎,但響中華民國無辦推廣來用。因為政冶內鬥,另一部門另定國家標準CNS-11643。但電腦廠商就自定立五大碼(Big5),大量削減字數以及用埋ISO-2022唔畀用嘅空間,將文字塞入兩掛之內,對日後中文電腦發展影響好大。

編碼

[編輯]

中文資訊交換碼第一版有5139隻字,家下統一嗎都有引用呢個做來源,叫CCCII Level 1。經過擴充,家下有73400隻字。

編碼空間雖然好大,但唔係任意編。佢想做到正體字、異體字同滅筆字係有對應關係,方便轉換。

佢第一個碼係21212116

212B2116到212F7816係類似中文字,總共331字,包埋部首214字。21302116到21633016常用國字標準字體表裏面4808隻字。21642116到26254316係其他中文字37615隻字。

資料

[編輯]

國字小組整理中文字期間,掂過好多古籍,好多資料歸納出來,其中一樣係中國文字資料庫(CCDB),另外重有典籍裹面唔少索引。

轉向統一碼

[編輯]

香港各大學圖書館響2003年由舊有的 CCCII 系統換成統一碼(Unicode) UTF-8格式[1][2]

[編輯]
  1. "Unicode Project" (英文). Library, City University of Hong Kong. 原著喺2007年5月1號歸檔. 喺2007年6月11號搵到.
  2. "Unicode Migration" (英文). Library, Chinese University of Hong Kong. 原著喺2004年11月27號歸檔. 喺2007年6月11號搵到.

參考

[編輯]