中文資訊交換碼
中文資訊交換碼(Chinese Character Code for Information Interchange, 簡稱CCCII)係一套中文字電腦編碼。編碼同ISO-2022相容,每個中文字有有三卦(byte),每卦七爻(bit),可以容納94x94x94咁多個中文字,佢亦可以同其他ISO-2022相容編碼混合來用。係好受圖書館歡迎嘅編碼系統。
史
[編輯]初時係美國圖書館要同中文書目録輸入電腦,之但係當時美國並無咁嘅標準,所以美國有關組織就向當時中國(中華民國)求助。其實當時國內都一樣無咁嘅系統,亦美國亦有人提議用日本系統,但係日本字為本實在好難接受。所以1980年行政院文化建設委員會就成立國字小組,專門搞呢件事,當時編碼已經考慮埋中文正體字,異體字同埋大陸簡化字,兼埋收入日文字、韓文字。最後寫成中文資訊交換碼,分幾部交畀美國。而美國亦定做國家標準,ANSI/NISO Z39.64,而美國國會圖書館因為見佢可以編晒東亞典藉,就叫佢做East Asia Coded Character (EACC),即東亞已編碼文字。
雖然呢套系統咁受世界各地圖書館歡迎,但響中華民國無辦推廣來用。因為政冶內鬥,另一部門另定國家標準CNS-11643。但電腦廠商就自定立五大碼(Big5),大量削減字數以及用埋ISO-2022唔畀用嘅空間,將文字塞入兩掛之內,對日後中文電腦發展影響好大。
編碼
[編輯]中文資訊交換碼第一版有5139隻字,家下統一嗎都有引用呢個做來源,叫CCCII Level 1。經過擴充,家下有73400隻字。
編碼空間雖然好大,但唔係任意編。佢想做到正體字、異體字同滅筆字係有對應關係,方便轉換。
佢第一個碼係21212116。
212B2116到212F7816係類似中文字,總共331字,包埋部首214字。21302116到21633016係常用國字標準字體表裏面4808隻字。21642116到26254316係其他中文字37615隻字。
資料
[編輯]國字小組整理中文字期間,掂過好多古籍,好多資料歸納出來,其中一樣係中國文字資料庫(CCDB),另外重有典籍裹面唔少索引。
轉向統一碼
[編輯]香港各大學圖書館響2003年由舊有的 CCCII 系統換成統一碼(Unicode) UTF-8格式[1][2]。
註
[編輯]- ↑ "Unicode Project" (英文). Library, City University of Hong Kong. 原著喺2007年5月1號歸檔. 喺2007年6月11號搵到.
- ↑ "Unicode Migration" (英文). Library, Chinese University of Hong Kong. 原著喺2004年11月27號歸檔. 喺2007年6月11號搵到.