添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
隨著新學期開學,圖書館一下子熱鬧了起來:除新鮮人導引活動外,還有校園文化資產詮釋靜態展,以及探討老照片過去、現在與未來的國際研討會,歡迎有興趣者踴躍參加。本期館訊有幸獲香港中文大學圖書館同道賜稿,與我們分享香港INNOPAC圖書館轉換中文字符內碼的經驗(註:INNOPAC為圖書館自動化系統,本館亦是採用該系統處理館藏資料),文中簡介中文字碼的問題、香港中文大學的書目紀錄字碼轉換工作、以及香港INNOPAC用戶聯盟共同組成(HKIUG)單一碼計劃工作小組,針對CCCII與Unicode的對應提出解決方法;簡潔的說明可讓一般讀者初步了解目前圖書館自動化系統在中文簡繁體字處理上遭遇的問題,亦可協助國內圖書館同道一起來思考如何改善簡/繁體中文字碼的轉換問題。 國立臺灣大學文學院、國立臺灣大學圖書館、
信鴿法國書店、歐洲經貿辦事處

攝影家 John Thomson 於1871年攝於高雄北部山區的原住民照片,被學者認為可能是臺灣的第一張照片,其重要性不言而喻,這批照片於2006年國際書展中首次展出,引起眾多回響,更喚起社會大眾對台灣老照片的思古幽情。老照片的具體影像使得歷史的痕跡歷歷在目,更成為各領域之台灣研究有力佐證。本研討會以此為出發點,希冀瞭解臺灣老照片如何歷經多年顛沛流離的歲月,完整呈現在世人的面前,進而探討影像現今保存技術的發展及應用,並構思未來影像資料庫及資料館可能方向。

本次研討會中將邀請多位國內外知名學者專家,除發表以 John Thomson 照片為核心之研究結果報告外,現存於歐洲的臺灣老照片保存情況及管理心得,也是研討會主題之一,來自大英圖書館照片館藏管理部門講者,將與來賓分享大英圖書館照片保存的實務經驗。除管理經驗分享外,研討會另一主題為國內影像照片保存現況分析,將著重於照片影像資料整理、詮釋、保存與修復等面向,並針對照片數位典藏,照片資料庫及資料館建置上的歷程及現行狀況做一完整的描述。

每一張老照片的背後,都述說著一段不同的歷史,如何替這些老照片找到一個新的發展方向,本研討會歡迎有興趣人士共襄盛舉、報名參加,一同為老照片中的靈魂尋找新的方向。

如需連絡,請洽臺灣大學圖書館推廣服務組
網頁報名: http://www.lib.ntu.edu.tw/General/events/oldphoto/home.htm
電話:02-33662326
電子郵件: tul@ntu.edu.tw

(推廣服務組)

Fresh好心情!歡迎台大新鮮人參加「新鮮人導引」活動!

自9月18日開跑的「 新鮮人導引 」活動,至今已經有數百人參加了喔!身為台大新鮮人的您怎可落在其他同學的後面呢?圖書館歡迎大一、碩一和博一的台大新生踴躍參加「 新鮮人導引 」活動,只要滑鼠輕輕一點,馬上熟悉實用又有趣的圖書館服務,完成小小測驗後就能到圖書館領取第一重神祕獎品,填完問卷還能參加第二重抽獎活動,獎品有iPOD shuffle和自行車喲!趕快連上圖書館數位學習網吧!

(推廣服務組)

1. 引言

圖書館目錄的功能是要幫助讀者有效地查詢,辨識,選取圖書館内的資源。自從電腦作業系統支援中文字以來,中文字碼的選用是華文圖書館編目工作的一大挑戰。 圖書目錄在圖書館系統的中文輸入和内碼限制下,不單要正確顯示書目紀錄,亦要兼顧用戶端的電腦界面以支援有效檢索。書目紀錄的字碼不同,也成了合作編目的障礙。編目者一般會採用大五碼(Big5)、國標(GB)、CCCII、EACC或Unicode(單一碼)等輸入資料,而INNOPAC系統則以CCCII/EACC為内碼。以往香港圖書館大多使用Windows95或Windows98外掛Big5輸入系統, 亦有使用DOS版含繁簡体字的CCCII大漢字形檔。但由於INNOPAC 的Webopac使用Big5 port,只有繁體字介面,讀者也只能以繁體字查詢。

踏入2000年,Unicode平臺的個人電腦作業系統日漸普及,如Windows2000, WindowsXP等。用戶多以Unicode介面輸入資料或查詢。此舉形成了編目,内存及查詢的三個層面,各自使用不同的內碼介面。本文簡介中文字碼的問題;香港中文大學圖書館系統在2003年的書目紀錄字碼轉換工作;以及香港INNOPAC用戶組 (HKIUG) 單一碼計劃工作小組提出的建議和解決方法

2、中日韓字符資料在電腦中的情況

2.1 每一個中日韓字符對電腦來説,只是以一串内碼的形式存在電腦的記憶體中。流行的中文字編碼字元集有如下幾種:

字元集名稱 (character sets)
香港、臺灣等地 CCCII (Chinese Character Code for Information interchange中文資訊交換碼) 圖書館系統,如:INNOPAC EACC (East Asian Character Code 東亞字碼,可視為CCCII的子集) 美國國會圖書館字碼標準(LC MARC 21 standard)http://www.loc.gov/marc/specifications/specchareacc.html Unicode (單一碼) 電腦作業系統廣泛採用,如wWindows 2000、Windows XP
3. 香港中文大學圖書館機讀目錄歷史

3.1 香港中文大學圖書館機讀目錄與其他香港的圖書館大致一樣,是使用繁體字編目,以Big5為内碼儲存。大學圖書館系統使用INNOPAC後,由於INNOPAC是以CCCII為中文字内存的系統,早期以Big5為内碼儲存的目錄於1995年一併轉換爲CCCII,以符合當時USMARC的標準(唯字碼不局限於EACC字元集)。對讀者提供的Webopac是Big5 port,只能顯示繁體字。

3.2  香港中文大學大學圖書館系統認爲簡體字書籍,應以簡體字著錄、儲存及在目錄上顯示。雖說簡體字書籍也可循用繁體字編目,但例如「杰」字出現在作者的名字某部分時,以「傑」字代替未必適當,甚至錯誤。因此爲了如實著錄,簡體字書籍還是以簡體字著錄為尚。自1996年開始,大學圖書館系統的機讀目錄已是繁簡並用了。

3.3 可是繁簡體字在Big5對應表轉換為CCCII後,尾4碼不連結,影響索引。且看「餘數」的「餘」,内碼經Big5對應表轉換為EACC 216076,與簡體的「余数」的「余」内碼則被轉換為CCCII 213131即為一例。大學圖書館系統爲了利用繁簡體字連結索引的特質,「余数」的「余」,使用了永麒公司的「大漢字庫」,選取以與「餘」相連的「余」(内碼EACC 276076)輸入。誠然對讀者來說,難免有點麻煩,要找出簡體字資料的「余数」的「余」(内碼EACC 276076),要輸入繁體字資料的「餘」(内碼EACC 216076),否則光是輸入「余」只會找出含姓氏「余」(内碼CCCII 213131)的書目資料。線上目錄檢索受到很大的限制,這種情況一直無法改善。

3.4 直至INNOPAC於2000年後提供了UTF8 port Webopac 繁簡並用的目錄,上述檢索限制的情況才有新發展。繁簡体字是可以一併查找及顯示。見附圖:

4. INNOPAC的「Big5對應表」與「UTF8對應表」的矛盾

可是,同樣是一個字符「余」,在INNOPAC系統中的「Big5對應表」與「UTF8對應表」選取對應CCCII的邏輯次序並不一致。用戶經Big5 port或UTF8 port會找到不一致的書目數量。換言之,在UTF8平台下輸入的字符儲存碼與Big5平臺輸入字符的儲存碼並不完全一樣,做成書目檢索上的混亂。請看下表查詢「余」字的情況:

Big5對應表架構 [余] 字內碼與Big5對應
<--選取表中較 條目 Big5 port輸入 [余] (A745)只會找出含姓氏「余」(213131)的書目 213131
276076
<--選取表中較 條目 UTF8 port輸入 [余] (U+4F59)。由於與「餘」217076連結索引,所以只會把含繁體的「餘」字書目找出來。但此「余」(276076)又無法查找姓氏「余」(213131)的書目記錄。 213131
276076
5. 香港圖書館的Unicode工作計劃

5.1 基於在Unicode環境下使用INNOPAC編目及讀者查詢目錄時會遇到的種種困難,香港中文大學大學圖書館系統邀請了香港各INNOPAC圖書館於2003年7月11日舉行了一次名為“Seminar on Using Unicode UTF-8 for Online Catalogue on INNOPAC System” 的討論會。各圖書館的代表在會上交流意見,並商討各種解決方案。同年7月, Hong Kong Innovative Users Group(香港Innovative用戶協會,簡稱HKIUG) 成立了HKIUG Working Group on Unicode Project (單一碼計劃工作小組)負責儘快訂出解決方案。

5.2 單一碼計劃工作小組的成員包括香港科技大學的林紀達先生,香港城市大學的黃秉傑先生,香港大學的陳偉明先生,香港中文大學的何以業。

5.3 單一碼計劃工作小組的目標有如下五個:

  • 解決「Big5對應表」和「UTF-8對應表」選取内存CCCII不一致的難題
  • 決定對應表中的那些應是「一EACC對一Unicode」或是複數對應,即「多EACC對一Unicode」
  • 決定對應表應否只包含「EACC」或是「EACC+ CCCII」並存
  • 清除對應表錯誤與缺漏
  • 為將來「以Unicode為内存的資料庫」(Unicode based database)做好準備
  • 5.4 經過三個月的反復討論,單一碼計劃工作小組於同年11月提出如下方案:

  • 不再修訂Big5 對應表。原因是Big5對應表字量少;只支援繁體字;複數對應太多
  • 重制新的 Unicode 對應表
  • EACC<>Unicode 對應方面,以美國國會圖書館MARC 21為標準
  • EACC 與 CCCII 重疊時,刪除CCCII (可參看下文5.5.b)
  • 各館自行決定將屬於上項955對中以CCCII為內碼的資料轉換為對應的 EACC
  • 對應表需包括「純粹CCCII」,即不是與EACC重覆的CCCII,以照顧非常用字(可參看下文5.5.c)
  • 新對應表除了「一EACC對一Unicode」外,亦會包含「多EACC對一Unicode」;尾4碼相同者,容許複數對應;尾4碼不同者,需決定優先選取者(可參看下文5.5.d)
  • 5.5 新的 EACC/CCCII<>UTF-8 對應表的建構的詳細工序見於黃秉傑先生在2003年12月第4屆 Hong Kong Innovative Users Group Meeting 報告內的Procedures 部分。該部分的要點為:

  • 以美國國會圖書館MARC21的東亞語文内碼表(http://www.loc.gov/marc/specifications/specchareacc.html) 為基準,抽取了15,673條EACC<>Unicode對應目,從INNOPAC舊對應表diac.utf8,刪除與LC重覆的部分。
  • 從INNOPAC的舊diac.utf8對應表,刪除與EACC重覆的CCCII。此類内碼共 955對,例如:
  • 加入INNOPAC舊對應表diac.utf8經過篩選餘下的7,044條CCCII<>Unicode對應條目以照顧非常用字。例如:
  • 由於新表中包含了「多EACC對一Unicode」,而INNOPAC只與其中一條對應,香港科技大學圖書館因此就49組,共109個字符的「多EACC對一Unicode」内碼,展開了「高使用率」研究而設定了優先對應條目。工作小組根據此研究在新對應表中設定了優先對應項。例如:
  • <--27542B較為常用,選為優先對應

    5.6 EACC/CCCII<>UTF-8 對應表命名為diac.utf8.hkiug,摘要及圖示如下:
    EACC<>Unicode:15,673
    CCCII<>Unicode:7,044
    合共:22,717條目

    6.香港中文大學修改圖書館機讀目錄資料庫過程

    6.1 香港中文大學大學圖書館系統在HKIUG確認單一碼計劃工作小組建議的新對應diac.utf8.hkiug之前,已於2003年7月24日開始自行修改内碼。大學圖書館系統爲了避免影響讀者使用目錄,所以在9月大學新學期來臨前先行改碼。

    6.2 改碼是使用Millennium INNOPAC的 Global Update 功能,將目錄資料庫中955組 CCCII,轉換成對應的EACC(見前5.5.b)。改碼工作的一個月内,由於圖書館的INNOPAC 系統並不中斷日常運作,而書目紀錄含中日韓字符的目錄多於40万條數據,所以必須分批轉換。先後次序如下:

  • 書目檔案中受索引控制部分的内碼 。例如巻(83,842次);家(35,065次);志 (34,353次)
  • 書目檔案中不受索引控制部分的内碼
  • 權威檔案中受索引控制部分的内碼
  • 權威檔案中不受索引控制部分的内碼
  • 6.3 改碼期間,大學圖書館系統Webopac切斷舊Big5 port,只提供UTF8 port給讀者使用。

    7. 新UTF-8 對應表diac.utf8.hkiug下資料用戶軟件的設定

    7.1 對讀者而言,圖書館提供了UTF8 port Webopac;而圖書館則使用Millennium INNOPAC 或其他支援Unicode的Telnet軟件如Anzio-Win為作業平台。

    7.2 由於新對應表diac.utf8.hkiug有「多EACC對一Unicode」條目,例如:簡體字 「历」U+5386可對應 27462A 和274349,HKIUG 以27462A為優先對應。若簡體字書目有「万年历」或「万历皇帝」等字樣時,編目者為了準確地把原資料著錄,便需要自行以内碼 {274349} 形式代替字符輸入該字。

    7.3 但2003年時Millennium INNOPAC的Millennium Editor Client有缺點,在每筆記錄重存時,會硬按對應表的優先對應的規定把「历」U+5386存為内碼27462A。見附圖:

    2004年Innovative公司爲了解決這個問題, 提議Millennium Editor Client可使用一個「短對應表」,即是從新UTF-8 對應表diac.utf8.hkiug中剔除「非優先對應」條目。自行輸入的任何内碼由於不存在於「短對應表」中,就得以保存下來。至於讀者的UTF8 port Webopac 仍使用對應表diac.utf8.hkiug。見附圖:

    7.4 仍然使用Character-based INNOPAC的圖書館,則需要採用其他支援Unicode的Telnet軟件如Anzio-Win的圖書館,啓動Anzio-Win的CCCII session的同時,並設定獨立的軟件對應表CCCII.UNI。香港中文大學大學圖書館系統自行把diac.utf8.hkiug轉化為Anzio-Win的CCCII.UNI作日常編目之用。

    7.5. 既然Millennium Editor Client 能保留編目時自行輸入的内碼,Millennium INNOPAC的MilSer 和MilAcq就可以安心應用了。

    8. HKIUG的跟進工作

    8.1 由於香港的INNOPAC用戶仍會繼續使用CCCII為内存, HKIUG 在2003年單一碼計劃工作小組的基礎上,於2005年接續成立另一工作組,名為「香港Innovative 用戶協會單一碼特別工作組」(HKIUG Unicode Taskforce)負責如下工作:

  • 設定TSVCC(Traditional-Simplifed-Variant-Chinese-Characters)混合索引,以解決非優先字不易查找的困難。
  • CJK 字符中,繁簡體和異體字甚多,不能光靠CCCII特徵的「尾4碼相同」來連結索引。Innovatives 能以 Tool-database 形式達到混合索引的功能,而本特別工作組則提供混合索引條目。當輸入以下任何一個字符,均可把載有以上任何代碼的目錄全部找出來。例如:

    213538 台 21542B 臺 27542B 台 21605D 颱
    27605D 台 223B7D 檯 283B7D 台3A3B7D 枱

  • 繼續維護新UTF8對應表diac.utf8.hkiug,修改Unicode對應,迎合用戶方便,更改對應。例如按照《现代汉语词典》(北京 :商務印書館) 判定那些是異體字。例如:
  • 關注LC MARC21標準内的東亞語文内碼表的更新情況
  • 為未來轉移到Unicode為内存的INNOPAC, 做好準備
  • 9.1 往後數年,圖書館界仍多以 EACC 為記憶體代碼及作為交換碼。以CCCII為内存的INNOPAC 用戶館與此等以 EACC 為記憶體的資料庫進行交換時,不會出現問題。但將來轉用以 Unicode為内存的INNOPAC時,與此等CCCII/EACC資料庫交換時,有些簡體字會輸出cross-walk錯碼。同樣,若圖書館仍採用以CCCII為内存的INNOPAC,接收Unicode的交換目錄,也會受到如上cross-walk錯碼影響。交換資料時cross-walk中的「多碼EACC合為一碼Unicode」不成問題,但「一碼Unicode分爲多碼EACC」則非經人工干預選擇不可。 例如:會有Unicode「万年历」轉換成EACC「万年历 (歷) 」輸出的錯誤。見附圖:

    9.2 隨著Unicode的普及,INNOPAC已可以由CCCII為内存轉移為以Unicode為内存。大陸的INNOPAC使用館已有或積極考慮轉移到使用以Unicode為内存的INNOPAC。由於Unicode與CCCII碼點形式不同,Unicode的TSVCC必須重訂。

    10.結語

    臺灣地區在中文字碼的研究早已啓動,1999年由國家圖書館出版的《中文字集字碼研究計劃報告》是一份非常詳細精密及有啓發性的報告,為研究中文字集提供的重要文獻。香港中文大學大學圖書館系統在開始探索字碼問題時,亦視此爲主要參考資料。香港的INNOPAC圖書館經過兩年多的討論及研究,已基本解決了字碼的對照,各館已陸續由Big5轉換到Unicode的編目平台。而編目工作也逐步依照原書,以繁體或簡體著錄。在Unicode的平台,可更方便著錄古代文獻中的非常用字。推想Unicode會繼續擴大收集中文字符,增加字庫。將來電腦作業系統亦會能支援更多Unicode的字符,屆時,就算要處理敦煌寫本上的佛經罕見字也不會再有問題了。

    國立臺灣大學醫學院圖書分館(以下簡稱本館)是國內歷史最悠久且館藏最豐富之醫學圖書館,創立於民國前十二年四月。民國二十五年臺北帝國大學成立了醫學部,並將本館命名為「臺北帝國大學附屬圖書館醫學部分室」。民國三十四年臺灣光復,臺北帝國大學醫學部正式改稱為國立臺灣大學醫學院,於是本館亦改稱「國立臺灣大學醫學院圖書分館」而沿用迄今。民國七十八年四月本館遷至醫學院基礎醫學大樓;八十年二月臺大醫院圖書室與本館合辦;八十二年七月及八十三年六月護理系與公衛系圖書室先後裁撤,將該系圖書室之館藏併入本館。自此,本館擔負起提供醫學校區三院醫學資訊與服務的功能,主要服務對象為本校醫學院、公衛學院之教職員生、附設醫院之醫護人員,以及本校其他學院和行政單位之教職員工生。本館之館藏係以醫學類圖書資訊為主,謹介紹臺大醫學院圖書分館之重要服務或設施,歡迎本校全體教職員工生蒞臨指導。

  • 提供電子期刊校外連線服務:本校教職員工生可利用本校校外連線機制使用本 館訂購的電子資源,但Blackwell出版的電子期刊則只能在醫學校區下載全 文;本校讀者亦可至本館4樓多媒體學習中心所提供的電腦,下載所需文獻。
  • 資料庫暨網路資源相關活動講習:為使讀者能更有效利用本館資料庫暨網路資 源,醫圖分館每月皆舉辦「資料庫暨網路資源講習課程」,以協助您查詢、蒐集 整理文獻的方法,歡迎各位踴躍報名參加。
  • 可被刪除的CCCII
    Unicode
    應使用的EACC
    213131 U+4F59 276076 21653E U+4F53 27615A 213A79 U+5BB6 27323E
    CCCII
    Unicode
    217570 U+57D7 243E2B U+66CC
    Unicode
    HKIUG的決定
    相關繁體字
    27605D U+53F0 21605D颱 283B7D 223B7D檯 213538 27542B 21542B臺 CCCII/EACC為内存的資料庫 (多碼) Unicode為内存的資料庫(一碼) 27462A(歷 21462A的簡體)
    HKIUG定為優先對應
    U+5386 274349(曆 214349的簡體)
    INNOPAC內碼
    Unicode
    EACC 21606A U+98EE (飲) 2003年diac.utf8.hkiug對應表 U+98F2(飲) 2005年4月21日HKIUG Unicode Task Force第1次會議
    CCCII/EACC為内存的資料庫 (多碼)
    Unicode為内存的資料庫(一碼)

    27462A (歷 21462A的簡體)

    U+5386

    274349 (曆 214349的簡體)

    表二:醫圖95年10月份課程內容
    (上課地點皆在醫圖4樓多媒體學習中心簡報室)

    輕鬆掌握醫藥新知:RSS資訊服務介紹

    10月4日(三)
    15:30~16:30

    查閱醫學文獻必會之資料庫:OVID系列資料庫

    10月12日(四)
    10:00~11:00

    醫學電子書:Harrion’s Online
    (主要對象:醫學系大三學生;若有興趣之讀者,亦可報名參加)

    10月16日(一)
    13:20~14:20

    金珊資訊公司
    鍾士芳小姐

    查詢藥學資源必會之資料庫:Micromedex資料庫

    10月20日(五)
    10:00~11:00

    沈麗娟老師

    線上醫學資料庫介紹:PubMed

    10月25日(三)
    15:30~16:30

    自己動手做新式身分證照片:Photoimpact軟體(報名人數限25位)

    10月31日(二)
    15:00~17:00

    中國文化大學推廣部
    王玠瑛先生

    為本校法律學院所訂購之英美法律資料庫。不論您是新手上路還是想精益求精,現在起,只要點選該課程學習,就能完全瞭解如何檢索 Westlaw International 資料庫以及知道如何利用該資料庫所提供的各項功能!

    請您從以下路徑進入: 圖書館首頁 --> 圖書館數位學習網 --> 資料庫教導使用課程 --> Westlaw International

    歡迎全校師生上網學習,如有任何問題與建議,請洽詢法社分館 何淑銘 小姐 Tel: 02-23519641-314,Email: lawlib@ntu.edu.tw

    (法社分館 何淑銘