工業級國際化的數位保存方案 Digital Preservation一般坊間看到印刷書籍所使用的紙張,多為道林紙、銅版紙、模造紙、美術紙等材質,保存期限約50年,而臺灣地理環境處於潮濕的亞熱帶,加上民眾對書籍無酸保存不夠仔細,往往不到20年,手上的圖書就面臨了保存大限。有些書很想數位化,但當年服務的出版社可能沒保存電子檔,此時您可考慮將手中書藏進行老書活化與數位保存工作。
臺灣學人出版網提供工業級的圖書掃描代工服務,若您圖書需要進行數位保存,掃描後的圖書文件將透過OCR(Optical Character Recognition)技術以擷取印刷品中的圖文信息,再應用漢世紀所開發的自然語言處理 NLP (Natural Language Processing)演算法取得漢字基因以判斷漢字的標准編碼,將此漢字繁簡編碼轉譯為電腦可通用的排版文檔例如MS-Word®或PDF可攜式檔案,老書活化後將可提供您繼續再生編輯或加值應用。 關於加值應用,您可於本網進入學人方案,將您的著作再生發行於亞馬遜網路書店。 |
文化保存 ≠ 文字辨識
東漢許慎《說文解字》闡述了漢字構造原理「六書」:象形、指事、會意、形聲、轉注、假借,而漢字擁有「一字多音」的特性,如多音字音節或破音字音節等;傳統坊間的圖書掃描僅注重文字辨識OCR技術,因其缺少漢字自然語音NLP辨識與譯校能力、無法完成可檢索的PDF可攜式文件,因此經常在處理後的漢字文件中讀到張冠李戴、貽笑大方的錯誤。
臺灣學人出版網所採用的漢字再生自然語音技術NLP(Natural Language Processing)以圖找字、以字找義、以義正音,源於漢世紀公司與中國印刷科學技術研究院技術團隊合作開發,服務華文世界與國際漢學研究機構、學術機關,讓中國傳統古籍與印刷書體透過當今電腦漢字完整呈現;除了兩岸三地與國際漢學界與古籍界使用的70195個漢字,漢字編譯技術支援的規格包含中國漢字標準GB18030-2005、香港漢字標準HKSCS-2005與臺灣漢字標準BIG5以及中研院漢字構形與國際電腦漢字與異體字等漢字基因庫,早期印刷書中常見的罕見字、缺漏字等將不復再見。世界級的數位文化資訊服務,讓漢字再生的準確率幾乎可達100%,方便臺灣學人進行漢字的編輯、加值、發行與流通等多元應用。
依據《營業秘密法》第3條第1項規定:「受雇人於職務上研究或開發之營業秘密,歸雇用人所有。」臺灣學人出版網針對每一本委託本網進行《老書活化漢字再生服務》的印刷書均實施嚴謹的資安管控與隱私保護,以確保您的印刷書在委託我們數位化的過程中獲得資安保全。
我們尊重每一本「漢字」印刷書所蘊藏的中華智慧,此與坊間為達目的所行的機械式文字辨識迥然相異──我們謹以「漢字文化保存」的心情服務每一位臺灣學人出版網的客戶。
臺灣學人出版網所採用的漢字再生自然語音技術NLP(Natural Language Processing)以圖找字、以字找義、以義正音,源於漢世紀公司與中國印刷科學技術研究院技術團隊合作開發,服務華文世界與國際漢學研究機構、學術機關,讓中國傳統古籍與印刷書體透過當今電腦漢字完整呈現;除了兩岸三地與國際漢學界與古籍界使用的70195個漢字,漢字編譯技術支援的規格包含中國漢字標準GB18030-2005、香港漢字標準HKSCS-2005與臺灣漢字標準BIG5以及中研院漢字構形與國際電腦漢字與異體字等漢字基因庫,早期印刷書中常見的罕見字、缺漏字等將不復再見。世界級的數位文化資訊服務,讓漢字再生的準確率幾乎可達100%,方便臺灣學人進行漢字的編輯、加值、發行與流通等多元應用。
依據《營業秘密法》第3條第1項規定:「受雇人於職務上研究或開發之營業秘密,歸雇用人所有。」臺灣學人出版網針對每一本委託本網進行《老書活化漢字再生服務》的印刷書均實施嚴謹的資安管控與隱私保護,以確保您的印刷書在委託我們數位化的過程中獲得資安保全。
我們尊重每一本「漢字」印刷書所蘊藏的中華智慧,此與坊間為達目的所行的機械式文字辨識迥然相異──我們謹以「漢字文化保存」的心情服務每一位臺灣學人出版網的客戶。
本服務由漢世紀提供技術,大量需求者請聯絡我們;老書活化漢字再生後可透過Amazon微出版國際發行。
本網採用全系列的德國工業級圖書掃描光學儀,在圖書掃描過程中可去除歪斜、黑邊、汙漬、汙點、雜訊等原始印刷書的瑕疵,大幅提升影像輸出的品質,經全球獨創的OCR+NLP雙重辨識漢字譯校工序,讓漢字轉為編排文檔MS-Word的精確度可達99.9%,由學人自行編輯、修改、增補後可直接產出印刷書+電子書,以雙重載體再生發行Amazon網路書店。