簡繁編譯

簡繁編譯
使用incov出現了古文字轉換utf-8的問題。
這對於開放給人上傳發布是一大挑戰。
或者可以查詢看看有沒有linux外掛的簡繁及utf-8 轉換工具。
問題的徵結點可能是:incov支援的中文字不足。
這是簡繁皆有的問題還是簡體個別的問題。
TEST IT.

另外,SSH SPLIT -C 3K ...TXT -a 3 -d 1 也發生了切割半個字的問題。
這使得開放上傳發表也不能確保完美演出。
跟據測試的結果顯示,長文章的切割,-C (切割後單一檔案小)需要設為較大。
1MB的檔案切割後的單一檔案應最少設為5K.
3MB的檔案則-C 值可能需要設為9K.
這樣,SSH SPLIT 就比較不會出現把一個中文字切成兩半的怪異結果了。
當然,這並不是百分之百的,切割不準還是有可能發生。

難道要放棄SSH 改採PHP函數?
TEST IT

找到了一個cconv這個linux簡凡編譯軟體。
這個不錯,可以借由此軟體解決許多簡體同義字的問題。

我似乎還可以參與這個軟體的修繕。寫信給發起人吧。把cconv變成一個華人共同參與創造的開源碼。

另外,簡體編碼gb2312與utf-8的轉譯也需要進一步研究。因為古文字有太多空缺,以至於轉換文言古籍經常出現錯誤。
是不是先把gb2312轉成big5再轉utf-8呢?

或者,建議有志參與發布者搭配使用CONVERT 8來解決編碼轉換的問題?

進入數位時代,簡繁體的編碼事實上有賴於兩岸政府或機構通力合作,才能避免看似同字,內部編碼卻大相逕庭,毫無脈絡,毫無關連。
文字是文化的基礎,如果任令編碼歧異,越行越遠,其結果將會加大兩岸的鴻溝。
合作替編碼建立系統化的基礎,遠比日後解決兩岸文化歧異的複雜難題要容易得多。

 

回上頁 / 新聞列表


回應


關於i2Motel的禮貌

廣告贊助