民初思韻網

加入收藏   設為首頁
選擇語言   簡體中文
你好,請 登陸 或 注冊
首頁 人文思韻 傳奇人物 歷史思潮 時代作品 話題討論 國民思韻 民初捐助 賬戶管理
  搜索  
    人文精神 >>> 技術的天空 溫和的思緒
字體    

Google要統一字體困難重重
Google要統一字體困難重重
還在路上     阅读简体中文版

diwan-e-ghalib_muraq-e-chugtai-_1927

Google有不少宏偉的計劃,比如圖書數字化和無人駕駛汽車,而其字體計劃Noto卻鮮有人關注。一般來說,如果系統不支持某種語言,就會顯示一個空白的方框,國外一般將它稱為“豆腐”(Tofu),而Noto就是“No Tofu”的縮寫,旨在統一全世界語言的字體,消滅亂碼。

前不久,Google聯合Adobe推出的泛亞字體——思源黑字,它適用于中文、日文和韓文,就是Google Noto項目的一部分。Google似乎往前邁出了一步,但想要統一字體,還有很多困難。

編碼問題

字體統一計劃最早可追溯到1987年,當時 Unicode 聯盟發起了一項語言字體研究,并在后來推出了Unicode標準,一套支持多語言處理和顯示的字符編碼系統。Unicode 會為每種語言的每一字符提供唯一的編號,稱為碼點(code point)。Google的Noto也與Unicode標準相兼容。

Unicode在統一漢字的過程中就遇到過困難,它想為中日韓共用的字符創建一個單一的字符庫,不過當時技術條件不允許,而且碼點很快就用完了,這對想統一世界語言的計劃來說,是一個很大的打擊。而且,即便中日韓的漢字看起來很相近,但他們卻代表了不同的文化模式,有很多細微的差別。統一的字符集會造成拼寫混亂。

不過技術在進步,現在同一字符的變形不必再使用同一編碼,Noto也是第一個真正支持中日韓三國漢字的開源字體。

小語種問題

Noto支持的語言很多,即便是一些瀕臨滅絕的語言,如因紐特語(Inuktitut),也在其射程范圍。這讓很多使用著幾乎被世人遺忘的語言的人感到很欣慰。

Tlingit一種瀕臨滅絕的印第安語言。這種語言還算幸運,因為它使用拉丁字母表進行書字。Noto的拉丁字體就能支持Tlingit,不過也僅僅是部分。許多詞匯要加注變音符號,書字時要加以區別,但Noto現在這方面做的還不夠多。

有趣的是,除了一些快滅絕的語言,Noto還支持一些古怪而有趣的語言字體,比如蕭伯納字母(shavian alphabet),《魔戒》作者托爾金所創制的架空文字。不過被數百萬人使用的另一種印度語Oriya卻不在其中,也讓很多人感到不滿。

字體不能反應文化背景

另一種情況是,即使Noto支持某種語言,其字體也不能準確反應出語言背后的文化。烏爾都語(Urdu)就是一個例子。

nastaliq體的烏爾都語書寫華麗不規則,有很多古老的詩集都是用這種字體寫成,被認為是烏爾都語的精髓,但并不受Noto支持。而naskh 體的烏爾都語則線條分明有規律,編碼起來很簡單,也因此包括在Noto中。這讓很多人感到不滿,因為系統中的文字并不能真正反映當地的使用情況,而不少人在分享相關文本時,也不能直接復制粘貼,只能以圖片的形式傳送。

烏爾都語的情況與漢字當時的情況相反,前者是需要多個編碼對應一個字符(有文體區別),而后者是試圖用一個編碼代表多個字符。類似的情況還有中文的草書、行書、楷書等,這都需要更進一步的研究。

Google的字體計劃是一個不斷調整與妥協的過程,要兼職美觀與功能性有很大的難度。不過語言文字是人類社會的重要組成部分,多花一些時間也是值得的。

 

2015-05-19 15:55

歡迎訂閱我們的微信公眾賬號!
春秋茶館訂閱號
微信號 season-tea(春秋茶館)
每天分享一篇科技/遊戲/人文類的資訊,點綴生活,啟迪思想,探討古典韻味。
  清末民初歷史人物  民初人物
教育專家大學思想啟蒙
蔡元培(1868年1月11日-1940年3月5日),字鶴卿,又字仲申、民友、孑民,乳名阿培,並曾化名蔡振、周子餘,浙江紹興山陰縣(今紹興縣)人,革命家、教育家、政治家。中....
民族主義思想大師
章太炎(1869年1月12日-1936年6月14日),原名學乘,字枚叔。嗣因反清意識濃厚,慕顧炎武的為人行事而改名為絳,號太炎。中國浙江餘杭人,清末民初思想家,史學家,樸....
資助民初精神網
        回頂部     寫評論

 
評論集
暫無評論!
發表評論歡迎你的評論
昵稱:     登陸  註冊
主頁:  
郵箱:  (僅管理員可見)

驗證:   验证码(不區分大小寫)  
© 2011   民初思韻網-清末民初傳奇時代的發現與復興   版權所有   加入收藏    設為首頁    聯繫我們    1616導航