1. 跨域共創

    跨域共創

    跨學科的整合、跨領域的實驗,運用數位科技豐富研究材料,共創數位資產價值。

  2. 開放共享

    開放共享

    開放研究成果,提供大眾近用,全民共享。

  3. 鏈結資料

    鏈結資料

    為不同來源的資料集,以機器可理解、可處理的語意標準與技術,建立資料之間有意義的鏈結。

鏈結開放資料(Linked Open Data,LOD)是實現語意網(Semantic Web)所提出資料分享的實務方式。意指將資料以開放授權、可供機器語意讀取的標準進行轉置所發布的資料集,讓結構化的語意資料能被任何人自由下載,重新使用並散佈,產生新的數據、信息、知識。在技術處理上,開放鏈結資料的製作必需兼顧以下四大原則(Berners-Lee,2006):

  1. 以統一資源識別符(Uniform Resource Identifier,URI)標示任一物件(資訊)[Use URIs as names for things]
  2. 使用HTTP URIs等通訊協定,使人或電腦可以查詢特定 URI 所代表事物的相關資訊 [Use HTTP URIs so that people can look up those names.]
  3. 檢索事物資訊時,使用特定標準(如RDF)回傳有用的資訊。[When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)]
  4. 將資料發布在網路,並且利用URI連結,讓使用者可以找到更多相關的物件。[Include links to other URIs. so that they can discover more things.]

鏈結開放資料就是鏈結資料(Linked Data,LD)與開放資料(Open Data,OD)等兩種概念的結合,即LOD=OD+LD。相較這兩種資源類型,鏈結開放資料又綜合其優點。讓資訊發揮其最佳的再利用性、資源間的串連功能。

參考資源:

  1. Tim Berners-Lee. (2006). Linked Data, https://www.w3.org/DesignIssues/LinkedData.html
* LOD vs. Open Data(OD):LOD語意格式標準可以進行資料的自動推理、整合、推薦;OD只是將資料開放,但格式不一。
* LOD vs. Linked Data(LD):LOD資料版權開放,且能與全球資料連結或被連結,再利用性較高;LD資料已連結或被連結,但無清楚的版權說明。

當我們說「陳澄波」是位「臺灣的藝術家」時,「陳澄波」不僅僅只是個人名,這三個字還代表一個人背後相關的個人資訊,諸如人物生卒時間、生卒地點、籍貫、學經歷、人際關係、作品、成就等。發展鏈結開放資料即可藉由將個人所有相關資訊類型,賦予一個統一資源標示符(Uniform Resource Identifier,URI)的方式,將資料以語意方式串連,讓原本象徵個人的文字符號轉化為具有意義的資訊組合。不過,鏈結開放資料不僅只是將metadata轉置為符合現今語意網技術規範格式的資料集,更便利使用者、機器作檢索、再利用和資料串連。鏈結開放資料的推動亦包含下列目標:

  1. 國際趨勢:不被全球鏈結的資料,未來將逐漸被世界邊緣化、遺忘。(案例:英國British Museum
  2. 最大利用:發揮資料最大利用價值,如:資料分析、推理、整合、推薦。(案例:義大利Open Memory Project
  3. 提供脈絡:提供異質資料集之間的脈絡連結。(案例:芬蘭WarSampo
  4. 創新應用:提供資料詮釋多元觀點,產生創新及混搭應用。(案例:荷蘭Rijksmuseum
  5. 專題服務:依不同需求,提煉來自不同資料集的專題資料。(案例:歐盟Europeana Fashion

運用語意網技術(註1),可將獨立存在的各類型資料彼此有連接性,打破數據的孤島,並可便利資料內容修正及管理。藉由機器運算、推理也可協助處理資料、加速資料的分析和再利用,降低資料維護成本。而對研究學者而言,語意網技術的導入更能以語意化、聰明化的方法保存長年研究成果,並以更為主動、具廣泛延伸性的方式發布其研究心血;同時藉由鏈結開放資料特性,輔助擴展研究視野,啟發嶄新的研究觀點。

有關鏈結開放資料的製作成本,主要可分為三大類:

  1. 人力成本:授權處理、資料內容分析及轉譯、技術轉置執行。初估需3位人力。
  2. 資金成本:資訊設備維護(含URI等資料內容)、領域專家諮詢等費用。
  3. 時間成本:LOD資料集建立時間端看資料結構複雜程度而定。平均3個資料集(或10萬筆),約1年時間(應用系統開發另計)建置。
註1 http://www.w3.org/standards/semanticweb/

鏈結開放資料的轉置是團隊性工作,過程中需要領域專家、轉譯人員及資訊專家等三種不同成員共同合作完成。製作過程成概略可分為資料解析(包含需求訪談、資料授權、資料分析、語意模型設計、資料清理)、資料加值(包含鏈結轉置、匹配加值)及資料公佈(包含Sparql endpoint 建立、資料發佈、應用系統開發)等三大部分。惟不論其製作過程、階段規劃及細節為何,核心概念是賦予每個資訊或事物概念(name of thing)一個單一且唯一的統一資源標示符(Uniform Resource Identifier,URI),作為語意網世界中,可供機器讀取、互通的資源識別標準。在資料公開發布上,可以採取PDM、CC0、CC BY、CC BY-SA等近用性較高的版權方式開放。

有關鏈結開放資料轉置工作流程及步驟,可參酌下列資訊:

  1. 開放資料定義參考:http://opendatahandbook.org/guide/zh_TW/what-is-open-data/
  2. 鏈結資料的四大原則:https://www.w3.org/DesignIssues/LinkedData.html
  3. LODLab@ASCDC實作SOP規範

資料開放雖是近十年來國際間各政府或非政府組織、機構共同追求的目標,以促進資料傳遞及再利用性。但除資料開放外,更重要的課題是考慮如何開放,以強化、便利其再利用性。開放資料的格式與使用者再利用的方便度密切關聯,全球資訊網(World Wide Web)創始人,提姆.柏納-李(Tim Berners-Lee)提出了一個開放資料五顆星的分類架構,將各類型開放資料進行區分。其中鏈結開放資料在其分類下即屬於最具開放性、便利分享及再利用之最高五星級資料格式。相關資料開放程度區分,可參酌「五顆星 ★ 開放資料網站」。

在語意網中,三元組(triple)意指所有語意資料結構都由包含主體(subject)、屬性(property或predicate)及客體(object)等三個部分組成,近似英文文法中主詞、動詞、受詞等結構。其中主體及客體為乘載資訊實際內容的部分,屬性則用以陳述表達主體及客體間兩者的語意關係。主體具有一個唯一的統一識別標示符(Uniform Resource Identifier,URI)並為一個節點,而客體的資訊格式可為一個URI資源、字串或URL網址連結。在語意架構下,每一個三元組實際上都承載一筆完整資訊,例如「陳澄波(主體)—創作(屬性)—《嘉義街景》(客體)」。

SPARQL 是種用於RDF的查詢語法,代表「SPARQL Protocol and RDF Query Language(SPARQL協定與RDF查詢語言)」,其架構的標準化建構,被認為是語意網發展成形的關鍵之一。而SPARQL endpoint則是查詢LOD資料集整體及細部資訊的語意檢索界面,提供使用者藉由SPARQL語言進行知識庫(knowledge base)內容檢索。其查詢結果通常以迴遞、可讓機器讀取的格式呈現,因此SPARQL endpoint被視為友善於機器讀取、再利用的介面。

參考資源:

  1. W3C, Sparql Endpoint Description,https://www.w3.org/wiki/SparqlEndpointDescription
  2. Wikipedia, SPARQL, https://en.wikipedia.org/wiki/SPARQL

針對國際間,由各政府組織、機關、研究學術單位所發布、提供的鏈結開放資料集,使用者可在Datahub資料集散平台中搜尋各種多元主題類型之鏈結開放資料;至於國內目前所發布、共享的LOD資料集,也可在政府開放資料平台中進行檢索。