開始,請。
好,還是你先?
各位觀眾,大家好(笑)。
我也不知道是不是觀眾...
大家好,我是高嘉良,今天剛好有空檔,就想跟唐鳳聊一下上任到現在的這一些,主要關於開放資料的事。
因為過去推動她其實有很多的參與,現在到了這裡面,現在接下來想要進行哪一些打算跟規劃。
你應該有當過我老闆跟同事,現在換我當你老闆(笑)。
沒錯,公僕的公僕嘛!現在你是我老闆的老闆(笑)。
主要是這樣子,你大概來了兩個月,其實大家就科技社群來講的話,其實對於你在做的事情都很好奇,尤其Open Data這一部分,但是其實基本上主流媒體能夠揭露地非常有限,大部分是花邊新聞。
我想說也許趁這個機會,我們可以談一些實際跟Open Data、Open Government相關的事情,包括昨天剛好Open Government新的跨部會機制要開始運作,這個跟之前的關係非常大。
我想Open Data運作到現在稍微有一個架構,有一個民間的諮詢機制,跟政府的諮詢機制一起運作,基本上有資料需求(data request)進來,都有一個固定方式的去處理。
大家現在看到比較缺乏的,是一個比較大方向的,就是我們什麼一定要開放?基本上現在就是大家看看要不要開放,但是從政府本身,我們好像並沒有看到就是「這三個資料要開放,然後接下來下一期也要開放」,比較少看到這樣。通常是進入一個救火的情況,比如是用電的時候,才會有比較強烈的需求。
我想在一些新的做法上,是不是有一些調整,所以我們來檢視一下,這是大概兩年前的時候,稍微跟社群大概列了一些資料,有些當時還沒有開放,當然因為兩年,也稍微開始有一些進展了。我想很快看一下它們現在的情況,跟每個各自不能開放或是卡住的情況,能用什麼方式去解決。
好,沒有問題。
我先回應一下花邊新聞這件事,這也是我個人非常困擾的事情。對於各位有訂閱我Wiselike的朋友,已經看到最近連我用什麼牙刷都開始問了,我相信佔用大家許多認知的頻寬,在此向大家表示歉意。
我們協調的會議,以及高嘉良所說對政策的執行等等,其實都放在逐字稿平台;但是我也理解,要求大家都去看逐字稿是不人道的。我們在逐字稿後面,現在大概會具體列出每次的列管項目,但我相信仍然沒有用現在這種對話的方式,就上位方向的討論來得重要,這我非常同意。
另外一個也很同意的是,確實目前為止這一任的政府看起來,因為上一任政府把最基本的資料都已經開放了——也是在要交國際考卷的關係的前提上——因此我們這一任政府,確實目前為止開放資料,看起來都是為了回應民間提出來的一些政治上壓力,或為了要解決問題。
我覺得本來開放資料用來跟人民溝通、解決問題,並不是一件壞事。現在的問題常常是浮現到後期、非得處理不可,好比有某部機組要啟用或停用,或者是跳電,才回過頭來想:「對,開放資料對這個非常有幫助」,而不是長期、多年期的計畫說:「我現在就知道三年之後要做這個,所以現在要準備開放資料來揭露。」
多年期的計畫具體來講,就是昨天啟動的「數位國家・創新經濟」方案,所以高嘉良的一些提問,我會使用「數位國家・創新經濟」方案裡面的路徑圖來回答。
好的。因為開放資料涵括的內容非常多,今天先討論一大部分:政府與治理相關部分。
我想這個部分,原來政府比較希望多做一些經濟面向東西,新政府看來有很多希望政府體制更完整的一些打算,所以我想很快來檢視這一些部分。
這可以分成三個部分,越前面越跟政府本身運作有關的,越後面是越跟人民服務相關,所以如果我們來看最前面的立法的話,第一個是「立法及法律」。
這個在法規資料庫已經有了,但是他們在今年上一季的時候,把原來使用開放授權條款,又改回使用法務部自己使用的條款,當然還是沒有限制使用,但是其實就已經不符合開放資料了,因為裡面有要求說「如果用他做App的話,你必須放一個橫軸的banner」,這個部分你覺得?
是的,我這邊先做一個具體政策上的回應。
確實本來在開放資料的要點裡面,本來機關就有把甲類資料跟乙類資料,直接互相進行切換的這種可能性存在,所以我們並不能說法務部這樣做是違法的,他也沒有違反那一個要點。
我們在討論那一個分類的時候有一個精神,就是一旦分為甲類之後儘量不要切換,除非有非常好的理由,告訴大家說這個資料釋出,於公益上面不再具有公益,或者是侵犯到第三人的個資隱私或者商業秘密。
必須有相當好的理由,才可以把甲類資料轉為乙類資料或者是把甲類資料下架,這在我們今天上午的討論有一個具體的結論,我覺得這一個結論相當重要:我們每一次在做這樣資料判斷的時候,首先必須要先出具這樣的理由。
這個理由必須要上升到二級機關,包括開放諮詢小組委員會、資訊長或者是副首長,那一個副首長必須批示這樣的轉換確實是符合公共利益,才能再做這樣的切換。
我想往者已矣,沒有辦法回溯適用今天所講的精神,去法務部的個案。但是反過來講,我們確實應該要再去檢討為什麼之前做了這樣的判定,有沒有可能回到本來標準的開放資料授權去?這是第一個回應。
第二個回應是,原本在擬資料開放要點的時候,因為上一版的要點,把甲類資料跟乙類資料有一點混在一起,沒有寫「開放授權」這四個字,而是寫了「開放格式」這四個字。所以在進行適用的時候,如果是按照資料分類原則,就知道要「開放授權」;但如果按照資料開放要點的話,因為開放授權沒有寫,他可以說沒有看到。
今天有另外一個具體的決議是,把後面的要點具體加上「開放授權」這四個字。這樣的話,至少未來在進行開放的時候,就必須要以開放授權為主,如果不行的話,必須要出具理由,我覺得這也是具體的進度。
再講最後一個,目前PDIS小組會做的另外一件事是,我們會把現有甲類,目前以JSON-LD或者是一般JSON所開放出來的API,用機器可讀的方式去作描述。
第一個描述的,當然是國發會自己的「共通性資料存取應用程式介面API」,也就是「data.gov」自己界接用的的API。當我們把它寫出描述後,我們會說服該管的機關在這裡是國發會的資管處,直接把 YAML 檔放到「data.gov.tw」底下,也就是說它變成網站的一部分,受網站的使用條款規範。
如果未來有更改的話,也必須要公告、通知,那就不是放在網頁上好看,而是會變成具體往民間的承諾之一,這樣一來,要改授權跟改格式這兩個都要經過正當程序:改授權要次長同意,改格式必須跟進行檢核的機關解釋。
當然民間的朋友很快發現,原來有這樣的一個地方,所以確實也有朋友馬上把法規列表、單一法規的所有修法版本列表,所有這些都用機器可讀的方式,提議了一個API進來,我們未來才能拿這個跟法務部談說:「請問有什麼原因,你不能把你的資料用這樣格式、用開放的授權進行?」
在以前常常會碰到的是,跟他談好開放授權,但他說他的廠商無法支援開放格式。你跟他談好開放格式,而他說因為限於什麼原因,不太容易開放授權。
現在至少開放格式可以先談好,然後去談授權的時候,就可以說:「請不要再用開放格式作為理由,格式已經準備好在那邊了。」授權只要一簽定、次長一同意,資料就再也不可以撤回了,也不會因為換了廠商,所以莫名其妙就被撤回。這個是通案性的原則,跟大家討論。
所以像法規的API,是假的?
它不是假的,是事實上民間自己爬了資料去使用的。
我們一向都有「拆政府原地重建」的想法。當初教育部的字典也沒有API,當時是葉平所設計的,這也不是假的,而是我們抓下來之後,實際按照葉平所設計的API去提供服務。
現在的做法程序,仍然是承續我們在g0v的做法。如果我們已經可以證明用這個API,可以提供跟這個相等程度的服務,為什麼機關下一次改版或重新採購的時候,不用這個方式來具體釋出?這個方向跟路線,與我們以前在g0v是一樣的。
你的意思是說,以這一個案例來講的話,PDIS把資料抓下來,然後用API的方式提供,然後現在要說服法務部,接下來就用API來進行?
當然,廠商必然還是會有廠商提出的要求,只是至少從完全不懂資料格式的高層管理人員來看,至少這是兩個可以相提並論的東西,並不是一邊是空想,另一邊是現有的系統。
好。如果回到授權問題來講的話,你覺得我們如果要再跟他溝通使用一個真的開放授權的話,會建議說政委辦公室可以協調嗎?還是說民間持續去關照法務部?
應該這樣子講。我們剛剛才開過的院級開放資料諮詢小組會議,仍然可以建請特定部會在他們的開放資料諮詢小組裡面,去討論這個事項。
當然我們現在也理解,未來不一定三個月開一次,說不定半年才開一次,我們剛剛才講過這件事。因此處理的週期比起以前長,可能沒有辦法用一種隨時檢討的方式來處理。
但是我覺得,除了用正規開放資料諮詢小組的程序之外,就回到我們剛才說「資料是要為開放政府服務」。如果從民間的角度,能夠去看說現在有某顆未爆彈或某顆地雷,需要有這樣子開放授權的東西,我們才能把法務部的草案,好比說是關於民法家屬的部分,用機器自動做成懶人包...(註:這只是舉例而已)。
在提出一個恰當能回應社會問題理由的時候,我們就可以用那一個理由,專案去跟法務部討論,這也沒有問題。
以上只是舉例,我並沒有要介入個案的意思。
瞭解。今天講這幾個非常非常基礎的開放資料的意思,其實是想說這一些東西能不能作為一個比較強的推動,不用等到開放資料諮詢小組,或發生事情,就可以說這是國家認定非常非常基礎的資料。
國家運作、機關間彼此要引用資料,不要透過私相授受或某種方式,機關間引用都是互相開放資料的話,這都是非常基礎的,如果今天政府有這樣認定的話,可以直接去推動這些東西。
我必須跟各位朋友做個期待管理。
「以兩個以上開放源碼軟體可以讀取的格式」,這是國際上對於開放格式的定義。這一個定義我們已經有政治意志,可以說所有的機關之間互相界接,應該要不用專屬軟體就可以開啟,而且必須要機器可讀、可以處理,這部分是沒有問題的。
不管是國際上政府對政府,或是任何國際的協約,要作資料交換,都是這樣子做。
但其實在國際上,對於資料的授權,是有完全不同想法的流派存在。目前所通過的國家資料的授權條款,它是屬於寬容式授權(permissive license)。這個意思是,你既可以做社會上的運用,也可以做商業上的利用。
以法國為例,他們所適用的授權會兩個併行,想要鼓勵產業的才會去用寬容式授權,如果不是想要鼓勵產業的就會加以限制,限制條款裡面就包含比較像「相同方式分享」的東西,如果拿它做了應用、對資料的改做,跟它相混合的資料也必須都要用相同方式分享,也是有這樣一派的想法存在。
當然「相同方式分享」跟「禁止商業利用」又不一樣,但也有人說希望禁止商業利用。也就是說,本來CC授權架構裡面,就包含了對資料六種不同的想像。
在資料格式這一部分是沒有問題的,但在授權裡面,是不是一下子就要全部開放到CC BY的寬容式授權?這在各國都還有爭議。我們在中央各部會裡面,目前並沒有形成非常統一的見解。
瞭解。這裡面有兩個問題,第一個是如何認定某一些是「非常非常基礎,政府本身運作需要的資料」,再來是這些資料的授權。
我想如果以現階段的話,如果在準備資料時,是自由可以取得的情況之下,我想目前都還可以接受,只是說就第一個問題,我們如何認定哪一些資料是基礎?我想我們有進一步討論。
修訂紀錄的部分,法務部目前好像沒有在裡面。
修訂紀錄在我剛剛展示的那個API裡是有的,應該是去另外一個系統拿,像是立法院議案文書。
但是行政機關本身,因為各部會自己的命令可能有一些版本修訂,其實並沒有一個共同的地方去管理。
因為你展示的那個部分只是法律,命令的話不會在系統裡。
其實這個是有的。
有啊!但它是在報告事項,通常是備查,所以不會在立法院的法律系統裡面。
這個時候就要看沒有人知道的系統。我們不斷給大家看沒有人知道的系統...
這個是行政院公報?
對。
在我上任之前,9月的時候,行政院本來就已經把所有的法規修正的預告期間,從十四天改成六十天。
所以當他最後通過,也就是六十天過了以後,它會有一個「自即日生效」的PDF在這邊出現,但是在這個生效的時候,你回推六十天,還會看到另外一個公告、預告修正的同樣一個格式、名稱的東西在這裡,所以從前六十天前的跟六十天後的這兩個部分,在這裡一定有資料的。
這個資料屬於公報資料,所以是不可能主張著作權的東西。
所以現在的問題有兩個:一個是使用PDF格式,它的結構性可能有待加強,但至少不是圖形檔,我們目前看到的通常都是文字檔。
另外一個是,並沒有一個有系統的方式,把它加上一個部會的標籤,然後去界接到一般人民可得的開放資料集裡面。這一個工作,我們具體會在明年大概2月的時候,透過行政院國發會開放資料平台,把這上面所有這些看到的資料,都轉換成「data.gov」上的開放資料集。
為什麼要這樣做?因為我們想要把裡面每項公告時的文件,全部都轉成結構化資料,來放進公共參與平台裡面的「眾開講」這區裡面,每天會上十個、二十個這一種公告進去,這中間的界接,當然是透過開放資料。
但這回到前一個問題了。公告在修正的時候,會有一個現行版本,現行版本沒有在公報裡面。
有啊!會三欄的。
那是修正對照表,但沒有舊的全文,這時就要回到法規資料庫。其實我們是有這一個需求。
是。我想我這邊具體可以做的一件事是,除了用三欄之外,也許我可以跟他們說不只是三欄,而是本來的全部、後來的全部及修正的三欄。
這三套資料同時提供,這個需求是可以去談的。
好吧!但是理想上,還是想透過法規資料庫,用開放授權的方式來界接。
對我來講,最後只要進入「data.gov」,就是一樣意思的東西。具體哪一個部會阻力最小,我們就從阻力最小的那部會去取得。請繼續。
修法提案主要是在立法院,所以關係比較不大。
第二,「政府架構與人事」,機關架構目前是有一個OID的資料格式出現,但其實在各個不同公務系統有不同的表現方式,包括預算裡面,預算也有機關的代號…還有什麼系統?
工程會。
工程是OID。然後在國庫署實際支出的時候,跟主計那一個比較像,但又差了一個欄位,因此各種使用機關的代號,可以怎麼樣整合的一個機制?甚至每一個機關提供的服務與對象,有沒有一個結構化的方式去表達?
好,這是非常好的問題。
我想首先就是說,在機關的認定、設立上,本來就會有一個OID的編制,這個是由國發會資管處維護,有一個類似於LDAP、不斷更新OID的資料庫。這個資料庫裡面,本來就設立地方、地址、主要聯絡入,所有這些基本資料都在那裡,而且我沒有記錯的話,是公開可得資料。
已經在「data.gov.tw」?
對,不需要用eGov login,你可以直接去「data.gov.tw」裡面拿。
當然,如果這一個OID編得不夠細,或者是裡面的資料欄位有缺,我們應該是回「data.gov.tw」的標準程序,希望把OID相關資料加以擴充,加上OID所連到的描述性資料,這個是爭議性最小的。
好比像服務對象,如果想要求每個機關都填報其服務對象,這件事應該是回到OID資料庫的維護來做。如果維護另外一個關連式資料集,從OID到服務對象,我想這是比較疊床架屋的做法,最好還是要回到OID的基本資料集。
另外你剛剛提到比較大的,有時在系統建置的時候,只用機關的全名,而不用OID當作主要索引(primary key)。或者是用OID,但並不是在全部的地方使用OID,而是用和它關連的某個特定索引(unique key)。
這時,我們其實可以用一個宣示性的方式,去希望只要任何地方用unique key作為primary key,又能夠透過某個開放資料集,往OID完全對應,那麼在開放資料產製的時候就應該要反查OID的欄位,然後一併釋出。
但如果我們實際進去清點,發現反查失敗了,例如像把臺灣的「臺」寫成台灣的「台」的話,這就是屬於資料品質不良的部分。
這件事,其實本來國發會就有對「資料欄位不符合資料實際內容」這件事加以檢查,而且檢查下來,我如果沒有記錯的話,初步抽查高達65%的資料集有這樣的問題,因此我們剛才開會的時候才討論說,如果一發現有問題就要下架的話,「data.gov.tw」就會瞬間下降35%的資料量。
因此,跟各位朋友在這邊說一聲:我們絕對沒有要把資料下架的意思,只是提醒說你的反查是有問題的。好比說欄位是寫西元年,但資料值用了民國年等等的狀況,這是要一視同仁看待。並不是OID對不上,我們就特別看待,而是說如果寫西元年,但是用民國年,或者是反過來的情況話,我們就是在資料檢核機制裡面,如果有人反應的話限期七天回應,用這種方式去責成處理。
我可以補充一下,國發會的檢測,你剛剛提到是欄位跟內涵有無符合的部分,這不會在即將上路的檢核裡,而是明年才會做這一件事?
是有抽查。
所以還是人工做?
是,至少抽查結果的柱狀圖一定是人工做的。
所以基本上要往語意檢核的方向去做的話,可能還有一段需要努力的空間。
當然啊!我的意思是說,其實人工抽查一段時間之後,某些試誤規則(heuristics)其實可以寫成半自動化的程式。一定沒有問題的就放過,看起來有問題的用人工複查,這都是屬於資管處的權限。
我是協助督導資管處,但我一般不會微距管理(micro-manage)到這個程度。但如果他們中間碰到任何問題,都可以來找我幫忙。
接下來是行政區的劃分,這兩個算是比較有進展的。
其中一個比較大的問題是「連續邊界圖資」,因為這個主要是國土測繪中心來負責,它其實是從各地方政府來收圖資,所以他們彼此間的邊界會重疊。
當你要做一些地理應用的時候,比如地圖上有一個點可能同時屬於兩個縣市,或是一個點不屬於任何縣市,過去溝通的情況,他們好像沒有權限告訴各個地方政府互相要合作。所以這部分有什麼辦法解決?
有的。目前處理的方法,是在「數位國家・創新經濟」方案裡。
這兩件不完全重疊的事情,在行政院級會有一個推動小組,接下來在四個不同的單位會負責四個推動的分組,另外還有一個民間諮詢委員會,民間諮詢委員會的召集人會上升到上面的推動小組,但是副執行秘書會去管底下這四個的建設分組。
這個編列的架構,跟之前NICI的架構,有一個非常大的不同,也就是六都的副首長是DIGI+上層推動小組的委員。在每個具體的分組裡面,好比像高嘉良講到的事情,它可能比較屬於數位國家分組,包含智慧城鄉、數位政府,乃至於網路社會這些事情。當然這件事比較不需要做資安判斷,但是如果有資安判斷的話,院資安處也是要進來的。
當數位國家分組發現這個議題的時候,是可以透過民間諮詢委員對這一件事的提醒,到上面的推動小組,讓六都副市長知道存在這一件事,並且希望在下一次數位國家聚會時列入管考,或用某種方式向科技會報辦公室的執行秘書,對這件事進行報告。
當郭執秘知道一件事的存在和重要性之後,他會回去科技會報,也就是DIGI+的協調分組。協調分組在這邊,並不只是每半年或每三個月一期的管考,而是直接跟中央、地方開會,然後盡可能把這件事解決掉。在解決之後,也會提回到當初所提出分組的副執行秘書,請這諮詢委員進來,來確認這個地方真的有協調掉。
如果真的沒有問題的話,在下一次上層推動小組開會的時候,就會解除管考,這是跟地方協作的具體做法。
具體來說,重疊的部分比如是花蓮跟南投,會不會六都覺得這個不重要?
六都在DIGI+裡面,每個都要認領他們附近的非六都縣市。
當然我們也瞭解到資訊系統絕對不可能馬上整併,但至少可以做到格式一致。
有時院級往所有的縣市進行某個資料普查,通常會交一些試算表上來,欄位的名稱不一樣就算了,好不容易弄到一樣,也可能比較有資訊量能的那些回來的資料很詳細,但比較沒有資訊量能的縣市,就可能出現明明從網頁上看起來就有三十五筆,但回報回來只有三筆的情況。
之前的問題是,不管是國發會的管考處,或者以前的NICI,沒辦法下到這些地方縣市去協作。像我前兩天才去澎湖,其實我沒有辦法每天跑這些地方,跟他們的資訊中心進行協調。
未來這個工作,就會落到六都的列管範圍裡面,所以這一都就要負責,跟旁邊各縣市至少回來的資料欄位要統一。這件事我們期待台北、台中,以及以我所知其他都,慢慢都有開始比較懂資料的朋友進入一級協調的情勢下——這個要用非常和緩的方法講,不能講成組改——我相信六都慢慢都會開始有這一個量能,去協助附近的行政。
我好奇問一下,金門、馬祖負責的六都是誰?苦主是誰?
我如果沒有記錯的話,高、屏、澎是在一起的,但金、馬因為是不同的省,我相信福建省政府主席,也就是另外一位政務委員,對這件事有裁量權。這不是我的業管範圍,我不會幫景森政委表示任何意見(笑)。
行政區邊界劃分的部分,可以在這一個機制下,讓它的品質…
…從明年開始運作的時候提出討論。
接下來下一個議題是「人事」,機關年資及年齡的部分,其實銓敘部有公務統計,但並不是用開放方式釋出?
沒錯。
再來是約聘僱的比例,我想目前並沒有看到,我想這是更大的問題,現在因為員額法的關係,有很多實際上進來機關工作的,可能是透過標案綁定一個駐點人力的部分,這並沒有一個完整的統計。
如果用雙重計畫轉包借調的狀態,那從來源端跟結果端統計,會產生不一樣的數字。
是。但是這個問題,我們要知道是很嚴重或者是不嚴重,因為員額法的關係,必須用這樣的方式繞過,大家才能去檢討。
但是我們現在沒有任何證據,說中央機關進來的有多少人,它不是實際的政務官或事務官,也就是借調過來的。
在人事總處,其實每一次有外面機關借調進來的時候,會在行政院內部的系統裡面發一個公告,這個公告是「某某機關的某某人,因為某某原因,從即日起借調到某某單位任職」。但這樣發完之後,其實我從院的內網也沒有看到資料庫去查詢這一件事,這就變成是紀錄剖析(log parsing)的工作。
如果你把所有公告的自然語言加以剖析的話,想必把調職、復職互相對消之後,就可以得到從使用端這邊目前實際的人數,甚至連人名都會有。但從借調端,從計畫那邊拿的話,我們院裡也沒有這個資料,這個是說實話。
但是你剛剛講的借調,是比如說學術單位?
是的。
但是我剛剛講的比較是外包案,像國發會「data.gov.tw」其實有一個外包駐點,這個不在任何的統計裡,但他有識別證可以進到任何政府單位?
這個應該不在剛才的統計裡。因為那個識別證只是能夠進門的意思,並不是忽然有一個員工編號的意思,這個是兩件事。
所以那個門禁卡的制發是否有上網,它和講的那一個公告系統或者是任何其他系統有所串接?以我的理解是沒有,但說不定有,只是我還不知道。
在沒有界接的情況下,既然沒有主要索引值,那唯一的做法可能是在那一張卡制發的時候,留個副檔上傳到某個空間,但這裡馬上碰到個資法,這條路我覺得比較走不通。
不過我想至少這是一個問題。
我也同意這是一個問題。
不過還有滿多想法,我們可以另外再討論這一個議題。
對,我另外一個補充:人事總處目前在2017年度對於整個組織改造,還有包含組織改造前繞過規範的借調、外包、駐點及約聘僱等等,其實正在整理一個通盤的想法,包含大家之前一直很關心的,資訊相關人力或相關人力怎麼配置,或者新科技要不要有專門辦公室等等這些東西。
我完全尊重人事總處的總規劃,相信各界的需求都有收進去,但在他們有一個通盤規劃進來之前,我以政務委員的身份不適合發表意見。
PDIS運作有沒有辦法稍微跟這一個結合?在做這個檢討的時候,是不是有更多的資料讓大家可以同時參與討論?
這是非常有趣的組織法的狀況了,因為理論上院的處是協助部會去聯絡,所以像人事總處、資安處、教科文處,都沒有開放資料諮詢小組的原因是一樣的,因為理論上他們本身的業務不及於跟第一線人民,去進行資料上的界接或說明。
才怪,人事總處最重要!公告放假。
我知道(笑),我完全同意。但你講的是不特定人,要放假就是不特定人都要放假,我這邊講的是,像內政部的櫃台,來申請服務的一個人。
所以當他制定的是通則性政策,要做證據導向討論時,那我們剛剛講的「給予解決社會上特定人民問題的政治壓力」這個渠道比較走不通,我只是想要講這一件事。
瞭解。最後一個是公務人員的人事異動資料,這個目前其實大家要花非常大的力氣從總統府公報去剖析出來,不知道人事行政總處有沒有辦法,做至少比較高階的事務官任用紀錄資料?
總統府是一個比較特殊的單位,我們沒有辦法直接請求他們去建立任何系統。人事總處以我所知,所有的這些派令他們都有一份複本。
但現在的問題是,這還是需要剛剛所講的紀錄剖析。如果要做剖析的話,需要有個政治意志出來說,我們去清查之前所有的派令,然後衍生出一套穩定的事務紀錄(stable transaction log),而且是只能添加(append-only)的紀錄…
區塊鏈(blockchain)!
對,這個結構很適合用區塊鏈來存,但以上不代表政策指示(笑)。
因為要做紀錄剖析這一件事,它需要的量能跟你拿一個特定、專屬的資料庫,你只是讓它出CSV,需要的資訊人力是不一樣的,可能是十倍以上的量能。要有十倍以上的量能,就必須要有十倍以上的政治意志去支撐。
就像我剛才說的,要先問:這件事你解決了社會上哪些特定族群的什麼問題?我們才能在政務會議提出來。提出來之後,院長認為真的要解決這個問題、指示人事總處進行辦理,我們才能從政務委員的角度,去幫助院長協調他覺得需要解決的問題。
這件事如果是院長並不覺得需要解決,民眾也沒有聲音是覺得需要解決的問題,那我自己無法去做這樣的建議。
意思是請大家給壓力。
我沒有這樣說的意思,就是邀請大家一起做。
接下來是「司法及判決」,比較多是司法院的部分,但是檢察機關還是有一些。
像偵查的統計、起訴的統計,這目前在年報裡面其實有一些,但非常地粗。
因為我同事擔任中選會的開放資料諮詢委員,其實我非常非常好奇他們對於選罷法的樣態有沒有統計,其實並沒有,這一個法規是他們主管,但實際上最後違法的分布跟統計,原來主管法規其實不一定會去追蹤它,這可能需要一個共通的資料集。
其實從偵查、起訴,甚至中間警察去進行訊問、製作筆錄,到所有能夠呈上法庭的所有這些紙,目前按照現行的作業內部法規流程,都必須是紙本,所以就會變成不同的機關,從警察局到偵查,所有這些東西進行資料交換,是用他們自己的電子系統印出來,印出來之後厚厚一疊送到下一站,那一站用掃描機,再把它掃描回JPEG檔之後進行OCR的讀取。
在中間除了克漏字的這個情況之外,好比像我在第一個階段有結構化資料,但必須要印成A4掃過去,所以裡面表格的線段,除非像 @ronnywang 那麼厲害,能夠用OpenCV把它還原回來,不然的話就又回到純文字,最多PDF變成Word檔,進Word改完之後再出去。
所以,可能在來源是有結構化的,但是經過兩、三層出去之後,在司法體系裡面就變成圖片的資料,必要時還要用OCR。
這件事我也有跟司法院的資訊處進行討論、協調。聽起來,他們需要法務部進行一個函釋,好比我舉一個例子:在進行訊問的時候,其實取證的時候是用錄音,可是上法院的時候很少聽錄音,大部分是看稿子,也不一定看全部的逐字稿,而是看某一段的稿子,這時就需要一個函釋說「這段稿子的有效性,相當於那一個錄音的有效性,除非有人提出質疑。」
但這個稿子是建立在聽錄音打字的人屬於公務人員,本於職權、符合所有相關法令,而且有認證的人來做這一件事,這樣它的產出,才會說跟本來的紀錄具有相同效力。
如果這個紙本,好比能跟光碟同時遞送,這邊的結構化資料在上一層才能進行匯集分析,這時能把紙本跟光碟等同的函釋,必須是要準備光碟的人是具有特定的身份、公務及專職做這一件事等等,目前法務部還是要先做出這個解釋。如果沒有這個解釋的話,即使中間結構化建立再好,在最上面判決看起來的時候,仍然是A4掃描的結果,這是實際情況跟大家分享。
不過法務部有建立一個量刑的系統,
是的。
所以是判決之後的結構化?
是判決後。
所以如果我們真的要去看選罷法某哪些條的過去三年比例怎麼樣,其實照理來說是有這個資料。
正在上訴的先不去管它,就是判決確定?
對。
我想就判決確定是公開資料,這我們可以專門來檢討。
判決部分確定是公開資料,但那是在司法院。
我知道。
剛剛說的,是法務部有整理成一個內部的系統使用,給檢察官作量刑的建議系統。
但當時是給特定人,以特定目的為利用。這個東西要轉成甲類資料的時候,我們還是要按照正當程序來處理。
同一個想法,也就是最小阻力路徑的想法:如果司法院資訊處的格式比較友善,就從那裡下手,如果比較不友善,再回來法務部。
判決書其實現在是公開的,但結構化並不是很好,有時還會自動關機,但是這就可能持續跟司法院溝通。判刑與執行統計,執行的部分應該是在矯正署?
沒錯。
這個執行統計有一個非常粗的統計,但是因為什麼原因進去,其實好像非常粗。
好像是多選一?我不記得了,好像是有一個欄位。
如果大家有更細需求的時候,再來討論。
開放資料只要確定有了,那就不能收回,後續任何對顆粒度的要求就是循正常程序討論。
最後這一個項目是行政機關的適用。包括函釋,大部分的部會都會建立一個他們自己的法規系統,應該是同一家廠商提供的,但並沒有API的方式提供出來。
不一定是同一家廠商,地方政府的行政規則就是另一套。
OK,我有看過,很少,大概只有兩、三個版本。
對,兩、三個版本。
這個函釋,或是其他各自命令如果現在法規資料庫並沒有開放授權的話,各機關自己的法規系統,有沒有可能請他們使用Open Data的方式來提供?或者是他們這一個系統直接是Open API?
我們還是回來看,法規命令草案當即日起生效的時候,剛剛已經講了因為「眾開講」的關係,這將會變成Open Data。函釋不在裡面,而且地方政府的行政規則也不會在裡面,這邊包含了也許40%、50%左右的量,但是確實有一大塊黑的地方,確實也是真的。
我想要說的是,我們之所以挑公報網的原因,是因為要整理一個API是相對容易的,因為格式相對齊一,如果是函釋跟行政規則的話,除了一定有送達目的機關、日期幾號、發文字號外,所有其他的欄位都是任意文字。這跟法規命令不一樣,法規命令還有一個格式,但如果是函釋的話,那個格式是任意的。
我們會先從這一種半結構化文字開始,目的就是先建立起跟它相對應的API,然後我們接下來再說那一些比較不結構化的部分,裡面的這一些結構有的,我們就比照辦理。結構沒有的部分,就是加一個欄位叫做「任意文字」,那就隨便本來填什麼就填什麼進去,甚至用PDF附件,我也沒有辦法。
但如果一開始不建立結構化系統的話,大家都會選那個「沒辦法」,然後把PDF附件上去,所以在這邊整理出來至少好比訂了九個欄位,行政規則、法規解釋,這九個裡面如果有三個,至少這三個用結構化方法提供;如果這六個不適用,那也沒有辦法,也就是PDF附件,我們是用這個策略來進行。
所以就是亦步亦趨?
對啊!
下一個是行政罰的相關統計,好比是環保署主管或者是勞基法相關的,最後是由地方政府去裁罰的,其實我們並沒有一個跨機關、跨地區的整體統計;其實應該是有的,主管機關會掌握各個地方的統計。
就是設一個入口頁面,點二十三次就都看到了?
這個可能跟前面這一些司法相關的,就是讓大家看看訂定的這一些,我們今天有一個行政命令,有三、五項罰款的東西,最後實際的效果是什麼,我們才能去檢討這一個法規到底效益是什麼。
我同意啊。這就是為什麼我今天在上午的開放資料諮詢小組,具體提出兩年之後要做國土計畫,它是要基於每一個地區去進行國土的使用討論,這時農地工用、工地不知道誰用的這些現況,無論是裁罰、行政檢查,或環境資訊這些東西,都會變成討論的題目。
當有這一個理由出現的時候,才比較容易告訴六都及其他別的縣市說,現在要用某一種方式提出,否則國土規劃沒有辦法進行討論;但當然這種裁罰會限於國土不當利用或這些部分,比較沒有辦法把所有的行政、交通罰單這一些東西都放進來。
如果要把這些所有的東西放進來,我覺得一下子也並沒有政治意志可以做得到。
好,將來在2018年開始做這一件事?
是。
2018年之前會準備?
2017年數位國家開始運行後,我相信這會是國發會數位國土裡面,很重要的一部分。當它進入這部分的時候,就會開始請地方資訊首長,包括還沒有資訊首長、但是快要有資訊首長的地方,來加以處理。
再來是相當相似的東西,比如是訴願相關的東西,其實這整個是串在一起,好比過去在做各地違反勞基法的時候,有一些地方政府會提報。
其實這個在訴願中,環保署有建立一個系統做類似的事情,所以我想這整個是串在一起的,將來要再做這些各個地方的政策的時候…
可是訴願本來就有系統,不是了嗎?
是跨所有的議題?
對啊!就是中華民國行政院訴願系統查詢。
但它有一個關於粗略的統計嗎?好比是關於環保裁罰的訴願?
應該是這樣子講,當有決定的時候,當然就是會有一個決定的發布,但訴願進行中的時候,我這邊看到的是,各級機關訴願業務統計是在分年度來做的,就是每年發佈,而不是每天、每季這樣子,後者要評估他的人力負荷情形,包含量能到底能不能處理。
像這種東西是存在的,但是他存在的時間區間或是顆粒度,是不是大家覺得有用,或者是需要加強的,這個是另外一回事。但是至少以逐年年報的程度,剛剛講的那一些欄位都在裡面。
好,我想我們可能只能討論一個大的主題,這是法治政府組織相關的東西,也許我們可以找其他的時間用閒聊的形式,來談比較大的主題。希望講到最後一個主題的時候,前面就有一點進展。
當然,我相信是這樣子。因為數位國家現在的大方向確定了,我作為「幕僚的幕僚」工作告一段落,但各個部會的行動方案目前還正在提報中,是年底第一次DIGI+會議才會有最終版本。
事實上NICI那時候還在執行,它執行到12月31日,所以我們現在用這個架構做任何決定都不適當,因此當然是從明年1月1日開始,剛剛所講的這些話題,就開始變成DIGI+可以處理的東西,從那時候再來算週期,我想對所有部會都比較沒有壓力。
現在很多部會,都在計畫還沒有最後版本的情況之下,也不知道如果現在處理了,會不會被列入新的管考項目裡面。大概是這樣子,就是從1月1日開始起算。
其實我們可以感覺到,政府的運作其實非常複雜,有些事情需要非常多的外部力量,我想我們需要凝聚這一些共識,到底哪一些是關鍵的資料集,這些東西我們藉由比較新的、大力的推動機制去推,希望有一些成果。
當然,沒有問題。
最後再次申明,以前我們在推Open Data的時候,我們可以說臺灣是世界第二十幾名或者是第十一名,鄰國都已經做到了,為什麼我們都做不到?
但是現在我們第一名了,這時說「大家本來有的,為什麼我們沒有?」部會絕對可以說:「可是我們也有人家沒有的東西。」(笑)
現在再說「人家有,我們沒有」,這個本身不太構成政治上的壓力了。
我們現在在政策上,我覺得反而不要給壓力,而是要讓我們幫助部會,讓部會進行常規業務的時候,透過怎樣的資料交換,可以在先期就不要引發民怨,或者在先期就知道跟其他部會有什麼關聯。
就是盡可能用「大家早一點下班,而不是晚一點下班」的理由來推Open Data,我覺得這樣子也比較推得起來。
好。
非常感謝觀眾朋友的收看。
掰掰。你是三點的飛機嗎?
三點要出門到機場。
好,來走了。所以工作愉快嗎?
對啊,超愉快啊。
有到超愉快?
超愉快。因為有十五個人,真的是超強的。九位寫程式,其他六位做規劃,都比我專業。
所以那九個人是用什麼計畫來的?
是直接借調來的,現在院裡成立了一個可以發文的小組。
「數位字」?
「院臺數位字○○號」。
那是什麼小組?
就是「公共數位創新空間推動小組」,簡稱PDIS小組。
好吧!該走了。
Take care。
該走了,那就巴黎見了。
OK,掰掰。
祝你順利。
目前還滿順利的。