ถาม - ตอบ เกี่ยวกับฐานข้อมูลเปิดภาครัฐฯ

Open Data คืออะไร

ข้อมูลเปิดที่ทุกคนสามารถนำไปใช้ได้โดยอิสระ หรือนำไปเผยแพร่ต่อได้ ซึ่งข้อมูลทั้งหมดที่อยู่บนเว็บไซต์นี้ เป็นข้อมูลเปิดของภาครัฐ


หัวใจสำคัญของ Open Data

หัวใจของ Open Data นั้นแบ่งเป็น 3 ประการคือ
1. Availability and Access คือ ข้อมูลที่เปิดเผยต้องสามารถใช้งานได้ทั้งหมด ทั้งดาวน์โหลดหรือเรียกใช้ผ่าน API ได้ฟรีผ่านอินเตอร์เน็ต
2. Re-use and Redistribution คือ ข้อมูลที่เผยแพร่ต้องถูกจัดเตรียมภายใต้เงื่อนไข การอนุญาตให้นำมาใช้ใหม่และเผยแพร่ต่อได้ รวมถึงการใช้ชุดข้อมูลร่วมกับชุดข้อมูลอื่น ๆ
3. Universal Participation คือ ทุกคนสามารถที่จะใช้ข้อมูลได้ ไม่ว่าจะเป็นการนำไปใช้ การใช้ซ้ำ การเผยแพร่ โดยไม่ติดเรื่องข้อจำกัดใด ๆ แต่ทั้งนี้จะต้องเป็นไปตามวัตถุประสงค์ของเจ้าของข้อมูลนั้น ๆ เช่น หากเป็นข้อมูลที่ไม่อนุญาตให้ใช้งานเชิงพาณิชย์ (non-commercial) จะไม่สามารถนำไปใช้ในเชิงพาณิชย์ได้ หรือข้อมูลนั้นอาจมีข้อจำกัดในการใช้งานเพื่อวัตถุประสงค์บางอย่าง เช่น ใช้ในการศึกษาเท่านั้น

**ซึ่งหัวใจสำคัญทั้ง 3 ประการนี้เป็นความสำคัญที่สนับสนุนให้เกิดการทำงานร่วมกัน (interoperability) อย่างเป็นรูปธรรม


ประโยชน์ที่ได้รับจากการใช้ Open Data

1. Transparency เป็นการเปิดเผยข้อมูลของภาครัฐให้ประชาชนและภาคประชาสังคมเข้าถึงข้อมูลและสามารถตรวจสอบการดำเนินงานของภาครัฐตามนโยบายที่ประกาศให้ไว้กับประชาชน
2. Releasing social and commercial value ในยุคดิจิตอลข้อมูลเป็นทรัพยากรที่สำคัญสำหรับสร้างนวัตกรรม การเปิดเผยข้อมูลของภาครัฐเป็นแหล่งข้อมูลหนึ่งที่ช่วยผลักดันการสร้างนวัตกรรมและบริการใหม่ ๆ เผยแพร่สู่สังคมและเชิงพาณิชย์
3. Participation and engagement ประชาชนซึ่งเป็นผู้มีส่วนได้ส่วนเสีย ได้มีส่วนร่วมแสดงความคิดเห็นต่อการดำเนินงานของภาครัฐ ที่มีผลต่อชีวิตความเป็นอยู่ รวมทั้งนำความคิดเห็นดังกล่าวไปประกอบการพิจารณากำหนดนโยบายและการตัดสินใจของภาครัฐ เป็นการสร้างปฏิสัมพันธ์กับประชาชนมากขึ้น


ประเภทของ License ข้อมูลที่อยู่บนเว็บไซต์

ข้อมูลที่อยู่บนเว็บไซต์นี้ จัดอยู่ในประเภทของ Non-exclusive licence เจ้าของลิขสิทธิ์สามารถใช้สิทธิในงานนั้นเอง และอนุญาตให้บุคคลอื่นใช้สิทธิในงานนั้นได้


ใครสามารถนำ Open Data ไปใช้ได้บ้าง

ทุกคนสามารถนำข้อมูล Open Data ไปใช้งานได้ ไม่ว่าจะเป็นหน่วยงานภาครัฐ หรือภาคเอกชน ตลอดจนการนำข้อมูลเหล่านี้ไปทำการวิจัยค้นคว้าเชิงสถิติ สามารถทำได้โดยไม่มีข้อจำกัดใด ๆ


จะใช้งาน Open Data ต้องทำอย่างไร

ผู้ใช้งานสามารถดาวน์โหลดไฟล์ชุดข้อมูลในรูปแบบต่าง ๆ หรือเรียกใช้ผ่าน API ได้ตามที่ต้องการ ในแต่ละหัวข้อที่ปรากฏบนเว็บไซต์ได้ด้วยตนเอง


การนำ Open License มาใช้ (การเปิดกว้างในทางกฎหมาย)

ในขอบเขตอำนาจศาลส่วนใหญ่ จะมีเรื่องของสิทธิในทรัพย์สินทางปัญญาในข้อมูลที่ป้องกันบุคคลที่สามจากการใช้งาน การนำกลับมาใช้ใหม่ และการแจกจ่ายข้อมูลโดยไม่ได้รับการอนุญาตที่ชัดเจน ดังนั้น การที่จะทำให้ข้อมูลของหน่วยงานสามารถให้ผู้อื่นนำไปใช้ได้ จะต้องใส่ license เข้าไปที่ข้อมูลเหล่านั้น เพื่อป้องกันไม่ให้เกิดการใช้งานที่ผิดวัตถุประสงค์ของชุดข้อมูล
License ที่หน่วยงานสามารถใช้ได้นั้นสำหรับข้อมูลที่ “เปิดเผย” สามารถใช้ license ที่สอดคล้องกับ Open Definition และทำการระบุว่าเหมาะสมสำหรับข้อมูลรายการที่ว่านี้ (พร้อมกับวิธีการใช้งาน) สามารถดูรายละเอียดได้ที่  http://opendefinition.org/licenses/
คำแนะนำวิธีการใช้งานสั้นๆ 1 หน้า สำหรับการใช้ open data license สามารถหาได้ที่เว็บของ Open Data Commons  http://opendatacommons.org/guide/


การทำให้ข้อมูลพร้อมใช้งาน (การเปิดกว้างในทางเทคนิค)

Open data จำเป็นที่จะต้องเปิดกว้างในทางเทคนิคเช่นเดียวกับในทางกฎหมาย โดยเฉพาะอย่างยิ่ง ข้อมูลจะต้องมีความพร้อมในการใช้งานในรูปแบบที่เครื่องสามารถประมวลผลได้ โดยพิจารณาใน 3 ประเด็นหลักคือ
1. ความพร้อมใช้งาน - ควรจะเป็นการให้ดาวน์โหลดฟรีจากอินเตอร์เน็ต หรือหากมีค่าใช้จ่ายก็ไม่ควรมากกว่าค่าใช้จ่ายในการทำสำเนาข้อมูล และไม่ควรมีภาระค่าใช้จ่ายใด ๆ ในการจัดเตรียมข้อมูล
2. ความสมบูรณ์ของข้อมูล - ข้อมูลควรครบถ้วน อยู่ในสภาพที่สมบูรณ์ มีความถูกต้อง ไม่บิดเบือนไปจากความเป็นจริง ไม่ทำให้ขัดต่อกฎหมายและว่าด้วยเรื่องทรัพย์สินทางปัญญา
3. อยู่ในรูปแบบที่เปิดและเครื่องสามารถอ่านได้ - จัดเตรียมข้อมูลในรูปแบบที่เครื่องสามารถประมวลผลได้ สำหรับการนำไปใช้งานในวงกว้าง เช่น ไม่ควรเป็นรายงานที่ตีพิมพ์เป็นเอกสาร PDF (Portable Document Format) ซึ่งมีความยากสำหรับคอมพิวเตอร์ในการนำข้อมูลไปประมวลผล


การกำหนดคำอธิบายรายชุดข้อมูล (Metadata)

การสร้างชุดข้อมูลควรจัดเตรียมรายละเอียดคำอธิบายรายชุดข้อมูลนั้น ๆ ได้แก่ ชื่อภาษาไทย, ชื่อภาษาอังกฤษ, url ที่ใช้ในการเข้าถึง, รายละเอียดชุดข้อมูล, หมวดหมู่ชุดข้อมูล, คำสำคัญ, ความถี่ในการปรับปรุงชุดข้อมูล, รายละเอียดของผู้จัดทำชุดข้อมูล เป็นอย่างน้อย ข้อมูลเหล่านี้จะเป็นประโยชน์ต่อผู้ที่นำชุดข้อมูลไปใช้


ประเภทของไฟล์ข้อมูล (File format)

1. CSV: comma-separated values คือ Text File สำหรับเก็บข้อมูลในรูปแบบตาราง โดยใช้จุลภาค (,) แบ่งข้อมูลในแต่ละหลัก (Column) และใช้การเว้นบรรทัดแทนการแบ่งแถว (Row)
2. XLS หรือ XLSX: (ไฟล์เอกสาร Microsoft Excel) คือ ไฟล์ประเภทสเปรดชีต (spreadsheet) หรือตารางคำนวณอิเล็กทรอนิกส์ ที่ใช้ในการเก็บบันทึกข้อมูลในลักษณะต่าง ๆ โดยเก็บข้อมูลลงในตารางสี่เหลี่ยมที่เรียกว่า เซล (Cell) ที่สามารถนำเอาเซลมาอ้างอิงใส่ในสูตร เพื่อให้โปรแกรมคำนวณหาผลลัพธ์จากข้อมูลที่บันทึกไว้ได้
3. PDF: Portable Document Format (PDF) คือไฟล์ที่ถูกสร้างจากโปรแกรม Adobe Acrobat หรือโปรแกรมประเภท PDF Creator เหมาะสำหรับการทำเอกสารตัวอย่าง, ใบเสนอราคา, Manual, Sample Picture หรือเอกสารอื่น ๆ ซึ่งปัจจุบันเป็นที่นิยมอย่างมากในการทำ e-Document หรือ e-Paper ต่างๆ เนื่องจากไฟล์ที่ได้นั้นจะมีคุณภาพสูง ไม่ผิดเพี้ยนจากต้นฉบับ และผู้ที่นำไฟล์ PDF ไปใช้งานไม่สามารถแก้ไขต้นฉบับได้ เนื่องจากเอกสารลักษณะนี้ มีรูปแบบ, ขนาดไฟล์ไม่ใหญ่มาก และสามารถทำงานข้ามระบบ (Cross Platform) ได้
4. DOC: (ไฟล์เอกสาร Microsoft Word) คือ ไฟล์เอกสารประเภทข้อความ ที่อยู่ในรูปแบบไฟล์ไบนารีและประกอบด้วยพื้นของกรอบและบันทึกที่มุ่งเน้นข้อความ, การจัดรูปแบบหน้า กราฟแผนภูมิ ตารางภาพ และเอกสารอื่น ๆ ที่มีเนื้อหาที่ถูกสร้างขึ้นและแก้ไขเนื้อหาของเอกสารได้ ทั้งยังสามารถพิมพ์ในขนาดต่างๆและมีความสามารถในการแสดงบนอุปกรณ์ที่แตกต่างกัน ให้ระบบปฏิบัติการสามารถอ่านไฟล์ DOC รูปแบบไบนารีของไฟล์ Word
5. XML: Extensible Markup Language (XML) คือ ภาษาที่ใช้ในการแสดงผลข้อมูล หากเปรียบเทียบกับภาษา HTML จะแตกต่างกันที่ HTML ถูกออกแบบมาเพื่อการแสดงผลอย่างเดียวเท่านั้น เช่นให้แสดงผลตัวเล็ก ตัวหนา ตัวเอียง แต่ภาษา XML นั้นถูกออกแบบมาเพื่อเก็บข้อมูล โดยทั้งข้อมูลและโครงสร้างของข้อมูลนั้นๆไว้ด้วยกัน ส่วนการแสดงผลก็จะใช้ภาษาเฉพาะซึ่งก็คือ XSL (Extensible Stylesheet Language)
6. RDF: Resource Description Framework (RDF) ตามที่ W3C ได้บอกไว้ คือการอธิบายถึงทรัพยากรของเว็บ เช่น ชื่อไตเติ้ล ผู้เขียน วันที่ปรับปรุง และข้อมูลลิขสิทธิ์ของเว็บเพจ ไฟล์ประเภท RDF ได้รับการออกแบบขึ้นมาเพื่อให้คอมพิวเตอร์ หรือ แอพพลิเคชันของคอมพิวเตอร์ อ่านและเข้าใจ แต่ไม่ได้รับการออกแบบให้แสดงผลผ่านเว็บแก่ผู้ใช้ ต้องใช้ภาษา XML ซึ่งเมื่อมีการนำ XML มาใช้โดย RDF จะเรียกว่า RDF/XML
7. SHP: Esri Shape file คือ ไฟล์ที่ประกอบด้วยข้อมูลเวคเตอร์แต่ละประเภท ซึ่งแต่ละเวคเตอร์ประกอบ จะประกอบเป็น Shape File ที่อ้างอิงพิกัด UTM สำหรับ Shape file นั้นหมายถึง ข้อมูลสารสนเทศภูมิศาสตร์ประเภทหนึ่งที่เก็บข้อมูลอยู่ในรูปของเวคเตอร์ (Vector) ใน 3 ลักษณะ คือ จุด (Point) เส้น (Line) และรูปปิด (Polygon) มีการแยกเก็บออกเป็นแต่ละชั้นข้อมูล (Layer) โดยที่ Shape File หนึ่งจะประกอบด้วยไฟล์อย่างน้อย 3 ไฟล์ที่มีการอ้างถึงกันและกันและไม่สามารถขาดไฟล์ใดไฟล์หนึ่งไปได้
8. JSON: JavaScript Object คือ ฟอร์แมตสำหรับแลกเปลี่ยนข้อมูลคอมพิวเตอร์ ซึ่งฟอร์แมต JSON อยู่ในรูปข้อความธรรมดา (plain text) ที่ทั้งมนุษย์และโปรแกรมคอมพิวเตอร์สามารถอ่านเข้าใจได้
9. TXT คือ ไฟล์เอกสารต่าง ๆ ที่มีแต่ตัวอักษร ใช้โปรแกรม notepad หรือโปรแกรม text editor อื่น ๆ ในการเปิดใช้งาน
10. JPEG: Joint Photographic Experts Group คือ ไฟล์ JPG เป็นไฟล์ภาพที่ถูกนำมาใช้สำหรับการจัดเก็บภาพถ่ายดิจิตอล เนื่องจากมีความละเอียดภาพสูงและไฟล์มีขนาดเล็ก สามารถเก็บภาพสีได้หลากหลายระดับความแม่นยำของสี (Bit Depth) ซึ่งความสามารถในการย่อขนาดไฟล์ของแฟ้ม JPEG นั้นเกิดจากการใช้เทคนิคการย่อขนาดภาพแบบการบีบอัดคงข้อมูลหลัก (Lossy Compression) หรือการบีบอัดแบบมีความสูญเสียทำให้ไม่นิยมใช้กับภาพที่เป็นลายเส้นหรือไอคอนต่าง ๆ


รูปแบบข้อมูล (Data format) ที่เป็นไปตามหลักการของ Open Data

การกำหนดระดับการเปิดเผยข้อมูล เพื่อให้ผู้ใช้งานสามารถพิจารณาถึงการนำไปใช้ได้สะดวกมากยิ่งขึ้น เรียงลำดับจาก 1 - 5 ดาว ซึ่งระดับ 5 ดาวนั้นอยู่ในระดับการเปิดเผยข้อมูลแบบสูงสุด ดังนี้

ระดับการเปิดเผย (Openness) รายละเอียด
★☆☆☆☆ (1 ดาว) เผยแพร่ข้อมูลในทุกรูปแบบบนเว็บไซต์ และอยู่ภายใต้เงื่อนไขและข้อกำหนดของสัญญาอนุญาต Open License
★★☆☆☆ (2 ดาว) เผยแพร่ข้อมูลในรูปแบบ Structured data ที่เครื่องสามารถอ่านได้ (Machine-readable) เช่น ข้อมูลอยู่ในรูปแบบไฟล์ Excel
★★★☆☆ (3 ดาว) เผยแพร่ข้อมูลในรูปแบบ Non-proprietary format เช่น ข้อมูลในรูปแบบ CSV แทนรูปแบบ Excel
★★★★☆ (4 ดาว) ใช้ URI (Uniform Resource Identifier) ในการระบุตัวตนของข้อมูล และชี้ไปยังตำแหน่งของข้อมูลนั้น
★★★★★ (5 ดาว) ข้อมูลมีการเชื่อมโยงไปสู่แหล่งข้อมูลอื่นๆ ในบริบทที่เกี่ยวข้องกันได้


การเผยแพร่ชุดข้อมูลควรจะกำหนดรูปแบบข้อมูลที่จะเผยแพร่อย่างน้อยระดับ 3 ดาว ซึ่งหมายถึง ข้อมูลจะต้องอยู่ภายใต้เงื่อนไขและข้อกำหนดของสัญญาอนุญาต Open License เครื่องสามารถอ่านได้ (Machine-readable) และไม่มีผู้ใดถือครองกรรมสิทธิ์ (Non-proprietary) นั่นคือรูปแบบของ Comma-Separated Value (CSV)  เป็นอย่างน้อย

ประเภทข้อมูล ระดับการเปิดเผยข้อมูล
PDF, DOC, TXT, TIFF, JPEG ★☆☆☆☆ (1 ดาว)
XLS ★★☆☆☆ (2 ดาว)
CSV, ODS, XML, JSON, KML, SHP, KMZ ★★★☆☆ (3 ดาว)
RDF (URIs) ★★★★☆ (4 ดาว)
RDF (Linked Data) ★★★★★ (5 ดาว)