A Conceptual Query-Driven Design Framework for Data Warehouse (Final)
posted on 06 Aug 2009 23:18 by techinnoreview in MITTAConceptual Query-Driven Design Framework
forData Warehouse
บทคัดย่อ
Datawarehouse คือ ฐานข้อมูลที่ใช้สำหรับการสืบค้นข้อมูลและสร้างรายงานการสืบค้นข้อมูลในสิ่งแวดล้อมที่สามารถแสดงผลออกมาได้อย่างเฉพาะตัวเช่น Multidimensionality และ Aggregation เมื่อเปรียบกับการสืบค้นข้อมูลตามธรรมชาติแล้วในรายงานฉบับนี้พวกเราได้นำเสนอการทำงานในรูปแบบ Query-Driven DesignFramework ซึ่ง Framework ที่ได้นำเสนอนี้อยู่ในรูปแบบทั่วไปและอนุญาตให้ผู้ออกแบบสามารถสร้างschema ได้ตามการสืบค้นข้อมูลแต่ละชุด
1.Introduction
คลังข้อมูลหรือData Warehouse นั้นได้ถูกพิจารณาไว้เฉกเช่นการเก็บข้อมูลแบบรวมเข้าสู่ศูนย์กลางหรือCentralized ที่สามารถใช้ในการแสดงผลรวมของข้อมูลทั้งองค์กรได้ นักวิเคราะห์และผู้ที่ทำการตัดสินใจต่างๆนั้นจะทำการ สืบค้นคลังข้อมูลเพื่อหาสารสนเทศเกี่ยวกับธุรกิจของพวกเขาและสิ่งนี้เองที่นำไปสู่กระบวนการในการตัดสินใจ ผู้ใช้คลังข้อมูล นั้นชื่นชอบที่จะดูข้อมูลในแบบหลายมิติหรือMultidimensional ซึ่งจะใกล้เคียงกับระบบความคิดของนักวิเคราะห์จากบทอ้างอิงที่[1] อีกทั้งผู้ใช้นั้น ยังสนใจในเรื่องของแนวโน้มความเป็นไปมากกว่าที่จะทำการดูข้อมูลเพียงครั้งเดียวในเวลาเดียวฉะนั้น การสรุปข้อมูลจึงมีความจำเป็นอย่างยิ่งยวด การสรุปข้อมูลเพื่อที่จะบอกถึงระดับของรายละเอียดต่างๆเรียกว่าการสรุปแบบรวมกลุ่มหรือ Aggregation ด้วยส่วนประกอบเหล่านี้เองการสืบค้นคลังข้อมูล นั้นจึงเป็นที่รู้จักกันในรูปแบบของการสืบค้นแบบรวมกลุ่มหลายมิติหรือ Multidimensional Aggregate Queries ตามบทอ้างอิงที่[9][2] เพื่อที่จะสนับสนุนการสืบค้นรูปแบบนี้จึงได้มีการประยุกต์ใช้รูปแบบการออกแบบแบบ top-down และ bottom-up เพื่อมากำหนดพื้นที่แบบหลายมิติ หรือ Multidimensional space ผ่านFacts และ Dimensions โดย 1 Fact นั้นจะสามารถนิยามได้เท่ากับ วัตถุ 1 ชิ้นหรือหัวข้อที่เราสนใจซึ่งเป็นหัวข้อที่นำมาวิเคราะห์ใน พื้นที่แบบหลายมิติ โดย Fact ที่ถูกระบุโดยชุดของAttributes (ปรกติจะเป็นรูปแบบตัวเลขแต่ไม่จำเป็นเสมอไป) ถูกเรียกว่าMeasures [17] Dimensions นั้นแสดงถึงจุดต่างๆ ของมุมมองของข้อมูลสำหรับวิเคราะห์ หรือสามารถเรียกได้ว่าเป็น บริบทสำหรับการวิเคราะห์ Facts หรือ Context for Analyzing the Facts การสรุปแบบรวมกลุ่มถูกจัดในรูปแบบHierarchies ซึ่งมิติต่างๆนั้นจะถูกระบุโดยมีระดับชั้นที่ต่างกัน แต่ละระดับนั้นแสดงระดับของรายละเอียดของข้อมูล (Granularity) ซึ่งจำเป็นสำหรับการวิเคราะห์[21]
การออกแบบ แบบ Bottom-up นั้นได้นำเสนอวิธีที่จะเปลี่ยนConceptual Schema ของระบบการดำเนินการไปจนถึงรูปแบบคลังข้อมูล ในหลายๆกรณีได้มีการสมมุติว่าOperational Schema นั้นเป็น ER และการแปลสภาพนั้นได้ถูกนำเสนอไปอย่างสอดคล้องกัน ซึ่ง Conceptualization นั้นไม่ได้ถูกจัดอยู่ในขั้นตอนเหล่านี้และการออกแบบนั้นไม่ได้เป็นตัวขับเคลื่อนข้อมูลด้วยเช่นกัน
ในการออกแบบทั้งสองอย่างการสืบค้นข้อมูลของผู้ใช้งานจะถูกประเมินค่าในระหว่างกระบวนการการออกแบบเพื่อที่จะทำให้การสืบค้นแบบ Ad-hoc มีความยืดหยุ่นสูงสุดซึ่งเราจะรู้สึกว่าจะเป็นสิ่งที่จำเป็นและการสืบค้นนั้นจะต้องถูกพิจารณาก่อนแม้ว่าการสืบค้นทั้งหมดอาจจะไม่ถูกล่วงรู้ก่อนในขั้นต้น การออกแบบจึงควรจะให้แนวทางและทำให้โมเดลมีความคล่องตัวต่อแต่ละสคีมาในการออกแบบนี้ยังมีประเด็นอื่นที่น่าสนใจโดยแต่ละโมเดลมีconceptและnotationในของตัวมันเอง ดังนั้นจึงยากที่จะระบุโมเดลทั่วๆไปจากโมเดลที่มีอยู่แล้วเมื่อนำการออกแบบคลังข้อมูลมาเปรียบเทียบกันกับฐานข้อมูลแบบเดิม การแปลสภาพจากโมเดลไปเป็นสคีมาเฉกเช่นการปรับแต่งสคีมานั้นไม่ถูกกระทำ ในสถานการณ์นี้การขับเคลื่อนของการสืบค้นข้อมูลอย่างเป็นระบบซึ่งในรายงานนี้เราจะนำเสนอในรูปแบบขอบข่ายการทำงานส่วนที่เหลือของรายงานเป็นส่วนที่เกี่ยวกับการออกแบบคลังข้อมูลซึ่งได้ทำเป็นวิเคราะห์ในส่วนที่2 ในลักษณะของการแสดงความคิดเห็นตอบโต้กันซึ่งการนำเสนอขอบข่ายทั้งหมดของงานอยู่ในส่วนที่3 ซึ่งแต่ละขั้นตอนจะเกี่ยวข้องกันซึ่งจะสรุปความไว้ในบทที่ 4
2. Retated work
การออกแบบวิธีการที่เกี่ยวข้องกับการออกแบบระบบจะถูกอ้างอิงจากบทอ้างอิงที่[18]และ[12] วิธีการเหล่านี้อยู่ในการออกแบบconceptual ไปจนถึงPhysical ในการออกแบบconceptualจะใช้วิธีการในบทอ้างอิงที่[17][7]และ[3]การออกแบบ top down จะถูกพิจารณาในเรื่องของข้อกำหนดต่างๆที่เกี่ยวข้องกับการนำเสนอข้อมูลและการรวมกลุ่มเพื่อใช้ในการสร้างโมเดลใหม่การนิยามการสร้างโมเดลหรือgraphical notation จะพบได้ในขั้นตอนนี้กระนั้นความเป็นมาของสคีมาที่จะถูกนำทางหรือความสัมพันธ์ของการสืบค้นข้อมูลในการออกแบบยังคงมีข้อบกพร่อง
ในงานอื่นๆเช่นจากบทอ้างอิงที่[16][8]และ[15] นำเสนอวิธีการแปลสภาพER-model ให้เป็นโมเดลคลังข้อมูลซึ่งโดยหลักแล้วจะมุ่งเน้นไปที่การแยกแยะการสร้างโมเดลจากER-model สำหรับโมเดลคลังข้อมูลซึ่งรวมถึงการปรับแต่งสคีมาด้วย
การสืบค้นข้อมูลในบทอ้างอิงที่[22]และ[10] การออกแบบCube สำหรับการสืบค้นข้อมูลจะถูกอ้างอิงในบท[22]โดยอัลกอรึทึมคือการเลือกSub-Cube จากBase- Cube ซึ่งเป็นปัจจัยหลักของการทำงานนี้
Sub-Cubeจะถูกเลือกอิงตามการสืบค้นข้อมูลอย่างไรก็ตามการเรียกสืบค้นข้อมูลจะอยู่ในรูปแบบ MDX(ภาษาการสืบค้นข้อมูลที่ใช้สำหรับฐานข้อมูลแบบหลายมิติออกแบบโดยMicrosoft) ซึ่งมีข้อจำกัดมาก
ข้อกำหนดของการออกแบบData Cube จากในบทอ้างอิงที่[10] ซึ่งขั้นตอนการแบ่งแยกData Cubeนี้จะต้องถูกคำนวณไว้ล่วงหน้าเพื่อเพิ่มประสิทธิภาพของการสืบค้นข้อมูลซึ่งกระบวนนี้เป็นหนึ่งในเทคนิคการเพิ่มประสิทธิภาพนอกเหนือจากการวิธีการออกแบบสคีมา
Xml ในคลังข้อมูล ที่เรียกว่าX- warehouse ในบทอ้างอิงที่[14]ตั้งอยู่บนพื้นฐานของรูปแบบการสืบค้นข้อมูลตามความถี่ในวิธีการสืบค้นข้อมูลตามประวัติการสืบค้นจะถูกแปลสภาพไปเป็นการสืบค้นข้อมูลแบบตามส่วนที่เกี่ยวข้องกัน จากกลุ่มของการสืบค้นข้อมูลแบบนี้ฐานข้อมูลจะถูกสร้างขึ้นหลังจากนั้นด้วยการประยุกต์ใช้เทคนิคการทำDataMining ก่อให้เกิดรูปแบบการสืบค้นข้อมูลที่มีประสิทธิภาพ จุดประสงค์หลักของงานนี้คือ
หลักการทำMiningนั้นจะถูกใช้ในการหารูปแบบการสืบค้นข้อมูลตามความถี่แทนที่การออกแบบกระบวนการสคีมาทั้งหมดจากการวิเคราะห์สรุปได้ว่าการออกแบบขอบข่ายการทำงานหรือระบบทั้งหมดนั้นการขับเคลื่อนการสืบค้นข้อมูลเป็นสิ่งสำคัญซึ่งเป็นสิ่งที่ถูกเน้นในรายงานนี้เช่นเดียวกับเรื่องของขอบข่ายการทำงานที่จะถูกกล่าวถึงในบทต่อไป
3. The Proposed Framework
ในการออกแบบฐานข้อมูลแบบดั้งเดิมตามบทอ้างอิงที่[4] Framework ของเราจะเริ่มต้นที่การสร้างข้อกำหนดต่างๆ อย่างเช่นเทคนิคการวิเคราะห์ข้อกำหนดตามบทอ้างอิงที่[5][20] ซึ่งเราพยายามหลีกเลี่ยงการกล่าวถึงการรวบรวมข้อกำหนดโดยสมมุติว่าเรามีธุรกิจหนึ่งที่มีข้อกำหนดและการสืบค้นที่เกี่ยวข้องกันอยู่แล้ว หลังจากที่เก็บรวบรวมข้อกำหนดได้แล้ว ความต้องการของธุรกิจที่เกี่ยวข้องถูกทำให้เป็นรูปแบบกราฟหรือก็คือลักษณะขององค์ความรู้นั่นเอง[ตามรูปที่1] ขณะที่อยู่ในขั้นตอนการใช้ E-R และ OOconcept ในการทำ Formalization ซึ่งเราเลือกใช้ทฤษฎีกราฟด้วยวิธีการเหล่านี้ทำให้เราสามารถเก็บ Framework ในรูปแบบทั่วไปไว้เท่าที่จะเป็นไปได้
องค์ความรู้ในFramework ทำให้เราแบ่งแยกองค์ความรู้ต่างๆได้ซึ่งจำเป็นต่อ schemaของคลังข้อมูล ด้วยวิธีการสืบค้นข้อมูลรูปแบบนี้ ผู้ใช้อาจจะไม่มีสิทธิในการเข้าถึงความสัมพันธ์เชิงลึกในธุรกิจโดยทั่วไปแล้วองค์ความรู้ทางธุรกิจของผู้ใช้จะถูกจำกัดอยู่ในส่วนของธุรกิจนั้นๆ ซึ่งการองค์ความรู้ที่ขาดหายไปผู้ใช้สามารถที่จะได้รับความสัมพันธ์ทั้งหมดที่จำเป็นผ่านทางการสืบค้นข้อมูลซึ่งเหล่านี้ทำให้การสร้างการสืบค้นข้อมูลนั้นยากและยังเป็นส่วนหนึ่งของข้อกำหนดในการสืบค้นข้อมูล ในการนำเสนอองค์ความรู้จะพยายามหลีกเลี่ยงสถานการที่ผู้ใช้จะสามารถใช้ภาษาธรรมชาติในการสืบค้นข้อมูลได้ ด้วยการใช้การสืบค้นข้อมูลและองค์ความรู้ Query-Orientedschema จะถูกสร้างในขั้นตอนที่สองของการออกแบบโดยสคีม่านี้เรียกว่า Intermediateschema ทันทีทันใด ซึ่งจะถูกนำเสนอในรูปแบบกราฟเช่นเดียวกับองค์ความรู้ ยกเว้น Fact ที่จะถูกรวบรวมไว้ตั้งแต่ต้นแล้วโดยIntermediate schema จะทำงานเสมือนรูปแบบทั่วไปที่ซึ่งสคีม่าคลังข้อมูลที่ต่างกันจะสามารถนำมาร่วมได้เราได้ทำการแบ่งแยก Information modelต่างๆที่สำคัญในขบวนการการออกแบบตามบทอ้างอิงที่[13] และสิ่งนี้เองที่ทำให้เกิด Intermediate schema ใน Framework ด้วยสคีม่านี้ทำให้สคีม่าก่อนๆที่ระดับฐานข้อมูลและผู้ออกแบบมีความยืดหยุ่นในการเลือกสคีม่าต่างตามความต้องการในขั้นสุดท้ายของ Framework การสร้างรากฐานกันของสคีม่าคลังข้อมูลจะถูกนำเสนอในรูปแบบการเพิ่มประสิทธิภาพภารที่ Conceptual Level ในความเป็นจริงแล้วอาจจะถูกมองว่าเป็นการลดConceptual มากกว่าการเพิ่มประสิทธิภาพเชิงกายภาพ ในแต่ละขั้นตอน Framework จะถูกอธิบายในรายละเอียดในบทย่อยต่อไป
A. KnowledgeBase
ฐานข้อมูลองค์ความรู้จะประกอบด้วยข้อกำหนดทางธุรกิจคือBusinessMeasure หรือการวัดค่าทางธุรกิจซึ่งจะถูกอธิบายในมาตรฐานที่นับได้ซึ่งใช้ในการประเมินค่าประสิธิภาพทางธุรกิจดังกฎอ้างอิงที่[19] ความสำเร็จเชิงกลยุทธ์ขององค์กรนั้นจะถูกวัดค่าตามมาตรฐานซึ่งมาตรฐานเหล่านี้มีจุดประสงค์ในการกำหนดว่ากลยุทธ์ต่างๆประสบความสำเร็จหรือไม่ ยกตัวอย่างเช่นการขายต่อปี จำนวนลูกค้าที่เสีย กำไรก่อนหักค่าใช่จ่าย ทรัพย์สินมวลรวมและอื่นๆซึ่งเป็นการประเมินผลทางธุรกิจเราจะแบ่งการประเมินผลทางธุรกิจออกเป็นการประเมินในแบบต่างๆโดยรูปแบบการประเมินจะถูกกำหนดตามระดับของธุรกิจซึ่งแต่ละธุรกิจจะมีส่วนที่สำคัญน่าสนใจต่อการวิเคราะห์ซึ่งเราสมมุติว่ามันสามราถที่จะทำเป็นตัวเลขได้ถ้าชนิดของการวัดนั้นมาจากการวัดชนิดอื่นๆการวัดนั้นจะถูกเรียกว่าderived measure type ทุกๆชนิดของการวัดค่านั้นจะถูกนำเสนอเป็นหนึ่งโหนดในกราฟ
Classification:การจัดหมวดหมู่ เป็นการบริหารโครงสร้างของธุรกิจในรูปแบบ Hierarchicalโครงสร้างทางธุกิจเหล่านี้จะถูกทำให้เสร็จได้โดยการแบ่งแยกประเภทต่างๆภายในองค์กรเช่นแยกผลิตภันฑ์ออกจากบริการการจัดหมวดหมู่จะถูกกำหนดให้ไปอยู่ในลักษณะของการแบ่งเป็นกลุ่มในการใช้กราฟเพื่อที่จะแบ่งแยกประเภทนั้นจะถูกพบในบทอ้างอิงที่ [6] ซึ่งการจัดหมวดหมู่จะสามารถอธิบายแต่ละกลุ่มของหมวดหมู่ได้โดยแต่ละกลุ่มนั้นมีความสัมพันธ์กันเราเรียกว่าClassification relation ซึ่งหนึ่งหมวดหมู่จะถูกอธิบายได้ด้วยความหมายของแอททริบิวต์ ที่ชื่อ descriptive แอททริบิวต์
การจัดหมวดหมู่นั้นปกติแล้วจะระบุเป็นtuple(C:R) โดยที่ C นั้นคือหมวดหมู่และ R เป็น Subset เท่ากับ C*C หรือความสัมพันธ์ของหมวดหมู่เนื่องจากโครงสร้างขงองธุรกิจนั้นอยู่ในรูปแบบของHierarchical ความสัมพันธ์ของหมวดหมู่จึงเป็นแบบ reflexive, transitive,antisymmetricโดย Concept ของการจัดหมวดหมู่ซึ่งในภายหลังถูกใช้ในสคีม่าสำหรับaggregation หรือการรวมกลุ่มข้อมูลดังนั้นจะต้องกำหนดเงื่อนไขเพื่อที่จะทำให้การรวมกลุ่มข้อมูลถูกต้องดังที่กล่าวไว้ในบทอ้างอิงที่[1] การกำหนดข้อกำหนดของสคีม่าในขอบเขตนั้นจะถูกกระทำเป็นพิเศษต่อ latticestructure หรือ ที่เรียกว่า classification lattice ซึ่งจะมี greatest lower bound และ least Upper bound น้อยซึ่ง least Upper bound จะถูกระบุไว้โดยโหนดที่ที่ชื่อว่าAll c และ greatest lower boundจะถูกกำหนดไว้ในโหนดที่ไม่มีความสัมพันธ์ระหว่างกลุ่มด้วยการระบุความสัมพันธ์ที่แตกต่างกันระหว่างกลุ่มในการจัดหมวดหมู่และชนิดของการวัดค่าต่างๆสองแนวคิดนี้จะสามารถนำไปรวมกันเพื่อสร้างกราฟที่เรียกว่าว่ากราฟองค์ความรู้ตัวอย่างหนึ่งของการฟองค์ความรู้จากแผนกการขายถูกนำเสนอในภาพที่[1]ในภาพนี้ Sales เป็นชนิดของMeasuretype และ classification latticeซึ่งประกอบด้วย day, store, product, customer ซึ่งแสดงออกมาในลักษณะของrespectivesemantic relationships

รูปที่1 The KnowledgeBase Graph
ตามรูปแบบแล้วกราฟองค์ความรู้Gkจะถูกกำหนดไว้: Gk = (Nk, Ek) เมื่อ Nkเป็นชุดของโหนดที่ระบุชนิดของการวัดค่าต่างๆ หมวดหมู่ และ descriptiveattributes และเมื่อ Ek เป็นชุดของมุมที่บ่งบอกความหมายของความสัมพันธ์ระหว่างโหนดจากตัวอย่างในรูปภาพเส้นลูกศรที่ลากบ่งบอกถึงความสัมพันธ์ของสมาชิกในแต่ละหมวดหมู่และลูกศรเส้นประบ่งบอกถึงความสัมพันธ์ระหว่าง class และ measuretype โดยการฟนี้ถูกใช้เป็นจุดเริ่มต้นของการสร้างสคีม่าซึ่งจำเป็นต้องใช้การสืบค้นข้อมูล
B. UserQueries
การสืบค้นของข้อมูลที่เก็บตัวอย่างมาจากผู้ใช้จะอยู่ในรูปแบบของภาษาธรรมชาติการรวมการสืบค้นข้อมูลด้วยภาษาธรรมชาติไว้ในFrameworkก่อความยุ่งยากต่อกาออกแบบสคีม่าเนื่องด้วยกระบวนการการสืบค้นข้อมูลด้วยภาษาธรรมชาตินั้นยุ่งยากดังนั้นเราจึงทำการแปลการสืบค้นด้วยภาษาธรรมชาติทุกๆตัวและนำเสนออย่างเป็นรูปแบบในลักษณะของการสืบค้นข้อมูลแบบต้นไม้ หรือQueryTree
การสืบค้นข้อมูลแบบแผนภูมิต้นไม้จะมีความทัดเทียมกับการสืบค้นด้วยภาษาธรรมชาติซึ่งระบุเป็นแบบแผนภูมิต้นไม้โดย rootนั้นเปรียบเสมือน measure type และ successivenodes แทน Class หรือ descriptiveattribute จากการจัดหมวดหมู่นอกเหนือจากนั้นแผนภูมิต้นไม้ยังอนุญาติให้มี measure typeได้เพียงหนึ่งเดียว ซึ่งโหนดอื่นจะอยู่ในลักษณะของ leaf node
จุดสิ้นสุดของQuerytree เรียกว่า requirement function ซึ่งแทนค่าด้วยRq โดยสามารถเขียนได้ดังนี้
Rqเป็น Subset ของ{f1, f2, …, fi } โดยที่ fi สามารถเป็น function อะไรก็ได้ เช่น functionทางสถิติ เช่น sum,average, minimum, maximum หรือ functionเงื่อนไข โดยอาจจะนำเสนอในรูปแบบที่มากกว่าหนึ่งได้ ยกตัวอย่างเช่น Querytree สำหรับการสืบค้นข้อมูล sales ในไตรมาศที่ 1 ปี ค.ศ.1999 ที่ถูกแสดงในรูปที่[2] การสืบค้นข้อมูลหนึ่งสามารถสืบค้นข้อมูลได้หลายทาง

รูปที่[2] An example query tree
แม้ว่าการสืบค้นข้อมูลทั่วๆไปนั้น จะรู้ในรูปแบบรหัสข้อมูลอยู่แล้ว แต่ก็ไม่สามารถจะการันตีได้ว่าการสืบค้นข้อมูลทั้งหมด จะถูกใส่เข้าไปในขั้นตอนของการออกแบบเพื่อที่จะรองรับข้อจำกัดนี้ เทคนิคเกี่ยวกับการแบ่งประเภทของการสืบค้นข้อมูลที่ไม่เกี่ยวข้องกับ การรสืบค้นคลังข้อมูลทั่วๆ ไป จะต้องถูกพิจารณาเพื่อการสืบค้นข้อมูลชนิดนี้ เราต้องสร้างคำจำกัดความและวิธีดำเนินการที่จะถูกใส่ลงไปในการสืบค้นข้อมูลด้วยขั้นตอนนี้(ConceptualApproch) ชุดคำสั่งการดำเนินการจะถูกสมมติขึ้นด้วยการสันนิษฐานการสืบค้นข้อมูลแต่ละแบบ สำหรับและสำหรับการทำ classification จะมีการพิจารณาการสร้าง Query เพียงแค่อย่างเดียว
Measure type จะปรากฏในทุกๆ Query เช่นเดียวกับที่คลาสต่างๆที่จะปรากฏใน Query ซึ่งอาจจะมาจาก ClassificationLattice เดียวกันหรือไม่ก็ได้ การQueryลักษณะนี้จะสามารถระบุbasic measure type- single-classification, derived-measure type-single-classification,basic measure type-multiple classification, and derived- measure type-multipleclassification การสืบค้นข้อมูลของคลาสต่างๆ เหล่านี้จะถูกสร้างแตกต่างกัน หลังจากนั้น query tree จะแตกต่างกันไปขึ้นอยู่กับการสืบค้นต่างๆ
C. Intermediate Schema
ขั้นต่อไปของการออกแบบคือIntermediateSchema ซึ่งกราฟองค์ความรู้ และ Query Tree จำเป็นที่ต้องใช้ในการออกแบบใน Schema นี้จะเกี่ยวข้องกับการสื่อความหมายของกราฟองค์ความรู้เป็นอย่างมาก เช่นเดียวกับ ข้อกำหนดในการดำเนินการจากการสืบค้นข้อมูลนอกเหนือจากนี้ Intermediate Schema ต้องแสดงคำตอบของการสืบค้นข้อมูลได้อย่างชัดเจน
อัลกอริทึมในการพัฒนาและสร้างIntermediateSchema นั้นจะต้องดึงเอากราฟองค์ความรู้และ Query Tree มาใช้เป็น input ซึ่งจะช่วยแยกแยะระบุ path ของ Query Tree ได้ในองค์ความรู้ซึ่งทำให้การสืบค้นสามารถกระทำได้ โดยการระบุ path ต่าง ๆนั้น จะถูกอธิบายในรูปแบบของ Mapping Process ซึ่งQuery Tree จะถูกกำหนดไว้ในกราฟที่มีอยู่แล้ว
การระบุตำแหน่งจะเริ่มต้นไปพร้อมกับการกำหนดค่าเริ่มต้นของกราฟ(Gk’)โดย (Gk’)เป็นกราฟองค์ความรู้การกำหนดค่าเริ่มต้นนี้ จะทำให้เราสามารถตรวจสอบได้ว่า Query Tree มีค่าอยู่จริงในธุรกิจ เนื่องด้วยว่า Query Tree มีจุดสิ้นสุดหลายชนิด(ขึ้นอยู่กับชนิดของการสืบค้นข้อมูล ที่ได้กล่าวมาแล้วในข้างต้น)การแบ่งแยกชนิดของการสืบค้นข้อมูลจึงมีความจำเป็นฉะนั้นการแก้ไขค่าในกราฟสัญลักษณ์จะถูกพิจารณาตามแต่ละ Query Tree ไป
กราฟองค์ความรู้ และ กราฟ Query Tree จะถูกรวมไว้ใช้ในการระบุตำแหน่งดังนั้นจึงมีความจำเป็นอย่างยิ่งที่จะต้องตรวจสอบของความเหมือนกันในแต่ละnode ใน Query tree ซึ่งอยู่ในกราฟองค์ความรู้การตรวจสอบความเหมือนกันนั้น จะทำได้สำเร็จจะต้องมี SimilarityFunction ซึ่งฟังก์ชั่นนี้จะมีการรับค่าparameter จาก maximum ของทั้ง2 node ซึ่ง node เหล่านี้จะมีความเกี่ยวพัน์กับจุดสิ้นสุดของQuery Tree และจะถูกเชื่อมเข้าด้วยกันซึ่ง node นั้นจะถูกเปรียบเทียบใน (Gk) ตัวอย่างเช่นการเปรียบเทียบจะต้องเป็น Domain Intersection ซึ่งถ้าการ Intersection นี้ไม่ออกมาเป็นค่าว่าง nodeเหล่านั้นจะถูกพิจารณาว่าเหมือนกัน ถ้าหากว่าไม่มีnode ที่เหมือนกันในองค์ความรู้ ฟังก์ชั่นนั้นจะคืนค่าNull มาให้และจะจบกระบวนโดยรับ Query Tree ใหม่เข้ามา กระนั้นเอาต์พุทของฟังก์ชั่นจะขึ้นอยู่กับจุดสิ้นสุดที่เกี่ยวข้องและที่ถูกเลือกใน (Gk) และ Query Tree ที่ถูกสร้างขึ้น
เราสามารถอธิบายกระบวนการระบุตำแหน่งได้ละเอียดมากขึ้นโดยใช้ตัวอย่างการสืบค้นข้อมูลที่ได้เอ่ยถึงไปแล้วในส่วนที่ 3 B (UserQuery) Query Tree จะถูกดำเนินการจาก node ที่เป็น measure typeและในกรณีตัวอย่างก็คือ node sales ซึ่งจุดสิ้นสุดอื่นๆคือ Quarter กับ Year เช่นเดียวกับเอาต์พุทแต่ละฟังก์ชั่นของจุดสิ้นสุดที่ถูกเลือกในองค์ความรู้ ดังนั้น Equivalent Path จะถูกจะบุ กราฟสุดท้ายจะถูกกระทำเสร็จสิ้นหลังจากที่ระบุการสืบค้นข้อมูลครบทั้งหมดซึ่งจะถูกเรียกว่า Intermediate Schema ซึ่งจะเกี่ยวข้องกับการนำเสนอการสืบค้นข้อมูล
D. Data Warehouse Schema
IntermediateSchema ซึ่งถูกพิจารณาแล้วในส่วนก่อนหน้านี้จะต้องสามารถตอบโจทย์การสืบค้นข้อมูลได้อย่างไรก็ตามการที่จะออกแบบกระบวนการให้เสร็จสิ้นจะต้องครอบคลุมถึงการเตรียมการในอนาคตสำหรับการปรับปรุงSchema ด้วย หลังจากนั้น Intermediate Schema จะถูกใช้ในการสร้าง Data Warehouse Schema ซึ่งได้รับการปรับปรุงประสิทธิภาพสำหรับการสืบค้นข้อมูลโดยเมื่อทำการร่าง Schema ขึ้น คุณสมบัติของ Schema จะต้องถูกแยกแยะเป็นลำดับแรก เช่น เราอาจจะพิจารณาคุณสมบัติขั้นต่ำด้วย MinimalSchema ซึ่งถูกระบุเป็น Schema ที่คาดว่าจะมีการQuery น้อยรูปแบบที่สุดและมีความยาวของ path น้อยที่สุด โดยกล่าวได้ว่า Schema จะมีประสิทธิภาพอิงตามความยาวของpath เพราะฉะนั้นเมื่อ Intermediate Schema คือกราฟ Data Warehouse Schema คือการลดขั้นตอนการทำงานของกราฟ
ReductionAlgorithm หมายถึง algorithm ของการลดขนาดของขั้นตอนการทำงานของกราฟโดย Algorithm นั้น จะเลือกเพียงส่วนเดียวของกราฟที่จำเป็นสำหรับการทำการสืบค้นข้อมูลโดยไม่สนใจส่วนที่เหลือใน Intermediate Schema ในขณะที่ทำการเลือกpathจะทำการเลือก pathที่มีความยาวน้อยที่สุดถูกเลือกขึ้นอยู่เหนือ path ทางเลือกอื่นๆหลังจากเสร็จสิ้นกระบวนการลดขั้นตอน จะเหลือเพียงเฉพาะ path ที่จำเป็นในการใช้สืบค้นข้อมูลเท่านั้นซึ่งแต่ละ path ก็สามารถทีจะรองรับการสืบค้นได้มากกว่า 1ซึ่งจะถูกแสดงในรูปที่ [3] การสืบค้นข้อมูล 4ชนิด ถูกพิจารณาลดขั้นตอน คือ Yearly Sales by Region , Total Sales in Quarter 1 ,year 1999, Sales of home brand products by age และ Average age ofcustomer who made transaction over $100 มีจุดสิ้นสุดในกราฟนี้หลายจุดที่ต่างกันซึ่งมาจากกับกราฟองค์ความรู้และมีจุดสิ้นสุดที่ถูกปรับหรือเพิ่มเข้าไปเพื่อก่อให้เกิดการสืบค้นที่ตีความหมายได้ในIntermediate Schema ยกตัวอย่างเช่นที่ edge(year,region) ซึ่งผู้ใช้ต้องการจะเรียกใช้การดำเนินการของสองโหนดนี้เราจึงเรียกมันว่า operation edge หรือในอีกทางหนึ่ง edge(customer,age) เป็น semantic edge ซึ่งอยู่ในองค์ความรู้และถูกปรับแต่งใน Intermediate Schema เพื่อที่จะแสดงAttributeEdge เพื่อที่จะใช้ในการรวมกลุ่ม ในแต่ละ query

รูปที่ 3 DataWarehouse Schema
ในส่วนของจำนวนการดำเนินงานเวลาตอบสนองและความถี่ของการสืบค้นข้อมูลสามารถถูกพิจารณาเพื่อลดทอนได้อย่างไรก็ตามในกรณีเหล่านี้ถ้าพารามิเตอร์ที่เกี่ยวข้องเป็นเครื่องมือที่จำเป็นที่เราจะนำมาใช้
IntermediateSchema นั้นยังสามารถที่จะใช้เสมือนหนึ่งplatforms เพื่อใช้เป็นเครื่องมือในโมเดลอื่น เช่น Cubeยกตัวอย่างเช่น Data Cubes สามารถถูกเลือกในแบบเดียวกับวิธีที่ใช้เลือกในIntermediate Schema ได้ ในการออกแบบของพวกเราการเลือก Cube จะถูกกระทำอิงตามการสืบค้นข้อมูลอย่างไรก็ตามวิธีการที่มีอยู่สามารถสร้าง Ad hoc Design และ FinalSchema ได้ เช่นกัน การเลือก cube ที่จะนำมาใช้ส่วนใหญ่แล้วจะออกมาในรูปแบบของการออกแบบแบบเดิมและการเรียกดูmaterialization techniques นั้นจำเป็น ในขั้นตอนนี้นอกเหนือจากการสืบค้นเราจะต้องมา เทคนิคการแบ่งประเภทการสืบค้นขอมูลและครอบคลุมถึงการสืบค้นคลังข้อมูลทั่วๆไปด้วยการสืบค้นข้อมูลเหล่านี้จะถูกระบุไว้ในIntermediate Schema ซึ่งจะให้ผลออกมาเป็น Cube จาก สคีม่านี้ ซึ่งเหมากับการสืบค้นข้อมูลซึ่งทำให้สามารถระบุIntermediate Schema ไปยัง Cube modelและแสดงผลออกมาใน Framework ของเรา
4.Conclusion and Future works
ในรายงานชิ้นนี้เราได้พิจารณาถึงการออกแบบตามพื้นฐานของการสืบค้นข้อมูลสำหรับคลังข้อมูลเปรียบเทียบกับการออกแบบเดิมที่มีอยู่ Frameworkนั้นเป็นระบบระเบียบมากกว่าโดยมีการเริ่มต้นด้วยการหาข้อกำหนดต่างและสิ้นสุกที่การแบ่งแยกประเภทของการสร้างschema ออกเป็นแต่ละ query
Schemaที่นำเสนอเป็นแบบทั่วไป สามารถแปลสภาพให้เป็น cube หรือ star ได้ นอกจากนั้น งานของเรายังมีความเป็นtaxonomy หรือ มีการเทคนิคในการแบ่งแยกกลุ่ม และมีการดำเนินงานในลักษณะของconceptual ในการสืบค้นข้อมูลต่างๆ
กระบวนการการระบุตำแหน่งที่ได้กล่าวถึงในเรื่องintermediateschema นั้นมีความจำเป็นต่อการสร้าง similarityfunction ซึ่งเราได้กำหนดใช้function นี้ในระดับที่สูงกว่า โดยการนำ function นี้นั้นมีประเด็นที่น่าสนใจในการนำไปใช้งานในอนาคตซึ่งเราจะนำการวิจัยของเราไปใช้เพื่อไปเพิ่มประสิทธิภาพโดยการนำcost function เข้ามาร่วมด้วย
ความเป็นไปได้ในอนาคต
ในอนาคตจะมีการสร้าง similarityfunction ซึ่งเราได้กำหนดใช้function นี้ในระดับที่สูงกว่า โดยการนำ function นี้นั้นมีประเด็นที่น่าสนใจในการนำไปใช้งานในอนาคตซึ่งเราจะนำการวิจัยของเราไปใช้เพื่อไปเพิ่มประสิทธิภาพโดยการนำcost function เข้ามาร่วมด้วย
ข้อดี
- บทความนี้มีการนำเสนอเป็นลำดับขั้นตอนชัดเจน
- มีการอ้างอิงถึงบทความอื่นๆที่น่าเชื่อถือเป็นจำนวนมาก
- มีการยกตัวอย่างในแต่ละขั้นตอน
- การใช้เทคนิคนี้มีการออกแบบสคีมาเป็นระบบระเบียบสามารถประยุกต์ใช้ในธุรกิจได้ง่าย
- เพิ่มประสิทธิภาพการสืบค้นข้อมูลได้เร็วขึ้น
- มีการแยกการทำงานเป็นรูปแบบกราฟระหว่างการทำงานทำให้ผู้ไม่มีความรู้สามารถเข้าใจได้ง่ายขึ้น
ข้อเสีย
- มีการเถาความในเรื่องเดิมๆบ่อยครั้งได้มีการนำตัวอย่างที่ได้ออกแบบเสร็จแล้วมาแสดง
- การเตรียมชุดคำสั่ง queryข้อมูล ไว้ล่วงหน้าทำได้ยาก
- ไม่รองรับการทำงาน costfunction
- ยังไม่มีการนำไปใช้จริง