Senin, 12 September 2011

Pengantar DataWarehouse

Data Warehouse merupakan gudang penyimpanan data yang historical yang digunakan untuk menyimpan data terintegrasi agar dapat digunakan untuk mendukung pengambilan keputusan.

Menurut Bill Inmon, Data Warehouse adalah koleksi data yang berorientasi subyek (subject-oriented), terintegrasi (integrated), tidak dapat diubah (nonupdateable), memiliki periode waktu tertentu (time variant), untuk informasi yang bersifat historis dan dapat mendukung pengambilan keputusan. 

“A Data Warehouse is a subject-oriented, integrated, time-variant,
non-updateable collection of data used in support of management
decision-making processes and business intelligence “ [PON01].

Secara fisik gudang data memisahkan operasional dengan lingkungan pendukung keputusan. Tujuannya adalah untuk mendirikan sebuah tempat penyimpanan data yang membuat data operasional dapat diakses. Gudang data juga melakukan transformasi dari data operasional kedalam bentuk relasional, akan tetapi tidak seluruh data yang ditransformasikan hanya data yang dibutuhkan untuk pengambilan keputusan saja. Dalam sebuah organisasi dimungkinkan untuk membuat gudang data lebih dari satu. Gudang data merupakan salah satu solusi untuk masalah akses data.

ARSITEKTUR DATA WAREHOUSE


Setiap hari organisasi melakukan kegiatan dan melakukan perubahan terhadap basis data operasional. Data dari basis data operasioanl dan sumber data eksternal lainnya disimpulkan dengan menggunakan gateway atau standar eksternal penghubung yang lain yang mendukung DBMS seperti Open Database Connectivity (ODBC). ODBC adalah program aplikasi yang menghubungkan antara program client untuk menghasilkan pernyataan SQL agar dapat dilakukan eksekusi oleh server.

Extract, Transform, dan Load (ETL)

Untuk melakukan data warehousing maka diperlukan utilitas yang dirancang khusus untuk hal tersebut. Utilitas tersebut harus memiliki kemampuan :
  1. Membaca dari dan mengirim data ke berbagai sumber (file teks, excel,database relational, dan sebagainya) 
  2. Mampu meyesuaikan / transformasi data
  3. Memiliki informasi metadata pada setiap perjalanan transformasi.
  4. Memiliki audit log yang baik.
  5. Dapat ditingkatkan performanya dengan scale up dan scale out.
  6. Mudah diimplementasikan
Secara singkat proses tersebut dibagi dalam 3 proses besar yaitu Extract (mengambil), Transform (transformasi), dan Load (menyimpan) atau disingkat ETL dapat dilihat pada gambar berikut:
KARAKTERISTIK DATA WAREHOUSE
  • Subject Orientation : Data diorganisir sesuai dengan kebutuhan user
  • Integrated : Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi. Data harus “clean”.
  • Nonvolatile : Data hanya dapat dibaca, tidak dapat diubah oleh user
  • Time-series : Data dalam rangkaian waktu, bukan hanya status saat ini.
  • Summarized  : Data operasioanl dikumpulkan (diringkas), untuk mendukung keputusan.
  • Larger : Memelihara data dari waktu ke waktu selama diperlukan
  • Not Normalized : Data dapat redundant.
  • Metadata : Data mengenai data untuk user dan personil gudang data.
  • Input : Data operasioanal ditambah data eksternal yang dibutuhkan.

Tidak ada komentar:

Posting Komentar