Senin, 26 Desember 2011

Refleksi Gudang Data

Gudang data adalah sebuah matakuliah yang menarik, dimana dari matakuliah ini kita bisa memahami bahwa Gudang data merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Selain itu gudang data dapat mengekstrak data dari berbagai sumber kemudian data-data tersebut digabungkan menjadi satu sehingga berguna bagi top manager untuk pengambilan keputusan.

Dari matakuliah ini pun kita benar-benar tertantang untuk menyelesaikan project yang diberikan. Walaupun kesulitan nya juga amat besar, tapi gak mematahkan semangat kita. Khususnya buat kelompok ku, good Job deh teman!.. Nah dari sini kita belajar bahwa semangat dan kerja sama sangat penting. Disisi lain, matakuliah ini juga kita belajar hal yang baru, misalnya pembuatan proposal untuk promosi perusahaan, dan sebagainya. 
Pokoknya keren deh.. 

Akhir kata, saya mengucapkan terima kasih kepada Bu Rido selaku pengampu matakuliah ini yang sudah memberikan ilmu berharga dan bersabar menghadapi kami.. hehe.. Pokoknya matakuliah ini menyenangkan banget dech.. 

Merry Christmas 2011 and Happy New Year 2012... 
GBU

Minggu, 23 Oktober 2011

Online Analytical Processing (OLAP) adalah suatu metode khusus untuk melakukan analisis terhadap data yang terdapat di dalam media penyimpanan data (database) dan kemudian membuat laporannya sesuai dengan permintaan user

OLAP digunakan untuk memproses dan menampilkannya dalam bentuk multidimensi. Salah satu cara paling umum yang digunakan dalam menyimpan data pada OLAP adalah dalam basis data multidimensional.
Perbedaan antara basis data relasional dan basis data multidimensional adalah pada basis data relasional, informasi disimpan dalam sejumlah baris dalam tabel, sedangkan basis data multidimensional menyimpan informasi dalam sejumlah array multidimensional.
Informasi yang disimpan dalam sejumlah array multidimensional tersebut, membuat  multidimensional OLAP dapat dengan cepat dan mudah diakses.

                                              
Dalam pergudangan data, sebuah tabel fakta terdiri dari, metrik pengukuran atau fakta dari proses bisnis. Hal ini sering terletak di pusat dari STAR Schema atau Snow Fake Schema yang dikelilingi oleh tabel dimensi.
FACT table biasanya memiliki dua jenis kolom: kolom yang mengandung angka (sering disebut pengukuran), dan yang merupakan kunci asing tabel dimensi. Sebuah tabel fakta mengandung tingkat detail-fakta maupun fakta yang telah dikumpulkan.

Tabel dimensi berisi atribut yang menggambarkan catatan fakta dalam FACT table. Beberapa atribut memberikan informasi deskriptif; sehingga dapat digunakan untuk menentukan bagaimana  data dalam FACT table harus diringkas untuk memberikan informasi yang berguna untuk analis. Tabel dimensi berisi hierarki atribut yang membantu dalam summarization. Sebagai contoh, sebuah dimensi yang berisi informasi produk seringkali akan berisi hirarki yang memisahkan produk ke dalam kategori seperti makanan, minuman, dan barang-barang nonconsumable, dengan masing-masing kategori dibagi lagi beberapa kali sampai produk individual SKU dicapai pada tingkat terendah.

STAR Schema

merupakan skema data warehouse yang paling sederhana. Disebut star-schema karena diagram relasional entitas menyerupai bintang, terdapat titik dari central table. FACT table merupakan titik pusat dan dikelilingi oleh tabel-tabel dimensi.

Keuntungan utama dari STAR Schema yakni :
  • Menyediakan pemetaan langsung dan intuitif antara entitas bisnis yang sedang dianalisa oleh pengguna akhir dan desain skema
  • Memberikan kinerja yang sangat dioptimalkan untuk star query    
 Contoh star schema



   

Snow-Flake Schema 

merupakan schema data warehouse yang kompleks dibanding star schema. Schema ini menormalkan dimensi untuk menghilangkan redundansi. Artinya, dimensi data yang telah dikelompokkan menjadi beberapa tabel. Misalnya, dimensi lokasi tabel dalam star schema  dinormalisasi ke tabel lokasi dan tabel kota dalam suatu snow-flake schema.

Contoh Snow-Flake Schema



Senin, 12 September 2011

Pengantar DataWarehouse

Data Warehouse merupakan gudang penyimpanan data yang historical yang digunakan untuk menyimpan data terintegrasi agar dapat digunakan untuk mendukung pengambilan keputusan.

Menurut Bill Inmon, Data Warehouse adalah koleksi data yang berorientasi subyek (subject-oriented), terintegrasi (integrated), tidak dapat diubah (nonupdateable), memiliki periode waktu tertentu (time variant), untuk informasi yang bersifat historis dan dapat mendukung pengambilan keputusan. 

“A Data Warehouse is a subject-oriented, integrated, time-variant,
non-updateable collection of data used in support of management
decision-making processes and business intelligence “ [PON01].

Secara fisik gudang data memisahkan operasional dengan lingkungan pendukung keputusan. Tujuannya adalah untuk mendirikan sebuah tempat penyimpanan data yang membuat data operasional dapat diakses. Gudang data juga melakukan transformasi dari data operasional kedalam bentuk relasional, akan tetapi tidak seluruh data yang ditransformasikan hanya data yang dibutuhkan untuk pengambilan keputusan saja. Dalam sebuah organisasi dimungkinkan untuk membuat gudang data lebih dari satu. Gudang data merupakan salah satu solusi untuk masalah akses data.

ARSITEKTUR DATA WAREHOUSE


Setiap hari organisasi melakukan kegiatan dan melakukan perubahan terhadap basis data operasional. Data dari basis data operasioanl dan sumber data eksternal lainnya disimpulkan dengan menggunakan gateway atau standar eksternal penghubung yang lain yang mendukung DBMS seperti Open Database Connectivity (ODBC). ODBC adalah program aplikasi yang menghubungkan antara program client untuk menghasilkan pernyataan SQL agar dapat dilakukan eksekusi oleh server.

Extract, Transform, dan Load (ETL)

Untuk melakukan data warehousing maka diperlukan utilitas yang dirancang khusus untuk hal tersebut. Utilitas tersebut harus memiliki kemampuan :
  1. Membaca dari dan mengirim data ke berbagai sumber (file teks, excel,database relational, dan sebagainya) 
  2. Mampu meyesuaikan / transformasi data
  3. Memiliki informasi metadata pada setiap perjalanan transformasi.
  4. Memiliki audit log yang baik.
  5. Dapat ditingkatkan performanya dengan scale up dan scale out.
  6. Mudah diimplementasikan
Secara singkat proses tersebut dibagi dalam 3 proses besar yaitu Extract (mengambil), Transform (transformasi), dan Load (menyimpan) atau disingkat ETL dapat dilihat pada gambar berikut:
KARAKTERISTIK DATA WAREHOUSE
  • Subject Orientation : Data diorganisir sesuai dengan kebutuhan user
  • Integrated : Menghilangkan kerancuan dalam hal penamaan dan kekacauan informasi. Data harus “clean”.
  • Nonvolatile : Data hanya dapat dibaca, tidak dapat diubah oleh user
  • Time-series : Data dalam rangkaian waktu, bukan hanya status saat ini.
  • Summarized  : Data operasioanl dikumpulkan (diringkas), untuk mendukung keputusan.
  • Larger : Memelihara data dari waktu ke waktu selama diperlukan
  • Not Normalized : Data dapat redundant.
  • Metadata : Data mengenai data untuk user dan personil gudang data.
  • Input : Data operasioanal ditambah data eksternal yang dibutuhkan.