23 pro dan kontra dari Amazon Redshift

Amazon Redshift adalah layanan penyimpanan data berskala petabyte yang terletak di cloud yang dikelola sepenuhnya untuk Anda. Mereka menawarkan Anda kesempatan untuk memulai dengan beberapa ratus gigabyte data dan kemudian ditingkatkan sesuai kebutuhan untuk bisnis Anda. Struktur ini memungkinkan Anda memperoleh wawasan baru melalui perolehan data tentang pelanggan Anda, peluang bisnis, dan kebutuhan sehari-hari lainnya.

Mulailah dengan peluang ini dengan meluncurkan satu set node. Ini dikenal sebagai “cluster Amazon Redshift.” Setelah Anda menyediakan cluster, data Anda dapat diunggah. Dari sana, Anda dapat menjalankan kueri analitik pada paket informasi Anda. Ini menggunakan alat berbasis SQL yang sama yang digunakan sebagian besar perusahaan untuk kebutuhan internal, membuat akses ke data Anda lebih cepat dan lebih aman karena Anda tidak perlu menghostingnya di lokasi fisik Anda.

Pada saat penulisan, Amazon menawarkan kepada semua pengguna Redshift baru uji coba 2 bulan gratis dari layanan pergudangan data ini untuk melihat apakah itu memenuhi kebutuhan mereka. Jika Anda memulai dari yang kecil, harga setelah uji coba gratis dimulai dari hanya $0,25 per jam, turun menjadi hanya $250 per tahun untuk setiap terabyte yang Anda simpan. Itu membuatnya sekitar 10% dari biaya solusi serupa.

Jika Anda mencari solusi pergudangan data yang cepat dan skalabel hari ini, berikut adalah pro dan kontra dari Amazon Redshift untuk dipertimbangkan.

Daftar manfaat Amazon Redshift

1. Ini adalah salah satu solusi tercepat dari jenisnya yang tersedia saat ini.

Dalam hal mengunggah data Anda atau menanyakannya untuk tujuan analitis atau pelaporan, ada lebih sedikit pesaing yang dapat menandingi apa yang ditawarkan Redshift. Ini menggunakan arsitektur MPP (Massively Parallel Processing) untuk memuat data Anda dengan kecepatan yang tidak akan Anda percaya. Ini juga akan memparalelkan dan mendistribusikan kueri Anda di beberapa catatan untuk akses cepat saat dibutuhkan. Anda juga memiliki opsi dengan layanan ini untuk menggunakan penyimpanan data berbasis SSD, sehingga memungkinkan untuk menjalankan kueri yang kompleks tanpa komitmen waktu yang besar.

2. Dapatkan solusi gudang berkinerja tinggi.

Desain Redshift memungkinkan Anda memanfaatkan paralelisasi dalam operasi pencadangan dan pemulihan, selain persyaratan beban data yang Anda miliki. Struktur ini memberi Anda tingkat kompresi data yang efisien, memungkinkan Anda untuk sepenuhnya mengoptimalkan kueri dan distribusi Anda, tidak peduli berapa banyak data yang Anda simpan. Manfaat ini dimungkinkan oleh database penyimpanan kolom yang ditawarkan kepada Anda, dioptimalkan untuk data berulang. Operasi I / O berkurang pada disk, yang meningkatkan kinerjanya sebagai hasilnya.

3. Menerima akses ke proses pembelajaran mesin.

Redshift menggunakan pembelajaran mesin untuk memastikan Anda menerima hasil maksimal berdasarkan beban kerja yang Anda miliki. Ini dilakukan dengan menggunakan algoritme canggih yang memprediksi waktu eksekusi kueri yang masuk. Kemudian Anda menetapkannya ke antrean apa pun yang mengoptimalkan kecepatan pemrosesan untuk Anda. Itu berarti laporan atau kueri dasbor Anda melewati antrean cepat alih-alih struktur perutean standar, mengoptimalkan kecepatan pemrosesan untuk memberikan hasil langsung.

4. Menawarkan hasil caching.

Redshift juga menggunakan cache hasil untuk memberikan waktu respons kurang dari satu detik setiap kali ada kueri berulang. Alat dan dasbor intelijen bisnis yang divisualisasikan yang menjalankan kueri berulang akan menerima peningkatan kinerja yang signifikan karena struktur ini. Mencari cache untuk menentukan apakah proses sebelumnya membuat hasil cache. Jika ada dan data tidak berubah, Anda akan melihat hasil yang di-cache alih-alih menjalankan ulang kueri.

5. Anda akan menemukan bahwa penerapannya sangat mudah.

Amazon Redshift adalah salah satu solusi pergudangan data termudah yang tersedia saat ini untuk mengonfigurasi dan mengoperasikan dari perspektif bisnis. Yang perlu Anda lakukan adalah masuk ke konsol AWS Anda dan kemudian ikuti perintah yang ada untuk menerapkan gudang data baru Anda. Ini akan secara otomatis menyediakan infrastruktur Anda pada saat itu. Banyak tugas administratif juga otomatis, termasuk replikasi dan pencadangan, yang berarti Anda dapat fokus pada data Anda alih-alih mengelolanya. Anda juga dapat melakukan penyesuaian agar sesuai dengan beban kerja tertentu.

6. Terintegrasi dengan alat pihak ketiga.

Anda dapat memilih untuk meningkatkan interaksi Anda dengan Redshift dengan bekerja dengan daftar ekstensif vendor pihak ketiga yang membantu mengubah dan memvisualisasikan data Anda. Ada mitra intelijen bisnis, pakar integrasi data, konsultasi dan bantuan integrasi sistem, serta peluang permintaan dan pemodelan data, semuanya dengan solusi bersertifikat yang dijamin bekerja dengan Amazon.

7. Anda akan menemukan bahwa itu adalah solusi yang menguntungkan untuk bisnis Anda.

Jika Anda ingin memulai dari yang kecil, Anda dapat memanfaatkan tarif tanpa kewajiban $0,25 per jam. Redshift adalah satu-satunya penyedia dari jenisnya yang menawarkan harga sesuai permintaan tanpa biaya di muka. Namun, jika Anda berkomitmen untuk jangka waktu 3 tahun, Anda dapat menghemat hingga 75% untuk kebutuhan penyimpanan data berbasis cloud Anda. Tarif per jam Anda didasarkan pada jumlah dan jenis node di cluster Anda. Bahkan dengan penyimpanan yang padat, biaya maksimum untuk produk generasi saat ini adalah sekitar $ 7 per jam.

8. Anda dapat memilih jenis simpul saat bekerja dengan Amazon Redshift.

Ada dua jenis node yang tersedia untuk mengoptimalkan kebutuhan penyimpanan data Anda jika Anda memilih Amazon Redshift. Opsi pertama, yang disebut Dense Compute, memungkinkan Anda membuat solusi berkinerja tinggi untuk CPU cepat, solid-state drive, dan memori dalam jumlah besar. Anda dapat menskalakan lebih jauh untuk menggunakan node Penyimpanan Padat yang menawarkan hard disk drive (HDD) yang lebih besar dengan harga lebih murah. Jika Anda ingin beralih di antara node atau menskalakan kluster Anda, satu panggilan API atau beberapa klik dari konsol Anda cukup untuk menyelesaikan pekerjaan.

9. Berikan cadangan data Anda secara konsisten.

Amazon Redshift menawarkan pencadangan data dan file Anda secara konsisten. Itu juga memulihkan mereka ketika kegagalan atau kerusakan mungkin terjadi. Subtugas yang tersedia untuk Anda di area ini mencakup bantuan pemulihan data yang berkelanjutan dan otomatis, bahkan jika drive atau node gagal. Mereka membantu dengan cadangan pemulihan bencana untuk membatasi jumlah kehilangan data yang Anda alami. Memulihkan data juga terjadi dari berbagai wilayah, bergantung pada cara Anda menyiapkan akun. Manfaat ini berlaku bahkan jika Anda melampaui perabyte pertama yang Anda simpan di cloud dengan layanan ini.

10. Terima enkripsi ujung ke ujung dengan Amazon Redshift.

Yang perlu Anda lakukan adalah mengonfigurasi properti pengaturan parameter Anda untuk menggunakan SSL guna meningkatkan keamanan data saat transit. Sistem penyimpanan data ini juga menggunakan enkripsi akselerasi perangkat keras AES-256 untuk data Anda saat dalam keadaan diam. Saat Anda memilih enkripsi untuk data Anda saat istirahat, semua yang ditulis ke disk, termasuk cadangan apa pun yang Anda miliki, menerima manfaat enkripsi ini. Redshift menangani manajemen kunci secara default.

11. Menawarkan isolasi jaringan.

Memilih Amazon Redshift memberi Anda keuntungan mengonfigurasi aturan firewall untuk mengontrol akses jaringan ke klaster yang membentuk penyimpanan data Anda. Anda dapat menjalankan Redshift dalam Amazon VPC untuk mengisolasi klaster Anda melalui jaringan virtual Anda sendiri. Anda kemudian dapat menghubungkan ini ke infrastruktur TI yang ada jika Anda ingin menggunakan VPN IPsec terenkripsi untuk memaksimalkan akses berkelanjutan ke data.

12. Anda dapat mengaudit semua panggilan API Anda melalui Redshift.

Karena Amazon Redshift terintegrasi dengan CloudTrail, Anda dapat mengaudit semua panggilan API yang dilakukan melalui sistem. Merekam semua operasi SQL Anda, termasuk kueri, perubahan database, dan upaya koneksi. Anda kemudian dapat mengakses informasi menggunakan kueri SQL terhadap tabel sistem atau memilih untuk mengunduhnya ke Amazon S3 di lokasi yang aman. Sistem mematuhi SOC1, SOC2 dan SOC3. Ini juga memenuhi persyaratan PCI DSS Level 1.

13. Terintegrasi secara native dengan ekosistem analitik AWS.

Saat Anda memilih Amazon Redshift untuk kebutuhan pergudangan data Anda, Anda akan menemukan bahwa Amazon Redshift sepenuhnya terintegrasi dengan ekosistem analitik AWS.

• Anda dapat menggunakan AWS Glue untuk mengekstrak, mengubah, dan memuat data ke dalam Redshift.

• Tangkap, ubah, dan unggah data streaming ke Redshift menggunakan Amazon Kinesis Data Firehose untuk analitik hampir real-time.

• Buat dasbor, visualisasi, dan laporan melalui Amazon QuickSight.

Anda bahkan dapat menggunakan Layanan Migrasi Database AWS jika ingin meningkatkan kecepatan transfer data ke Redshift dengan uji coba gratis layanan DMS selama 6 bulan.

14. Anda memiliki akses ke sejumlah besar materi pelatihan untuk Amazon Redshift.

Jika Anda mengakses halaman dokumen Amazon Redshift, Anda akan menemukan berbagai sumber daya yang tersedia untuk Anda sebagai pengguna baru. Ada gambaran lengkap tentang bagaimana mengelola sistem ketika Anda memiliki kebutuhan penyimpanan data. Anda memiliki akses ke panduan “memulai” yang memandu Anda melalui semua langkah yang diperlukan untuk membuat cluster, tabel database, dan kueri pengujian. Panduan administrasi cluster akan menunjukkan kepada Anda cara mengelola cluster dengan benar, sementara panduan pengembang database memberikan penjelasan tentang cara membangun, mendesain, membuat kueri, dan memelihara informasi yang membentuk fondasi gudang data Anda.

Daftar Kekurangan Amazon Redshift

1. Ini mengharuskan Anda untuk menegakkan keunikan di pihak Anda.

Saat ini, tidak ada kerangka kerja yang tersedia pada saat penulisan yang memungkinkan Amazon Redshift membantu Anda menjaga integritas data dengan menggunakan indeks unik. Anda bertanggung jawab atas struktur ini di akhir proses penyimpanan data. Itu berarti tidak ada pemeriksaan nilai dalam ekspresi atau kolom Anda untuk menentukan apakah kunci indeks telah disusupi dengan cara apa pun.

Batasan “verifikasi” dan “unik” tidak didukung karena struktur ini. Itu berarti tidak dapat dideklarasikan, yang menciptakan beberapa batasan bagi beberapa lembaga.

2. Hanya didukung untuk pemuatan paralel dengan data tertentu.

Unggahan paralel didukung untuk DynamoDB, SE, dan Amazon EMR saat Anda memilih Redshift sebagai solusi penyimpanan data berbasis cloud Anda. Struktur ini menggunakan MPP yang memberi Anda kecepatan tinggi yang diperlukan untuk pertanyaan Anda. Namun, jika Anda memiliki beberapa sumber lain untuk data Anda, fitur ini tidak didukung sama sekali. Anda harus menggunakan sisipan atau skrip JDBC untuk memuat data ke Redshift. Pilihan Anda yang lain adalah menggunakan solusi ETL yang memuat data Anda ke dalam gudang dari sumber yang berbeda.

3. Anda harus memahami kunci distribusi dan klasifikasi.

Kunci distribusi dan pengurutan akan menentukan bagaimana data Anda diindeks dan disimpan saat Anda memilih Redshift untuk kebutuhan pergudangan data Anda. Proses ini berlaku untuk semua node. Itu berarti Anda harus memiliki pemahaman yang kuat tentang konsep di balik kunci ini, termasuk pengetahuan tentang cara mengonfigurasinya dengan benar di tabel Anda untuk menciptakan kinerja optimal yang Anda inginkan melalui solusi ini.

Hanya ada satu kunci distribusi untuk setiap tabel. Anda tidak dapat mengubahnya nanti, yang berarti Anda harus mengantisipasi beban kerja di masa mendatang sebelum mengambil keputusan. Kunci utama juga dapat dideklarasikan, tetapi tidak diterapkan.

4. Tidak berfungsi sebagai database aplikasi langsung.

Anda akan menemukan bahwa Amazon Redshift melakukan pekerjaan yang sangat baik dalam menjalankan kueri dengan sejumlah besar data, menjalankan laporan, menangani analitik, dan sejenisnya, tetapi itu masih bukan solusi jika Anda mencoba menjalankan aplikasi web langsung. Anda harus memasukkan data ke dalam lapisan caching atau memilih instance Postgres, jika Anda menyajikan data dari Redshift ke aplikasi web apa pun.

Selama kesempatan pelatihan Redshift, Lars Kamp mensurvei peserta tentang masalah yang mereka alami dengan solusi ini. 91% melaporkan bahwa pertanyaan mereka terlalu lambat. 64% mengatakan papan mereka juga lambat. 55% mengatakan sulit untuk memahami apa yang terjadi dengan database. Butuh waktu untuk menemukan solusi untuk masalah ini untuk membuat Redshift menjadi alat yang ampuh.

5. Anda memasukkan data Anda ke dalam sistem berbasis cloud.

Ada keuntungan dan kerugian unik yang perlu dipertimbangkan saat menjalankan sistem berbasis cloud. Meskipun meminta pihak ketiga mengelola data Anda di luar situs dapat meningkatkan masalah keamanan fisik, Anda juga menyerahkan keamanan data Anda ke tangan orang lain.

Beberapa perusahaan mungkin memiliki masalah privasi saat menggunakan Redshift karena nilai kekayaan intelektualnya. Anda juga harus memikirkan masalah koneksi, karena kurangnya akses ke ISP membatasi kemampuan Anda untuk mengakses layanan ini. Ada juga kemungkinan padam, yang berarti bahwa kegagalan apa pun akan dipublikasikan.

6. Anda sedikit ketinggalan dengan pengaturan Postgre Anda.

Kerangka kerja Amazon Redshift didasarkan pada PostgreSQL 8.0.2. Versi itu berusia lebih dari satu dekade saat ini. Ini telah melihat peningkatan yang nyata di beberapa area sejak saat itu, tetapi fitur ini saat ini tidak tersedia jika Anda memilih solusi penyimpanan data ini. Anda akan menemukan bahwa banyak fitur dasar yang Anda harapkan dengan SQL yang diperbarui tidak tersedia melalui sistem ini.

7. Anda harus mengelola biaya integrasi dan migrasi data.

Karena Anda bekerja dengan solusi pergudangan data tingkat perabyte, bandwidth yang Anda perlukan untuk mengirimkan data ini harus dipertimbangkan selama fase awal proyek ini. Sistem internal Anda harus mengirimkan informasi ke sistem Redshift berbasis cloud atau mengirimkannya melalui drive USB ke AWS dari pengirim pilihan Anda. Jika Anda adalah bisnis kecil yang masih beroperasi dengan penggunaan data terbatas, Anda mungkin tidak dapat mengirimkan semua data Anda untuk penyimpanan.

8. Tidak ada prosedur tersimpan yang tersedia untuk Anda di Amazon Redshift.

Saat Anda memutuskan untuk menggunakan Redshift untuk kebutuhan pergudangan data Anda, Anda perlu mengurai dan menjalankan file skrip SQL Anda satu per satu. Itu karena tidak ada prosedur tersimpan yang tersedia untuk Anda. Ini memeriksa dan menghitung baris yang terpengaruh, lalu menjalankan kueri gabungan yang kompleks terhadap beberapa tampilan atau tabel di sistem Anda untuk menghasilkan hasil yang diperlukan. Kecuali Anda terbiasa dengan sistem manajemen basis data, kurva pembelajaran untuk proses ini akan cukup tinggi untuk rata-rata orang.

9. Tingkat kinerja mereka menurun seiring dengan bertambahnya kelompok.

Jika Anda ingin mencapai hasil yang konsisten saat menggunakan Amazon Redshift, maka Anda harus menjaga klaster Anda di bawah 75% untuk hasil terbaik. Jika Anda membiarkan kluster menjadi kelebihan beban dengan beberapa kueri, maka Anda juga akan mulai mengalami masalah kinerja. Lakukan yang terbaik untuk membatasi diri Anda hingga 10 kueri serentak atau kurang saat bekerja dengan solusi pergudangan data ini. Anda harus menjalankan pemeliharaan atau beban berat selama periode tenang, yang mungkin berada di luar kerangka waktu yang Anda bayangkan untuk proses ini.

Jika Anda mencari solusi penyimpanan data yang terjangkau dan efisien, penting untuk meninjau pro dan kontra Amazon Redshift. Ada beberapa batasan dengan layanan ini, tetapi Anda juga akan menemukan bahwa ini adalah tahun cahaya di depan beberapa pesaing, seperti Snowflake. Perlu beberapa waktu untuk mempelajarinya, terutama jika Anda memerlukan skrip khusus untuk akses data waktu nyata, meskipun sebagian besar agensi yang menggunakan layanan ini menemukan bahwa akurasi, konsistensi, dan skalabilitasnya persis seperti yang mereka butuhkan untuk mencapai kesuksesan yang lebih besar.