Big Data dan Big Compute di Microsoft Azure
1. HDInsight (Hadoop)Selama bertahun-tahun, sebagian besar analisis data telah dilakukan pada data relasional yang disimpan di gudang data yang dibangun dengan DBMS relasional. Jenis analitik bisnis ini masih penting, dan akan lama sekali. Tetapi bagaimana jika data yang ingin Anda analisis begitu besar sehingga basis data relasional tidak dapat mengatasinya? Dan misalkan data tersebut tidak berhubungan? Mungkin server log di pusat data, misalnya, atau data peristiwa historis dari sensor, atau sesuatu yang lain. Dalam kasus seperti ini, Anda memiliki apa yang dikenal sebagai masalah data besar. Anda perlu pendekatan lain.
Teknologi dominan hari ini untuk menganalisis data besar adalah Hadoop. Sebuah proyek open source Apache, teknologi ini menyimpan data menggunakan Hadoop Distributed File System (HDFS), kemudian memungkinkan pengembang membuat pekerjaan MapReduce untuk menganalisa data tersebut. HDFS menyebar data di beberapa server, kemudian menjalankan chunks dari pekerjaan MapReduce pada masing-masing, membiarkan data besar diproses secara paralel.
HDInsight adalah nama layanan berbasis Apache Hadoop Azure. HDInsight memungkinkan penyimpanan data HDFS di kluster dan mendistribusikannya ke beberapa VM. Ini juga menyebarkan logika pekerjaan MapReduce di semua VM tersebut. Sama seperti dengan lokal Hadoop, data diproses secara lokal-logika dan data yang bekerja pada berada di VM yang sama dan secara paralel untuk kinerja yang lebih baik. HDInsight juga dapat menyimpan data di Azure Storage Vault (ASV), yang menggunakan gumpalan. Menggunakan ASV memungkinkan Anda untuk menghemat uang karena Anda dapat menghapus kluster HDInsight Anda saat tidak digunakan, tetapi tetap menyimpan data Anda di cloud.
HDinsight mendukung komponen lain dari ekosistem Hadoop juga, termasuk Hive dan Babi. Microsoft juga telah membuat komponen yang memudahkan bekerja dengan data yang dihasilkan oleh HDInsight menggunakan alat BI tradisional, seperti adaptor HiveODBC dan Data Explorer yang bekerja dengan Excel.
2. Komputasi Performa Tinggi (Big Compute)
Salah satu cara paling menarik untuk menggunakan platform cloud adalah menjalankan komputasi kinerja tinggi (HPC) dan aplikasi "Big Compute" lainnya. Contohnya termasuk aplikasi rekayasa khusus yang dibuat untuk menggunakan Message Passing Interface (MPI) standar industri serta aplikasi paralel yang memalukan, model risiko keuangan semacam itu.
Inti dari Big Compute adalah menjalankan kode pada banyak mesin pada saat yang bersamaan. Pada Azure, ini berarti menjalankan banyak mesin virtual secara bersamaan, semua bekerja secara paralel untuk menyelesaikan beberapa masalah. Melakukan ini memerlukan beberapa cara untuk sumber daya dan menjadwalkan aplikasi, yaitu, untuk mendistribusikan pekerjaan mereka di seluruh instance ini. Microsoft HPC Pack gratis dan solusi komputasi grup lainnya dapat berkinerja baik di Azure, memanfaatkan layanan komputasi dan infrastruktur Azure untuk menambah kapasitas sesuai permintaan ke kluster komputasi di tempat atau menjalankan aplikasi Hitung Besar sepenuhnya di cloud.
Azure menyediakan berbagai ukuran instance VM dengan konfigurasi yang berbeda dari inti CPU, memori, kapasitas disk, dan karakteristik lainnya untuk memenuhi persyaratan aplikasi yang berbeda. Contoh-contoh A8 dan A9 yang baru-baru ini bekerja dengan baik untuk banyak beban kerja intensif, dan aplikasi MPI paralel, khususnya, karena mereka memiliki CPU berkecepatan tinggi, multicore, dan memori dalam jumlah besar. Dalam konfigurasi tertentu, instance mengambil keuntungan dari jaringan aplikasi low-latency dan high-throughput di cloud yang mencakup teknologi remote direct memory access (RDMA) untuk efisiensi maksimum aplikasi MPI paralel.
Azure juga menawarkan pengembang aplikasi Compute Besar dan mitra satu set lengkap kemampuan menghitung, layanan, pilihan arsitektur, dan alat pengembangan. Azure mendukung alur kerja Compute Besar khusus yang melibatkan alur kerja data khusus dan pola penjadwalan pekerjaan dan tugas yang dapat menskalakan ribuan core komputasi.
HDinsight mendukung komponen lain dari ekosistem Hadoop juga, termasuk Hive dan Babi. Microsoft juga telah membuat komponen yang memudahkan bekerja dengan data yang dihasilkan oleh HDInsight menggunakan alat BI tradisional, seperti adaptor HiveODBC dan Data Explorer yang bekerja dengan Excel.
2. Komputasi Performa Tinggi (Big Compute)
Salah satu cara paling menarik untuk menggunakan platform cloud adalah menjalankan komputasi kinerja tinggi (HPC) dan aplikasi "Big Compute" lainnya. Contohnya termasuk aplikasi rekayasa khusus yang dibuat untuk menggunakan Message Passing Interface (MPI) standar industri serta aplikasi paralel yang memalukan, model risiko keuangan semacam itu.
Inti dari Big Compute adalah menjalankan kode pada banyak mesin pada saat yang bersamaan. Pada Azure, ini berarti menjalankan banyak mesin virtual secara bersamaan, semua bekerja secara paralel untuk menyelesaikan beberapa masalah. Melakukan ini memerlukan beberapa cara untuk sumber daya dan menjadwalkan aplikasi, yaitu, untuk mendistribusikan pekerjaan mereka di seluruh instance ini. Microsoft HPC Pack gratis dan solusi komputasi grup lainnya dapat berkinerja baik di Azure, memanfaatkan layanan komputasi dan infrastruktur Azure untuk menambah kapasitas sesuai permintaan ke kluster komputasi di tempat atau menjalankan aplikasi Hitung Besar sepenuhnya di cloud.
Azure menyediakan berbagai ukuran instance VM dengan konfigurasi yang berbeda dari inti CPU, memori, kapasitas disk, dan karakteristik lainnya untuk memenuhi persyaratan aplikasi yang berbeda. Contoh-contoh A8 dan A9 yang baru-baru ini bekerja dengan baik untuk banyak beban kerja intensif, dan aplikasi MPI paralel, khususnya, karena mereka memiliki CPU berkecepatan tinggi, multicore, dan memori dalam jumlah besar. Dalam konfigurasi tertentu, instance mengambil keuntungan dari jaringan aplikasi low-latency dan high-throughput di cloud yang mencakup teknologi remote direct memory access (RDMA) untuk efisiensi maksimum aplikasi MPI paralel.
Azure juga menawarkan pengembang aplikasi Compute Besar dan mitra satu set lengkap kemampuan menghitung, layanan, pilihan arsitektur, dan alat pengembangan. Azure mendukung alur kerja Compute Besar khusus yang melibatkan alur kerja data khusus dan pola penjadwalan pekerjaan dan tugas yang dapat menskalakan ribuan core komputasi.