Berita Nasional Terpercaya

Menguasai GNU R System untuk Bertahan dan Bersaing di Era Big Data (3)

0

HIDUP di jaman internet ini, membuat kita menemui banyak istilah. Saat ini beredar, antara lain (1) bigdata, (2) data mining, (3) machine learning, (4) deep learning, (5) statistics dan sebagainya. Mari kita telaah satu per satu untuk mengetahui saling keterkaitannya. Kita mulai dengan ?bigdata? karena ini sesungguhnya yang dihadapi dengan baik. Kita memasuki era bigdata, kita harus mengetahui untuk dapat menangani dengan baik dan menang di era ini.

Bigdata

Era kini adalah era bigdata. Apa itu? Sebagai ringkasan agar selalu diingat, bigdata adalah perusahaan harus mengolah data berukuran raksasa (sangat amat besar) dimana orang per orang di perusahaan harus mengolah data berukuran besar. Untuk bersaing bahkan bertahan orang harus mampu mengolah data berukuran besar saat bekerja.

Bigdata, bisa diterjemahkan ?data raksasa?. Kita memasuki era bigdata, yaitu volume data yang harus dihadapi sangat besar. Istilah bigdata dimunculkan oleh Doug Laney pada tahun 2000 an. Ciri (properti) utama bigdata biasa disingkat 3V, yaitu volume, velocity, variety.

Volume, perusahaan harus mengolah data yang berasal dari transaksi perusahaan dari transaksi bisnis manual dan machine-to-machine data, data sensor-sensor yang sangat besar karena otomatis, serta data yang berasal dari luar perusahaan seperti koran online, social media, pemerintah, dan sebagainya.

Dua teknologi penting untuk ini yaitu pertama adalah teknologi penyimpanan dan kedua adalah teknologi pengolahan (analisis) data.

Teknologi penyimpanan untuk bigdata adalah Hadoop, satu sistem free, alias tanpa bayar yang disediakan oleh Apache. Dengan Hadoop ini maka komputer-komputer dan harddisk-harddisk pada umumnya dapat digunakan untuk secara bersama menyimpan data berukuran raksasa, tidak memerlukan perangkat keras khusus. Perlu diketahui, bahwa teknologi Hadoop adalah meniru yang telah ada di Google. Pada dasarnya, Google adalah perusahaan teknologi yang sangat maju, mendahului perusahaan lainnya.

Teknologi pengolahan (analisis) data yang penting untuk mengolah (analisis) data berukuran raksasa untuk perusahaan dan data berukuran besar untuk perorangan banyak dikembangkan, antara lain adalah GNU R System.

Karakteristik kedua dari bigdata adalah velocity. Kecepatan data dihasilkan oleh manusia ini meningkat. Jadi selain data berukuran besar, data datang sangat lebih cepat, bahkan waktu nyata (real time). Dengan demikian, analisis data harus dilakukan secara cepat, atau bersamaan. GNU R System pun mampu melakukan hal ini.

Variety adalah karakteristik ketiga bigdata, ada sangat beragam jenis data mulai data numerik, data karakter, teks, dokumen, audio, video, transaksi keuangan, data dari sensor-sensor, dan sebagainya.

Data Mining

Keberadaan data raksasa di perusahaan, yang kemudian memberikan beban data berukuran besar yang harus diolah orang per orang di perusahaan itu. Keberagaman jenis data pun memberikan sumbangan rumitnya persoalan yang harus dihadapi perusahaan dan orang per orang di perusahaan itu.

Perusahaan dan orang per orang di perusahaan itu harus melakukan data mining (penambangan data).

Machine Learning

Machine learning adalah teknologi dimana perangkat lunak mempelajari data untuk menghasilkan model, dimana model itu kemudian untuk mengolah data secara otomatis. Saat ini terdapat ratusan algoritma machine learning untuk berbagai tujuan atau maksud. Tidak ada satu algoritma machine learning yang ampuh untuk semua jenis persoalan. Data mining menggunakan algoritma-algoritma machine learning untuk menambang data, untuk memperoleh model dimana model berarti pola atau pengetahuan, atau wawasan (insights) yang dapat digunakan untuk mengolah data baru sehingga menghasilkan nilai yang besar untuk perusahaan.

Ada sangat banyak algoritma machine learning, yang dapat dikelompokkan menjadi:

  1. Supervised learning.
  2. Unsupervised learning.
  3. Reinforcement learning.
  4. Deep learning.

Kita belum merinci masing-masing jenis machine learning tersebut, baru mendaftarkan untuk sekedar mengetahui keluasan yang ada.

Supervised learning, terbagi menjadi dua kelas utama klasifikasi (classification) dan regresi (regression). Ragam algoritma supervised learning antara lain:

  1. Decision tree technique.
  2. Naive Bayes classifier tehnique.
  3. Artificial neural network technique.
  4. Support vector machine technique.
  5. Linear regression technique.
  6. Logistic regressin technique.
  7. CART technique.
  8. K-nearest neighbors technique.
  9. Dan sebagainya.

Unsupervised learning terbagi menjadi association, clustering, dan dimensional reduction. Ragam algoritma unsupervised learning, antara lain:

  1. K-Means technique.
  2. Hierarchical clustering technique.
  3. DBSCAN technique.
  4. Fuzzy C-means technique.
  5. Self-organizing map technique.
  6. Dan sebagainya.

Reinforcement learning antara lain

  1. Genetic algorithm technique.
  2. Dynamic programming technique.
  3. Generalized policy interaction technique.
  4. Monte Carlo technique.

Deep learning antara lain

  1. Convolutional networks.
  2. Restricted Boltzman machine (RBM)
  3. Deep belief network (DBN)
  4. Stacked autoencoders.

Deep learning

Deep learning hanya salah satu dari kelompok algoritma machine learning. Deep learning adalah temuan terbaru manusia dalam mengolah/analisis data. Deep learning menyelesaikan banyak hal, namun demikian bukan mengganti algoritma-algorima machine learning lainnya, hanya melengkapi; jadi salah satu pilihan untuk jenis persoalan yang tepat untuknya.

Statistics

Apa hubungan itu semua dengan statistik? Statistik sejak semula menyatakan sebagai bidang ilmu mengolah data atau analisis data. Dalam hal ini, komunitas statistik merasa bahwa data mining dan machine learning adalah perluasan atau satu cabang dari statistik. Saat ini telah diakui bahwa machine learning terutama perpaduan antara bidang ilmu statistik dan ilmu komputer.

GNU R System

Salah satu perkakas atau lingkungan atau sistem yang sangat berharga untuk dikuasai dalam era big data. GNU R System yang semula dibuat untuk analisis data dan grafik data, menjadi sangat penting dikuasai untuk dapat bertahan, bersaing dan maju di era big data ini.

(Dr. Bambang Hariyanto, founder RightWay Data Science, Ketua Umum Ikatan Ahli Informatika Indonesia (IAII), Kepala Pusat Kajian Artificial Intelligence And Data Analytics, Universitas Pancasila)

Leave A Reply

Your email address will not be published.