Jurnal Komputasi Modern (KOMPUTASI PEMBOBOTAN DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN MAPREDUCE)

March 21, 2013 41215c4l177

1. Pendahuluan

Menurut penelitian yang dilakukan oleh Gantz et al estimasi data elektronik mencapai 0,18 zettabyte pada tahun 2006 dan diramalkan akan mencapai 1,8 zettabyte pada tahun 2011, data elektronik yang besar tersebut perlu diolah untuk memperoleh manfaat lebih. Adakalanya aplikasi yang dibuat membutuhkan komputer dengan sumber daya yang tinggi sebagai lingkungan implementasi dan biasanya harga untuk komputer dengan sumber daya yang tinggi tidaklah murah sedangkan untuk komputer dengan spesifikasi yang tidak terlalu tinggi akan kurang reliable dalam menangani data yang begitu besar. Untuk melakukan komputasi dengan data yang sangat besar, Google memberikan suatu metode yang dinamakan MapReduce. MapReduce melakukan komputasi dengan membagi beban komputasi dan diproses secara parallel atau bersama-sama. Terinspirasi oleh adanya Google File System (GFS) dan MapReduce yang dikembangkan oleh Google maka Apache mengembangkan Hadoop Distributed File System (HDFS) dan Hadoop MaprReduce framework untuk menyelesaikan permasalahan dengan melibatkan data yang sangat besar yang berbasiskan Java dan open source. HDFS dapat diimplementasikan pada perangkat keras dengan spesifikasi yang tidak terlalu tinggi, hal ini sangat menguntungkan dari segi ekonomi karena selain tidak berbayar, untuk distributed computing yang biasanya memerlukan banyak komputer untuk memproses data.

Kelebihan yang ditawarkan oleh HDFS memberikan peluang untuk menyelesaikan permasalahan pengolahan dengan jumlah data yang besar namun dengan spesifikasi perangkat keras yang tidak terlalu tinggi. Permasalahan yang dibahas di sini yaitu untuk melakukan perhitungan pembobotan dokumen web berbahasa Indonesia. Diharapkan dengan menggunakan HDFS dan MapReduce yang dirilis oleh Apache, beban komputasi pembobotan dokumen dapat dibagi ke dalam beberapa komputer.

2. Metodologi

2.1 Pembobotan Dokumen

Pembobotan kemunculan term dalam suatu dokumen digunakan untuk perhitungan tingkat kemiripan antar dokumen. Ada banyak metode yang dapat digunakan dalam menghitung bobot kemunculan term dalam suatu dokumen. Salah satu yang banyak digunakan adalah menggunakan metode pembobotan TF-IDF Weighting.

TF-IDF Weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah vector dengan elemen sebanyak term yang berhasil dikenali pada proses penghilangan stopword dan stemmingVectortersebut beranggotakan bobot dari tiap term yang dihitung berdasarkan metode ini. Metode TD-IDF adalah metode yang mengintegrasikan term frequency (tf), dan inverse document frequency (idf) Formula yang digunakan dalam menghitung bobot berdasarkan metode ini yaitu:

w (t, d ) = tf (t, d ) ∗ log N/nt

Bobot suatu term t dalam suatu dokumen d dilambangkan dengan w(t,d). Frekuensi kemunculan termt dalam dokumen d dilambangkan dengan tf(t,d), Sedangkan banyaknya dokumen yang digunakan dalam uji coba dilambangkan dengan N sementara nt adalah banyaknya dokumen yang mengandung term t.

2.2 MapReduce

 

MapReduce adalah framework software yang diperkenalkan oleh Google dan digunakan untuk mendukung distributed computing yang dijalankan di atas data yang sangat besar dan dijalankan secara simultan dibanyak komputer. Framework ini terinspirasi oleh konsep fungsi map dan reduce yang biasa digunakan di functional programming. MapReduce memungkinkan programmer Google untuk melakukan komputasi yang sederhana dengan menyembunyikan kompleksitas dan detail dari paralelisasi, distribusi data,load balancing dan fault tolerance. MapReduce memiliki dua tahap dalam memproses data yaitu map danreduce. Tahap pertama dari MapReduce disebut mapMap melakukan transformasi setiap data elemen input menjadi data elemen output. Map dapat dicontohkan dengan suatu fungsi toUpper(str) yang akan mengubah setiap huruf kecil (lowercase) menjadi huruf besar (uppercase). Setiap data elemen huruf kecil (lowercase) yang menjadi input dari fungsi ini akan ditransformasi menjadi data output elemen yang berupa huruf besar (uppercase). Map memiliki fungsi yang dipanggil untuk setiap input yang menghasilkan output pasanganintermediate <keyvalue>.

Reduce adalah tahap yang dilakukan setelah mapping selesai. Reduce akan memeriksa semua value input dan mengelompokkannya menjadi satu value outputReduce menghasilkan output pasanganintermediate . Sebelum memasuki tahap reduce, pasangan intermediate <keyvalue> dikelompokkan berdasarkan key, tahap ini dinamakan tahap shuffle.

 

2.3 Hadoop

 

Hadoop adalah framework perangkat lunak berbasis Java dan open source yang berfungsi untuk mengolah data yang sangat besar secara terdistribusi dan berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubung. Hadoop dapat mengolah data dalam jumlah yang sangat besar hingga petabyte dan dijalankan di atas ribuan komputer. Hadoop framework mengatur segala macam proses detail sedangkan pengembang aplikasi hanya perlu fokus pada aplikasi logiknya. Hadoop adalah terdiri dari dua komponen yaitu:

 

1. HDFS (Hadoop Distributed File System) – Data yang terdistribusi.

2. MapReduce – framework dari aplikasi yang terdistribusi

 

2.3.1 Hadoop Distributed File System

 

HDFS adalah distributed filesystem berbasis Java yang menyimpan file dalam jumlah besar dan disimpan secara terdistribusi di dalam banyak komputer yang saling berhubungan.

3. Kesimpulan

 

Pembuatan suatu aplikasi pembobotan term dokumen berbahasa Indonesia menggunakan bahasa pemrograman Java framework Hadoop MapReduce.Dari hasil ujicoba performa, waktu komputasi menggunakan MapReduce lebih cepat dibandingkan waktu komputasi pada komputer stand alone terutama pada Job I dengan selisih waktu hingga 5386.43 detik atau kecepatan komputasi lebih cepat hingga 137,88%.

 

Sumber :

http://digilib.its.ac.id/public/ITS-Undergraduate-14283-paperpdf.pdf

============================================================================================

 

JURNAL KOMPUTASI MODERN

MANAJEMEN JARINGAN LALU LINTAS

Abstraksi :

Tujuan dibuat jurnal in membahas masalah yang berkaitan dengan Manajemen Jaringan Lalu Lintas. Sebuah kategori yang relatif baru dari jaringan manajemen cepat menjadi suatu keharusan dalam bisnis konvergensiJaringan. Organisasi menengah dan besar menemukan mereka harus mengontrol perilaku jaringan lalu lintasuntuk memastikan bahwa strategis mereka aplikasi selalu mendapatkan sumber daya yang mereka butuhkan untuk tampil maksimal. Mengendalikan lalu lintas jaringan memerlukan membatasi bandwidth yang untukaplikasi tertentu, menjamin bandwidth minimum kepada orang lain, dan tanda lalu lintas dengan prioritas tinggi atau rendah. Latihan ini disebut Manajemen Jaringan Lalu Lintas.

Pendahuluan :

Jaringan komputer adalah sebuah komunikasi data sistem yang interkoneksi sistem komputer di berbagai situsyang berbeda. Sebuah jaringan dapat terdiri dari kombinasi dari LAN, atau WAN. Lalu lintas jaringan dapat didefinisikan dalam beberapa cara. Tapi dengan cara sederhana kita dapat mendefinisikan sebagai kepadatandata yang ada di jaringan apapun. Dalam setiap jaringan komputer, ada banyak perangkat komunikasimencoba mengakses sumber daya dan pada saat yang sama mendapatkan permintaan untuk melakukanbeberapa pekerjaan untuk beberapa perangkat lain. Juga pada saat yang sama waktu beberapa jenis perangkat komunikasi mungkin sibuk untuk menanggapi permintaan yang dibuat untuk mereka. Jadi ada banyakpertukaran informasi dalam jaringan dalam bentuk permintaan, respon dan kontrol data. Data ini pada dasarnya adalah dalam bentuk sejumlah besar paket melayang-layang di Jaringan. Ini sejumlah besar data bertindak sebagai beban pada Jaringan, yang menghasilkan memperlambat operasi perangkat komunikasi lainnya. Karena ini ada banyak keterlambatan dalam kegiatan komunikasi. Hal ini pada akhirnya menghasilkan kemacetan dari Jaringan. Ini adalah deskripsi dari Lalu Lintas Jaringan dalam bentuk yang paling sederhana. Dengan kata lain kita dapat mengatakan bahwa lalu lintas jaringan adalah beban pada perangkat komunikasi dan sistem. Ini lalu lintas pada jaringan kini telah mengakibatkan menengah dan organisasi besar menyadari bahwa mereka harus mengontrol perilaku jaringan lalu lintas untuk memastikan bahwa aplikasi strategis merekaselalu mendapatkan sumber daya yang mereka butuhkan untuk melakukan lalu lintas jaringan secara optimalPengendalian membutuhkan bandwidth yang membatasi untuk aplikasi tertentu, menjamin bandwidth minimum kepada orang lain, dan tanda lalu lintas dengan prioritas tinggi atau rendah. Latihan ini disebut manajemen lalu lintas.

Teknik Untuk Mengukur Jaringan Lalu Lintas

Salah satu cara termudah untuk memahami Lalu Lintas Jaringan untuk mempertimbangkan analogi dengan lalu lintas jalan. pertimbangkan bahwa ada keadaan darurat dan seseorang telah jatuh sakit dan harus dilarikan kerumah sakit. Tapi ketika ambulans mencoba untuk membuat jalan melalui jalan kota, ia menemukan jalan benar-benar diblokir dengan mobil n bus. Solusi untuk situasi ini akan untuk seorang polisi lalu lintas untuk masuk dan mengelola lalu lintas. Dia pertama kali akan mengukur lalu lintas, dan kemudian memprioritaskan lalu lintas. Ambulans akan mendapatkan prioritas tertinggi dan jalan akan dibuat kosong untuk ambulans untuk lulus.Serupa halnya dengan Lalu Lintas Jaringan. Ketika Anda mengirim permintaan pada jaringan, adalah mungkin bahwa
karena beberapa masalah atau permintaan lain anda harus menunggu untuk beberapa waktu. Jika selama periode waktu jumlah paket mengantri dan menunggu maka menghasilkan lalu lintas. Setelah lalu lintas dibuat, Anda harus menunggu sampai selesai, yang dapat untuk waktu yang lama, tergantung pada situasi. Jadi,harus ada beberapa cara untuk menangani situasi ini. Solusi untuk ini adalah Manajemen Jaringan Lalu Lintasdan prosesnya dimulai pertama dengan mengukur lalu lintas pada jaringan.

3.1 Alasan Untuk Mengukur Jaringan Lalu LintasBerikut ini adalah resons yang akan kita memilikiukuran lalu lintas jaringan :
a) Layanan pemantauan – memastikan hal-hal menjaga bekerja.
b) Jaringan perencanaan – menentukan kapasitas ketika lebih diperlukan.
c) Biaya pemulihan – sesi kali dan volume lalu lintas dapat memberikan data penagihan.
d) Penelitian – pemahaman yang lebih baik dari apa yang ada terjadi harus memungkinkan kita untuk meningkatkan jaringan kinerja.

3.2 Lalu Lintas InternetMetrik kinerja dasar lalu lintas internet bias terdaftar sebagai:
• Packet loss
• Keterlambatan
• throughput
• Ketersediaan

3.3 Pengendali Untuk Pengukuran

Ada beberapa pengendali lain sangat berkaitan dengan persyaratan pengukuran adalah
• Harga
• Tingkat Perjanjian Layanan
• Baru layanan
• Aplikasi

Jaringan Pengukuran Lalu Lintas

Biasanya, manajemen lalu lintas ditempatkan di tepi WAN dari situs perusahaan. Di sinilah LAN berkecepatan tinggi memenuhi link akses yang lebih rendah kecepatan WAN. Persimpangan Lanwan juga di mana kedua Internet dan lalu lintas masuk dan keluar intranet perusahaan. Jadi itu adalah tempat yang ideal untuk lalu lintas “jinak” dan untuk mengurangi dampak lalu lintas tidak kritis dan bahkan mencurigakan mengambil di Internet. Membatasi atau memblokir sumber daya jaringan yang tersedia untuk lalu lintas sembrono atau tidak diinginkan meningkatkan kinerja perencanaan sumber daya perusahaan (ERP), pelanggan relationship management (CRM), dan strategis lainnya, aplikasi businesscritical. Selain pemantauan lalu lintas di tepi jaringan, ada masalah performa murni untuk dipertimbangkan. WAN jaringan akses biasanya lebih lambat dari LAN, umumnya karena alasan anggaran. Juga Bisnis membayar berulang biaya bulanan untuk layanan WAN, sedangkan bandwidth LAN adalah gratis (setelah investasi awal peralatan telah dibuat). Dengan kecepatan tinggi lalu lintas LAN melambat pada lebih rendah kecepatan akses sirkuit, tepi LAN-WAN adalah di manakemacetan yang paling mungkin terjadi. Faktor lain yang penting perlu dipertimbangkan di sini adalah bahwa sebagian besar aplikasi telah dikembangkan untuk berjalan di LAN. Sekarang, jaringan lokal pada umumnya bebas dari kemacetan dan jatuh di bawah kontrol total dari sebuah departemen IT internal. Ini LAN yang dioptimalkan aplikasi berperilaku berbeda dalam lingkungan WAN. Tidak hanya link akses WAN lebih lambat, tetapi layanan WAN juga dapat jatuh di bawah lingkup manajemen penyedia jaringan ganda. Mengatur lalu lintas di segmen jaringan membantu organisasi terdistribusi yang bergantung pada WAN untuk melayani pengguna remote dengan sumber daya yang terpusat. Melakukan jadi adalah masalah yang cukup sederhana. Dalam kebanyakan kasus, jaringan administrator menggunakan GUI untuk mengatur parameter untuk beberapa bisnis penting kebijakan dalam bahasa Inggris. Administrator kemudian mendorong tombol untuk menyebarkan kebijakan-kebijakan ke berbagai segmen jaringan di mana mereka harus ditegakkan.

Analisis Lalu Lintas

Setelah pemantauan berturut-turut selama beberapa tahun, LAN dan WAN lalu lintas telah terlihat mengikutiberbeda pola.

5.1 Lalu Lintas LAN :

Lalu lintas di LAN telah menunjukkan untuk menjadi diri serupa di alam. Mereka berarti jika saya mengukurlalu lintas selama periode satu jam dan plot, itu akan mirip dengan grafik untuk
lalu lintas diplot selama satu hari. Dalam cara yang sama grafik hari akan mirip untuk lalu lintas
grafik diplot selama seminggu dan grafik minggu untuk itu dari sebulan. Itu rintik dari variasi
lalu lintas mengulangi sendiri lebih teratur interval.

5.2 Lalu Lintas WAN :

Model Poisson: Lalu Lintas Alam di Internet telah diidentifikasi untuk mengkonfirmasi ke Model Poisson.Model ini memberikan kita gambaran kasar tentang karakteristik Lalu Lintas Internet.
Model ini memperkirakan kemungkinan jumlah paket yang harus ada pada jaringan setelah
diberikan waktu jika tingkat kedatangan rata-rata paket adalah ditentukan.

Manajemen Lalu Lintas

Melihat gambar di bawah ini akan membuat pemahaman yang lalu lintas jaringan sebelum dan setelah dikelolalebih jelas. Angka ini adalah penggambaran media transmisi sementara itu
membawa keberhasilan lalu lintas. Yang kita bisa melihat biasa aplikasi demikian mungkin sebagai
video, audiodownload dll mengambil bagian utama dari tersedia pita lebar. Misi aplikasi kritis
yang tersisa denganhanya sekitar 40% bandwidth yang yang berarti bahwa ada mungkin akan banyakpenundaan dalam transmisi data atau pengolahan transaksi. Di sinilah peran manajemen lalu lintas datangmasuk.

Pengguna dapat mengambil keputusan mengenai berapa banyak jumlah bandwidth yang ia ingin menjagakhusus untuk misi kritis aplikasi, dan kemudian sisanya dapat digunakan untuk lainnya
normal aplikasi. dalamkedua tokoh kita dapat melihat bahwa lalu lintas telah dikelola sedemikian rupa sehinggamaksimum bandwidth yang (hampir 70%) telah disediakan untuk misi kritis
aplikasi. 5% dari bandwidth tidak digunakan yang juga dapat digunakan oleh aplikasi ini dalam kasus
gelora lalu lintas. aplikasi normal adalah dibiarkan dengan hanya tentang 25% dari bandwidth.

Kesimpulan

Untuk menyimpulkan kami ingin menekankan kembali bahwa, hari ini mengubah skenario, di mana cara konvensional dalam melakukan hal tidak ada lagi memegang baik organisasi adalah cepat menyadari bahwaagar mereka tetap pada langkah dengan orang lain dalam lomba, mereka harus merangkul konsep Manajemen Jaringan. Juga cara di mana kedua ukuran jaringan dan data yang rides pada mereka meningkat dari hari ke hari, itu sudah menjadi keharusan untuk memonitor jenis yang lalu lintas yang mengalir, prioritas dan kemudian mengelola lalu lintas sesuai.

 

Sumber :

http://kindern.blogspot.com/2012/03/jurnal-komputasi-modern.html

Entry Filed under: Uncategorized

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Trackback this post  |  Subscribe to comments via RSS Feed

Pages

Categories

Calendar

March 2013
M T W T F S S
« Oct   Apr »
 123
45678910
11121314151617
18192021222324
25262728293031
 
%d bloggers like this: