Algoritma Search Engine Google

Unknown Thursday, March 8, 2012
A.           Search Engine
Mesin pencari adalah program komputer yang dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam suatu jaringan. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan dalam suatu basisdata ataupun direktori web (Wikipedia).
Sebagian besar mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah Google (MSN Search dan Yahoo!). Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS (Wikipedia).

B.            Prinsip Umum Search Engine
Sistem kinerja mesin ini ada beberapa hal yang perlu di perhatikan terutama keterkaitannya dengan masalah arsitekrut dan mekanismenya (Wikipedia).
1.             Spider
Merupakan program yang men-download halaman-halaman yang mereka temukan, mirip dengan browser. Perbedannya adalah bahwa browser menapilkan secara langsung informasi yang ada (baik tekas, gambar, dll). Untuk kepentingan manusia yang menggunakannya pada saat itu, sedangkan spider tidak melakukan untuk menampulkan dalam bentuk yang terlihat seperti itu, karena kepentingannya adalah untuk mesin, bukan untuk manusia, spider pun dijalankan oleh mesin secara otomatis. Kepentingannya adalah untuk mengambil halaman-halaman yang dikunjunginya untuk disimpan kedalam database yang dimiliki oleh search engine.
2.             Crawler
Merupakan program yang dimiliki search engine untuk melacak dan menemukan link yang terdapat dari setiap halaman yang ditemuinya. Tugasnya adalah untuk menentukan spoder harus pergi kemana dan mengevaluasi link berdasarkan alamat yang ditentukan dari awal. Crawler mengikuti link dan mencoba menemukan dokumen yang belum dikenal oleh search engine.
3.             Indexer
Komponen ini melakukan aktifitas untuk menguraikan masing-masing halaman dan meneliti berbagai unsur, seperti teks, headers, struktur atau fitur dari gaya penulisan, tag HTML khusus, dll.
4.             Database
Merupakan tempat standar untuk menyimpan data-data dari halaman yang telah dikunjungi, di-download dan sudah dianalisis. kadang kala disebut juga dengan index dari suatu search engine.
5.             Result Engine
Mesin yang melakukan penggolongan dan penentuan peringkat dari hasil pencarian pada search engine. Mesin ini menentukan halaman mana yang menemui kriteria terbaik dari hasil pencarian berdasarkan permintaan penggunanya, dan bagaimana bentuk penampulan yang akan ditampilkan.
Proses ini dilaksanakan berdasarkan algoritma perangkingan yang dimiliki oleh search engine tersebut, mengikuti kaidah perangkingan hakaman yang dipergunakan oleh mereka adalah hak mereka, para peneliti mempelajari sifat-sifat yang mereka gunakan, terutama untuk meningkatkan pencarian yang dihasilkan oleh serach engine tersebut.
6.             Web Server
Merupakan komponen yang melayani permintaan dan memberikan respon balik dari permintaan tersebut. Web Server ini biasanya menghasilkan informasi atau dokumen dalam format [[[HTML]]. Pada halaman tersebut tersedia layanan untuk mengisikan kata kunci pencarian yang diinginkan oleh usernya. Web Server ini juga bertanggung jawab dalam menyampaikan hasil pencarian yang dikirimkan kepada komputer yang meminta informasi.

C.           Algoritma Search Engine
1.             List Search
Algoritma ini bekerja dengan cara mencari secara berurutan. Bisa dibayangkan seperti saat ingin mencari seseorang dalam sebuah antrian. Maka mencarinya dengan cara memeriksa satu persatu, dari awal antrian hingga menemukan orang yang ingin dicari.
Cara atau algoritma seperti ini biasanya digunakan saat ingin mencari dengan menggunakan satu faktor atau satu kunci saja sebagai penentu. Untuk antrian yang pendek, cara ini mungkin cukup efektif dan efisien. Tapi untuk mencari sebuah kata dari milyaran web page yang ada di internet, maka akan membutuhkan waktu yang sangat lama.
2.             Tree Search
Bayangkan sebuah pohon! Bayangkan mulai dari akar, batang, cabang, kemudian ranting-rantingnya. Begitulah cara kerja dari algoritma ini. Algoritma ini akan bekerja dengan cara mencarinya dari yang paling mendekati hingga ke yang paling tidak mendekati. Atau bisa juga dikatakan dari yang paling umum hingga ke yang paling spesifik, atau sebaliknya.
Algoritma ini mirip dengan cara yang digunakan orang untuk mengatur internet. Seperti yang diketahui, setiap situs yang ada di internet itu mempunyai keterkaitan antara satu dengan yang lainnya. Bisa menelusuri keterkaitan ini dengan cara memulai dari tingkat yang paling kecil dulu, kemudian ke tingkat yang paling besar, atau sebaliknya.
Tree searches adalah cara yang ampuh digunakan untuk melakukan pencarian di internet, akan tetapi cara ini tidak selalu memberikan hasil yang memuaskan.
3.             SQL Search
Diambil dari kata sequel. Satu kelemahan saat melakukan pencarian menggunakan metode Tree Search yaitu pencarian dilakukan dengan cara dari point ke point, atau dari satu titik ke titik. Itu artinya data harus dicari secara hirarki, dari besar ke kecil atau sebaliknya. Dan kelemahan ini bisa teratasi dengan menggunakan SQL search.
4.             Informed Search
Algoritma informed search bekerja dengan cara mencari solusi yang spesifik atau khusus dari sebuah dataset yang bercabang-cabang (tree dataset). Sesuai dengan namanya, algoritma ini tidak selalu cocok digunakan untuk melakukan pencarian di internet. Karena algoritma ini cuma cocok digunakan untuk pemecahan masalah-masalah yang spesifik atau khusus saja. Sedangkan seringkali ingin mencari pemecahan untuk masalah-masalah yang bersifat umum atau luas.
5.             Adversarial Search
Adversarial search bekerja dengan cara mencari berbagai kemungkinan solusi atas sebuah masalah. Ini seperti saat melakukan permainan rolex atau gambling, dimana semua kemungkinan akan dicoba. Algoritma ini sulit digunakan untuk melakukan pencarian di internet, sebab berapa banyak kemungkinan yang akan di dapat untuk mencari sebuah kata di internet? Nyaris tak terhingga.
6.             Constraint Satisfaction Search
Saat mencari suatu kata/kalimat di internet, maka algoritma constraint satisfaction search ini sepertinya adalah metode yang paling mendekati atau sesuai dengan keinginan. Algoritma pencarian jenis ini, akan mencari solusi dengan cara memberikan berbagai alternatif pilihan. Algoritma ini akan mencari dengan berbagai cara, dan tidak harus dengan cara yang berurutan.
Itu tadi beberapa algoritma yang diperlukan saat sebuah search engine akan dibuat. Dan seringkali lebih dari satu algoritma yang digunakan oleh sebuah search engine. Dan seringkali juga, search engine tertentu akan membuat algoritma yang baru.

D.           Google
Google Inc. (NASDAQ: GOOG dan LSE: GGEA) merupakan sebuah perusahaan publik Amerika Serikat, berperan dalam pencarian Internet dan iklan online. Perusahaan ini berbasis di Mountain View, California, dan memiliki karyawan berjumlah 19.604 orang (30 Juni 2008) Filosofi Google meliputi slogan seperti "Don't be evil", dan "Kerja harusnya menantang dan tantangan itu harusnya menyenangkan", menggambarkan budaya perusahaan yang santai (Wikipedia).
Google didirikan oleh Larry Page dan Sergey Brin ketika mereka masih mahasiswa di Universitas Stanford dan perusahaan ini merupakan perusahaan saham pribadi pada 4 September 1998. Penawaran umum perdananya dimulai pada tanggal 19 Agustus 2004, mengumpulkan dana $1,67 miliar, menjadikannya bernilai $23 miliar. Melalui berbagai jenis pengembangan produk baru, pengambil alihan dan mitra, perusahaan ini telah memperluas bisnis pencarian dan iklan awalnya hingga ke area lainnya, termasuk email berbasis web, pemetaan online, produktivitas perusahaan, dan bertukar video (Wikipedia).

E.            Cara Kerja Dari Search Engine (Google).
Seperti yang diketahui bahwa cara kerja mesin pencari Google sangat tertutup tentang algoritma dan pusat data hasil pencarian google. Sejauh ini hanya bisa menebak garis besar kebijakan Google melalui halaman hasil mesin pencari (SERP’s) Google.
Dibalik teknologi pencarian adalah perangkat lunak. Perangkat lunak dengan serangkaian bahasa program untuk menghitung secara simultan dengan membutuhkan sepersekian detik. Mesin pencari tradisional lebih mengandalkan seberapa sering kata muncul pada halaman web. Google menggunakan lebih dari 200 sinyal, termasuk algoritma page rank yang merupakan hak paten Google. Sinyal ini berfungsi untuk memeriksa seluruh struktur link dari situs dan menentukan halaman yang paling penting.
Setelah itu Google menganalisis kesesuaian hipertext untuk menentukan halaman yang relevan dengan pencarian khusus yang dilakukan. Menggabungkan sinyal secara keseluruhan dan relevansi query spesifik, dan menempatkan hasil pertama yang paling relevan dan dapat diandalkan atas query pengguna.
Berikut ini secara garis besar langkah-langkah Cara Kerja Mesin Pencari Google secara urut menurut nomor:
1.             Anda menulis blog, menciak, memperbarui situs, atau menambahkan konten ke situs.
2.             Google bot merangkak pada situs untuk menemukan posting Anda.
·               Google bot mengikuti link. Jika tidak ada link ke situs Anda, biasanya hal ini tidak akan dijelajahi secara mendalam atau secara teratur.
·               Google bot tidak akan menjelajah situs Anda jika Anda tidak memberitahu mereka dengan sebuah robot.txt.
·               Jika link ke situs Anda memiliki tag nofollow, google bot tidak mengunjungi link tersebut.
·               Google juga dapat menemukan situs Anda dengan perangkat lunak ping untuk blog atau sitemap.xml.
·               Semakin banyak link yang Anda miliki dari halaman otoritas yang lebih tinggi dari situs anda, halaman otoritas Anda sendiri akan lebih besar juga. Selama mereka tidak menggunakan tag "nofollow".
3.             Setelah merangkak halaman akan diindeks dalam hitungan detik.
·               Konten halaman disimpan dalam sebuah indeks terbalik. --> Judul halaman dan link data disimpan dalam satu indeks yang digunakan untuk pencarian yang luas dan kompetitif. --> Pada konten halaman disimpan di lain indeks yang digunakan untuk pencarian isi halaman dan isi yang tidak jelas.
·               Jika Anda tidak mencari web yang aktif, tapi google cache hal itu, yang terus-menerus akan diperbarui.
4.             Google memperkirakan domain dan otoritas keseluruhan halaman berdasarkan link.
5.             Halaman diperiksa terhadap kebijakan editorial.
·               Pencarian berkualitas Google tim dan tim webspam meninjau dan memperbaiki algoritma (Baca : Dokumen Pedoman Penilaian Google Bocor : Cuplikan).
·               Lebih dari 10.000 penguji tersembunyi untuk tingkat kualitas pencarian mereka.
·               Google memohon laporan spam dari pengguna.
·               Google mendapatkan DMCA pemberitahuan untuk mencatat pekerjaan bajakan.
6.             Hukuman diterapkan dan setiap halaman, sekarang Google memiliki banyak daftar data terlampir untuk membantu kepentingan pengguna.
7.             Query Pengguna Google.
Pada query google terbanyak, sebenarnya anda masuk dalam beberapa kontrol atau kelompok eksperimental secara bersamaan. Pada dasarnya, semua query terlibat dalam beberapa tes.
8.             Google menyarankan kata kunci didasarkan pada apa yang telah diketik beberapa karakter.
9.             Google menggunakan sinonim untuk mencari kata-kata serupa untuk menyertakan dalam permintaan pencarian.
10.         Hasil set awal dibuat.
·               Google mengklaim mendapatkan jutaan hasil tetapi hanya 1.000 atau kurang yang pernah ditampilkan.
·               Hasil lokalisasi: situs lokal yang dipromosikan dalam hasil pencarian
11.         Hasil set diurutkan berdasarkan kewenangan dan pagerank, dan halaman duplikat dihapus.
·               Google menemukan iklan yang relevan berdasarkan kata kunci, iklan menyesuaikan lokasi jenis dan pengguna.
·               Iklan tunduk pada kebijakan editorial
§                Pengiklan beroperasi di luar pedoman mungkin memiliki akun iklan yang mereka dilarang.
§                Jika kata kunci memiliki volume pencarian yang rendah atau terlalun sedikit menghasilkan klik, iklan mungkin akan secara otomatis dinonaktifkan.
§                Bisnis disukai, mungkin seperti amazon.com, tokobagus.com mungkin akan diberikan diskon.
·               Iklan yang relevan yang diorder berdasarkan potensi laba (tawaran x skor kualitas iklan).
·               Untuk sebagian besar pengiklan konten sudah dibuat tapi kadang-kadang isi kata kunci dinamis digunakan untuk membuat iklan agar tampak lebih relevan.
§                Beberapa iklan juga memiliki ekstensi yang tersedia, seperti link situs, nomor telepon, produk, link, lokasi, dll.
·               Jika iklan menghasilkan tingkat melalui klik yang cukup tinggi, beberapa mungkin ditampilkan di atas hasil pencarian.
·               Sisanya pergi ke rel yang benar di mana mereka ditampilkan.
·               Hasil akan muncul dibawah satu detik, miliaran kali dalam sehari, menghasilkan lebih dari 20 miliar dolar setahun untuk google!
12.         Penyaring diterapkan
·               Dengan pencarian universal, jika google berpikir hasil berita, hasil belanja, hasil video, buku hasil, hasil lokal, atau bentuk lain dari pencarian vertikal yang relevan maka mereka mungkin mencampur secara langsung ke dalam hasil pencarian.
·               Personalisasi pengguna: situs yang pernah dikunjungi pengguna sering dipromosikan.
·               Manipulasi teks jangkar yang berlebihan dapat menyebabkan situs yang akan dihapus dari hasil.
·               Interkonektivitas lokal mempengaruhi hasil : jika halaman yang terhubung dengan baik antara situs lain dengan peringkat tinggi, maka peringkat mereka dapat meningkatkan.
·               Tren: jika istilah pencarian telah meledak besar dalam volume pencarian dan / atau banyak hasil berita terbaru, google mungkin menempatkan bobot tambahan pada hasil konten lebih segar.
·               Tren: Perolehan Google +1 dan situs jejaring sosial lainnya menempatkan bobot tambahan.
·               Beberapa halaman dari domain yang sama dapat dikelompokkan bersama-sama jika semua memiliki peringkat tinggi.
13.         Hasil organik ditampilkan
·               Hasil akan muncul dibawah satu detik, miliaran kali dalam sehari, menghasilkan lebih dari 20 miliar dolar setahun untuk google.


Daftar Rujukan

Google. http://id.wikipedia.org/google. Diakses tanggal 20 Februari 2012
Mesin Pencari. http://id.wikipedia.org/mesin_pencari. Diakses tanggal 20 Februari 2012
Cara Kerja Mesin Pencari Google. http://akharisyuli.blogspot.com/2011/12/cara-kerja-mesin-pencari-google.html. Diakses tanggal 20 Februari 2012
Search Engine Mesin Pencari. http://rendramm2.wordpress.com/2009/12/08/artikel-tentang-search-engine-mesin-pencari-online. Diakses tanggal 20 Februari 2012
Blogger Template by BlogTusts Sticky Widget by Kang Is Published by GBT.

1 comment: