A.
Search Engine
Mesin pencari adalah program komputer yang
dirancang untuk melakukan pencarian atas berkas-berkas yang tersimpan dalam
layanan www, ftp, publikasi milis, ataupun news group dalam sebuah ataupun
sejumlah komputer peladen dalam suatu jaringan. Hasil pencarian umumnya
ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat
akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits.
Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam
jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas
lainnya. Beberapa mesin pencari juga diketahui melakukan pengumpulan informasi
atas data yang tersimpan dalam suatu basisdata ataupun direktori web
(Wikipedia).
Sebagian besar mesin pencari dijalankan
oleh perusahaan swasta yang menggunakan algoritma kepemilikan dan basisdata
tertutup, di antaranya yang paling populer adalah Google (MSN Search dan Yahoo!).
Telah ada beberapa upaya menciptakan mesin pencari dengan sumber terbuka (open
source), contohnya adalah Htdig, Nutch, Egothor dan OpenFTS (Wikipedia).
B.
Prinsip Umum Search Engine
Sistem kinerja mesin ini ada beberapa hal
yang perlu di perhatikan terutama keterkaitannya dengan masalah arsitekrut dan
mekanismenya (Wikipedia).
1.
Spider
Merupakan program yang men-download
halaman-halaman yang mereka temukan, mirip dengan browser. Perbedannya adalah
bahwa browser menapilkan secara langsung informasi yang ada (baik tekas,
gambar, dll). Untuk kepentingan manusia yang menggunakannya pada saat itu,
sedangkan spider tidak melakukan untuk menampulkan dalam bentuk yang terlihat
seperti itu, karena kepentingannya adalah untuk mesin, bukan untuk manusia,
spider pun dijalankan oleh mesin secara otomatis. Kepentingannya adalah untuk
mengambil halaman-halaman yang dikunjunginya untuk disimpan kedalam database
yang dimiliki oleh search engine.
2.
Crawler
Merupakan program yang dimiliki search
engine untuk melacak dan menemukan link yang terdapat dari setiap halaman yang
ditemuinya. Tugasnya adalah untuk menentukan spoder harus pergi kemana dan
mengevaluasi link berdasarkan alamat yang ditentukan dari awal. Crawler
mengikuti link dan mencoba menemukan dokumen yang belum dikenal oleh search
engine.
3.
Indexer
Komponen ini melakukan aktifitas untuk
menguraikan masing-masing halaman dan meneliti berbagai unsur, seperti teks,
headers, struktur atau fitur dari gaya penulisan, tag HTML khusus, dll.
4.
Database
Merupakan tempat standar untuk menyimpan
data-data dari halaman yang telah dikunjungi, di-download dan sudah dianalisis.
kadang kala disebut juga dengan index dari suatu search engine.
5.
Result
Engine
Mesin yang melakukan penggolongan dan
penentuan peringkat dari hasil pencarian pada search engine. Mesin ini
menentukan halaman mana yang menemui kriteria terbaik dari hasil pencarian
berdasarkan permintaan penggunanya, dan bagaimana bentuk penampulan yang akan
ditampilkan.
Proses ini dilaksanakan berdasarkan
algoritma perangkingan yang dimiliki oleh search engine tersebut, mengikuti
kaidah perangkingan hakaman yang dipergunakan oleh mereka adalah hak mereka,
para peneliti mempelajari sifat-sifat yang mereka gunakan, terutama untuk
meningkatkan pencarian yang dihasilkan oleh serach engine tersebut.
6.
Web
Server
Merupakan komponen yang melayani
permintaan dan memberikan respon balik dari permintaan tersebut. Web Server ini
biasanya menghasilkan informasi atau dokumen dalam format [[[HTML]]. Pada
halaman tersebut tersedia layanan untuk mengisikan kata kunci pencarian yang
diinginkan oleh usernya. Web Server ini juga bertanggung jawab dalam
menyampaikan hasil pencarian yang dikirimkan kepada komputer yang meminta
informasi.
C.
Algoritma Search Engine
1.
List
Search
Algoritma ini bekerja dengan cara mencari
secara berurutan. Bisa dibayangkan seperti saat ingin mencari seseorang dalam
sebuah antrian. Maka mencarinya dengan cara memeriksa satu persatu, dari awal
antrian hingga menemukan orang yang ingin dicari.
Cara atau algoritma seperti ini biasanya
digunakan saat ingin mencari dengan menggunakan satu faktor atau satu kunci
saja sebagai penentu. Untuk antrian yang pendek, cara ini mungkin cukup efektif
dan efisien. Tapi untuk mencari sebuah kata dari milyaran web page yang ada di
internet, maka akan membutuhkan waktu yang sangat lama.
2.
Tree
Search
Bayangkan sebuah pohon! Bayangkan mulai
dari akar, batang, cabang, kemudian ranting-rantingnya. Begitulah cara kerja
dari algoritma ini. Algoritma ini akan bekerja dengan cara mencarinya dari yang
paling mendekati hingga ke yang paling tidak mendekati. Atau bisa juga
dikatakan dari yang paling umum hingga ke yang paling spesifik, atau
sebaliknya.
Algoritma ini mirip dengan cara yang
digunakan orang untuk mengatur internet. Seperti yang diketahui, setiap situs
yang ada di internet itu mempunyai keterkaitan antara satu dengan yang lainnya.
Bisa menelusuri keterkaitan ini dengan cara memulai dari tingkat yang paling
kecil dulu, kemudian ke tingkat yang paling besar, atau sebaliknya.
Tree searches adalah cara yang ampuh digunakan
untuk melakukan pencarian di internet, akan tetapi cara ini tidak selalu
memberikan hasil yang memuaskan.
3.
SQL
Search
Diambil dari kata sequel. Satu kelemahan
saat melakukan pencarian menggunakan metode Tree Search yaitu pencarian
dilakukan dengan cara dari point ke point, atau dari satu titik ke titik. Itu
artinya data harus dicari secara hirarki, dari besar ke kecil atau sebaliknya.
Dan kelemahan ini bisa teratasi dengan menggunakan SQL search.
4.
Informed
Search
Algoritma informed search bekerja dengan
cara mencari solusi yang spesifik atau khusus dari sebuah dataset yang
bercabang-cabang (tree dataset). Sesuai dengan namanya, algoritma ini tidak
selalu cocok digunakan untuk melakukan pencarian di internet. Karena algoritma
ini cuma cocok digunakan untuk pemecahan masalah-masalah yang spesifik atau
khusus saja. Sedangkan seringkali ingin mencari pemecahan untuk masalah-masalah
yang bersifat umum atau luas.
5.
Adversarial
Search
Adversarial search bekerja dengan cara
mencari berbagai kemungkinan solusi atas sebuah masalah. Ini seperti saat
melakukan permainan rolex atau gambling, dimana semua kemungkinan akan dicoba.
Algoritma ini sulit digunakan untuk melakukan pencarian di internet, sebab
berapa banyak kemungkinan yang akan di dapat untuk mencari sebuah kata di
internet? Nyaris tak terhingga.
6.
Constraint
Satisfaction Search
Saat mencari suatu kata/kalimat di
internet, maka algoritma constraint satisfaction search ini sepertinya adalah
metode yang paling mendekati atau sesuai dengan keinginan. Algoritma pencarian
jenis ini, akan mencari solusi dengan cara memberikan berbagai alternatif
pilihan. Algoritma ini akan mencari dengan berbagai cara, dan tidak harus
dengan cara yang berurutan.
Itu tadi beberapa algoritma yang
diperlukan saat sebuah search engine akan dibuat. Dan seringkali lebih dari
satu algoritma yang digunakan oleh sebuah search engine. Dan seringkali juga,
search engine tertentu akan membuat algoritma yang baru.
D.
Google
Google Inc. (NASDAQ: GOOG dan LSE: GGEA)
merupakan sebuah perusahaan publik Amerika Serikat, berperan dalam pencarian
Internet dan iklan online. Perusahaan ini berbasis di Mountain View,
California, dan memiliki karyawan berjumlah 19.604 orang (30 Juni 2008) Filosofi
Google meliputi slogan seperti "Don't be evil", dan "Kerja
harusnya menantang dan tantangan itu harusnya menyenangkan", menggambarkan
budaya perusahaan yang santai (Wikipedia).
Google didirikan oleh Larry Page dan
Sergey Brin ketika mereka masih mahasiswa di Universitas Stanford dan
perusahaan ini merupakan perusahaan saham pribadi pada 4 September 1998. Penawaran
umum perdananya dimulai pada tanggal 19 Agustus 2004, mengumpulkan dana $1,67
miliar, menjadikannya bernilai $23 miliar. Melalui berbagai jenis pengembangan
produk baru, pengambil alihan dan mitra, perusahaan ini telah memperluas bisnis
pencarian dan iklan awalnya hingga ke area lainnya, termasuk email berbasis
web, pemetaan online, produktivitas perusahaan, dan bertukar video (Wikipedia).
E.
Cara Kerja Dari Search Engine (Google).
Seperti yang diketahui bahwa cara kerja
mesin pencari Google sangat tertutup tentang algoritma dan pusat data hasil
pencarian google. Sejauh ini hanya bisa menebak garis besar kebijakan Google
melalui halaman hasil mesin pencari (SERP’s) Google.
Dibalik teknologi pencarian adalah perangkat
lunak. Perangkat lunak dengan serangkaian bahasa program untuk menghitung
secara simultan dengan membutuhkan sepersekian detik. Mesin pencari tradisional
lebih mengandalkan seberapa sering kata muncul pada halaman web. Google
menggunakan lebih dari 200 sinyal, termasuk algoritma page rank yang merupakan
hak paten Google. Sinyal ini berfungsi untuk memeriksa seluruh struktur link
dari situs dan menentukan halaman yang paling penting.
Setelah itu Google menganalisis kesesuaian
hipertext untuk menentukan halaman yang relevan dengan pencarian khusus yang
dilakukan. Menggabungkan sinyal secara keseluruhan dan relevansi query
spesifik, dan menempatkan hasil pertama yang paling relevan dan dapat diandalkan
atas query pengguna.
Berikut ini secara garis besar langkah-langkah Cara Kerja Mesin Pencari Google secara urut menurut nomor:
Berikut ini secara garis besar langkah-langkah Cara Kerja Mesin Pencari Google secara urut menurut nomor:
1.
Anda
menulis blog, menciak, memperbarui situs, atau menambahkan konten ke situs.
2.
Google
bot merangkak pada situs untuk menemukan posting Anda.
·
Google
bot mengikuti link. Jika tidak ada link ke situs Anda, biasanya hal ini tidak
akan dijelajahi secara mendalam atau secara teratur.
·
Google
bot tidak akan menjelajah situs Anda jika Anda tidak memberitahu mereka dengan
sebuah robot.txt.
·
Jika
link ke situs Anda memiliki tag nofollow, google bot tidak mengunjungi link
tersebut.
·
Google
juga dapat menemukan situs Anda dengan perangkat lunak ping untuk blog atau
sitemap.xml.
·
Semakin
banyak link yang Anda miliki dari halaman otoritas yang lebih tinggi dari situs
anda, halaman otoritas Anda sendiri akan lebih besar juga. Selama mereka
tidak menggunakan tag "nofollow".
3.
Setelah
merangkak halaman akan diindeks dalam hitungan detik.
·
Konten
halaman disimpan dalam sebuah indeks terbalik. --> Judul halaman dan link
data disimpan dalam satu indeks yang digunakan untuk pencarian yang luas dan
kompetitif. --> Pada konten halaman disimpan di lain indeks yang digunakan
untuk pencarian isi halaman dan isi yang tidak jelas.
·
Jika
Anda tidak mencari web yang aktif, tapi google cache hal itu, yang
terus-menerus akan diperbarui.
4.
Google
memperkirakan domain dan otoritas keseluruhan halaman berdasarkan link.
5.
Halaman
diperiksa terhadap kebijakan editorial.
·
Pencarian
berkualitas Google tim dan tim webspam meninjau dan memperbaiki algoritma (Baca
: Dokumen Pedoman Penilaian Google Bocor : Cuplikan).
·
Lebih
dari 10.000 penguji tersembunyi untuk tingkat kualitas pencarian mereka.
·
Google
memohon laporan spam dari pengguna.
·
Google
mendapatkan DMCA pemberitahuan untuk mencatat pekerjaan bajakan.
6.
Hukuman
diterapkan dan setiap halaman, sekarang Google memiliki banyak daftar data
terlampir untuk membantu kepentingan pengguna.
7.
Query
Pengguna Google.
Pada query google terbanyak, sebenarnya
anda masuk dalam beberapa kontrol atau kelompok eksperimental secara bersamaan.
Pada dasarnya, semua query terlibat dalam beberapa tes.
8.
Google
menyarankan kata kunci didasarkan pada apa yang telah diketik beberapa
karakter.
9.
Google
menggunakan sinonim untuk mencari kata-kata serupa untuk menyertakan dalam
permintaan pencarian.
10.
Hasil
set awal dibuat.
·
Google
mengklaim mendapatkan jutaan hasil tetapi hanya 1.000 atau kurang yang pernah
ditampilkan.
·
Hasil
lokalisasi: situs lokal yang dipromosikan dalam hasil pencarian
11.
Hasil
set diurutkan berdasarkan kewenangan dan pagerank, dan halaman duplikat dihapus.
·
Google
menemukan iklan yang relevan berdasarkan kata kunci, iklan menyesuaikan lokasi
jenis dan pengguna.
·
Iklan
tunduk pada kebijakan editorial
§
Pengiklan
beroperasi di luar pedoman mungkin memiliki akun iklan yang mereka dilarang.
§
Jika
kata kunci memiliki volume pencarian yang rendah atau terlalun sedikit menghasilkan klik, iklan mungkin akan secara otomatis
dinonaktifkan.
§
Bisnis
disukai, mungkin seperti amazon.com, tokobagus.com mungkin akan diberikan
diskon.
·
Iklan
yang relevan yang diorder berdasarkan potensi laba (tawaran x skor kualitas
iklan).
·
Untuk
sebagian besar pengiklan konten sudah dibuat tapi kadang-kadang isi kata kunci
dinamis digunakan untuk membuat iklan agar tampak lebih relevan.
§
Beberapa
iklan juga memiliki ekstensi yang tersedia, seperti link situs, nomor telepon,
produk, link, lokasi, dll.
·
Jika
iklan menghasilkan tingkat melalui klik yang cukup tinggi, beberapa mungkin
ditampilkan di atas hasil pencarian.
·
Sisanya
pergi ke rel yang benar di mana mereka ditampilkan.
·
Hasil
akan muncul dibawah satu detik, miliaran kali dalam sehari, menghasilkan lebih
dari 20 miliar dolar setahun untuk google!
12.
Penyaring
diterapkan
·
Dengan
pencarian universal, jika google berpikir hasil berita, hasil belanja, hasil
video, buku hasil, hasil lokal, atau bentuk lain dari pencarian vertikal yang
relevan maka mereka mungkin mencampur secara langsung ke dalam hasil pencarian.
·
Personalisasi
pengguna: situs yang pernah dikunjungi pengguna sering dipromosikan.
·
Manipulasi
teks jangkar yang berlebihan dapat menyebabkan situs yang akan dihapus dari
hasil.
·
Interkonektivitas
lokal mempengaruhi hasil : jika halaman yang terhubung dengan baik antara situs
lain dengan peringkat tinggi, maka peringkat mereka dapat meningkatkan.
·
Tren:
jika istilah pencarian telah meledak besar dalam volume pencarian dan / atau
banyak hasil berita terbaru, google mungkin menempatkan bobot tambahan pada
hasil konten lebih segar.
·
Tren:
Perolehan Google +1 dan situs jejaring sosial lainnya menempatkan bobot
tambahan.
·
Beberapa
halaman dari domain yang sama dapat dikelompokkan bersama-sama jika semua
memiliki peringkat tinggi.
13.
Hasil
organik ditampilkan
·
Hasil
akan muncul dibawah satu detik, miliaran kali dalam sehari, menghasilkan lebih
dari 20 miliar dolar setahun untuk google.
Daftar Rujukan
Google. http://id.wikipedia.org/google. Diakses tanggal 20 Februari 2012
Mesin Pencari. http://id.wikipedia.org/mesin_pencari. Diakses tanggal 20
Februari 2012
Cara Kerja Mesin Pencari Google. http://akharisyuli.blogspot.com/2011/12/cara-kerja-mesin-pencari-google.html.
Diakses tanggal 20 Februari 2012
Search Engine Mesin Pencari. http://rendramm2.wordpress.com/2009/12/08/artikel-tentang-search-engine-mesin-pencari-online.
Diakses tanggal 20 Februari 2012
ijin share ya...
ReplyDelete