Sabtu, 02 Maret 2013

Intelegensia Buatan



CARA KERJA PENELUSURAN (SEARCHING) GOOGLE DAN YAHOO

Cara Kerja Penelusuran Google
Proses ini meletakkan fondasinya — begitulah cara kami mengumpulkan dan mengatur informasi di web sehingga kami dapat memberikan hasil yang paling berguna bagi Anda. Indeks kami sudah melebihi 100.000.000 gigabyte, dan kami telah menghabiskan satu miliar jam komputasi untuk menyusunnya. Pelajari lebih lanjut tentang dasar-dasarnya di video pendek ini.
 
1.      Mencari informasi dengan perayapan
Kami menggunakan perangkat lunak yang disebut dengan “perayap web” untuk menemukan laman web yang tersedia untuk publik. Perayap yang paling terkenal disebut “Googlebot”. Perayap melihat laman web dan mengikuti tautan pada laman tersebut, hampir sama seperti yang Anda lakukan jika Anda menjelajahi konten di web. Perayap membuka tautan satu ke tautan lainnya dan membawa data tentang laman web tersebut kembali ke server Google.
Proses perayapan dimulai dari daftar alamat web dari perayapan petasitus sebelumnya yang diberikan oleh pemilik situs web. Saat perayap kami mengunjungi situs web ini, perayap mencari tautan laman lain untuk dikunjungi. Perangkat lunak ini memberikan perhatian khusus terhadap situs baru, perubahan terhadap situs yang sudah ada, dan tautan yang mati.
Program komputer menentukan situs mana yang akan dirayapi, seberapa sering, dan berapa banyak laman yang akan diambil dari setiap situs. Google tidak menerima pembayaran agar suatu situs bisa dirayapi lebih sering untuk hasil penelusuran web kami. Kami lebih peduli akan hasil sebaik mungkin  karena dalam jangka panjang, itulah yang terbaik untuk pengguna dan bagi bisnis kami.

2.      Pilihan untuk pemilik situs web
Kebanyakan situs web tidak perlu menyiapkan batasan untuk perayapan, pengindeksan, atau penayangan, sehingga laman mereka layak untuk muncul dalam hasil penelusuran tanpa kerja ekstra. Artinya, pemilik situs memiliki banyak pilihan tentang cara Google merayapi dan mengindeks situs mereka melalui Alat Webmaster dan sebuah file yang disebut “robots.txt”. Dengan file robots.txt, pemilik situs dapat memilih untuk tidak dirayapi oleh Googlebot, atau mereka dapat memberikan petunjuk yang lebih spesifik tentang cara memproses laman di situs mereka.
Pemilik situs memiliki pilihan detail dan dapat memilih cara konten diindeks dalam basis laman per laman. Contohnya, mereka dapat ikut serta untuk menampilkan laman tanpa cuplikan (ringkasan laman yang ditampilkan di bawah judul di hasil penelusuran) atau versi dalam cache (versi alternatif yang disimpan di server Google apabila laman langsung tidak tersedia). Webmaster juga dapat memilih untuk mengintegrasikan penelusuran ke dalam laman mereka sendiri dengan Penelusuran Khusus.


3.      Mengatur informasi dengan pengindeksan
Web itu bagaikan perpustakaan umum yang terus berkembang dengan miliaran buku dan tanpa administrasi pusat. Google pada dasarnya mengumpulkan laman selama proses perayapan, lalu membuat indeks, sehingga kami tahu persis cara untuk mencari sesuatu. Hampir seperti indeks di bagian belakang buku, indeks Google meliputi informasi tentang kata dan lokasinya. Saat Anda menelusuri, pada level yang paling dasar, algoritme kami mencari istilah penelusuran Anda di indeks untuk menemukan laman yang sesuai.
Setelah itu, proses penelusuran menjadi jauh lebih kompleks. Saat menelusuri  “anjing” Anda tidak menginginkan laman dengan kata “anjing” ratusan kali di dalamnya. Mungkin Anda menginginkan gambar, video, atau daftar jenis anjing. Sistem pengindeksan Google mencatat banyak aspek laman yang berbeda, misalnya kapan laman dipublikasikan, apakah laman tersebut berisi gambar atau video, dan masih banyak lagi. Dengan Grafik Pengetahuan, kami tidak sekedar mencocokkan kata kunci. Kami terus berusaha lebih memahami orang, tempat, dan hal yang penting bagi Anda.

4.      Algoritme

Anda mau jawaban, bukan triliunan laman web. Algoritme adalah program komputer yang mencari petunjuk untuk memberikan tepat apa yang Anda inginkan.
Untuk kueri tertentu, ada ribuan, jika tidak jutaan, laman web dengan informasi yang bermanfaat. Algoritme adalah proses dan formula komputer yang membawa pertanyaan Anda dan mengubahnya menjadi jawaban. Algoritme Google hari ini mengandalkan lebih dari 200 sinyal unik atau “petunjuk” yang membuatnya dapat menebak apa yang mungkin benar-benar Anda cari. Sinyal ini meliputi hal-hal seperti istilah di situs web, kesegaran konten, wilayah Anda, dan PageRank.

5.      Proyek Penelusuran

Ada banyak komponen untuk proses penelusuran dan laman hasil, dan kami senantiasa memperbarui teknologi dan sistem untuk memberikan hasil yang lebih baik. Banyak dari perubahan ini melibatkan inovasi baru yang menarik, seperti Grafik Pengetahuan atau Google Instan. Ada sistem penting lain yang senantiasa kami sempurnakan dan saring. Daftar proyek ini memberikan kilasan ke dalam berbagai aspek penelusuran yang berbeda.

·         Jawaban

Menampilkan jawaban dan informasi langsung untuk hal-hal seperti cuaca, skor olahraga, dan fakta cepat.

·         Pelengkapan otomatis

Memprediksi apa yang mungkin Anda telusuri. Ini mencakup pemahaman istilah dengan lebih dari satu arti.

·         Buku

Menemukan hasil dari jutaan buku, termasuk pratinjau dan teks, dari perpustakaan dan penerbit di seluruh dunia.

·         Kesegaran

Menunjukkan berita dan informasi terbaru. Ini mencakup pengumpulan hasil tepat waktu saat Anda menelusuri tanggal tertentu.

·         Google Instan

Menampilkan hasil langsung saat Anda mengetik.

·         Gambar

Menunjukkan hasil berbasis gambar dengan gambar kecil sehingga Anda dapat memutuskan laman mana untuk dikunjungi dengan sekilas.

·         Pengindeksan

Menggunakan sistem untuk mengumpulkan dan menyimpan dokumen di web.

·         Grafik Pengetahuan

Memberikan hasil berdasarkan basis data orang-orang, tempat, benda, dan hubungan di antaranya dari dunia nyata.

·         Seluler

Termasuk peningkatan yang dirancang khusus untuk perangkat seluler seperti tablet dan ponsel cerdas.

·         Berita

Termasuk hasil dari surat kabar online dan blog dari seluruh dunia.

·         Pemahaman Kueri

Memasuki arti yang lebih dalam dari kata-kata yang Anda ketikkan.

·         Penyempitan

Menyediakan fitur seperti "Penelusuran Lanjutan," penelusuran terkait, dan alat-alat penelusuran lainnya, yang semuanya membantu untuk menyempurnakan penelusuran Anda.

·         TelusurAman

Mengurangi jumlah laman web, gambar, dan video dewasa dalam hasil Anda.

·         Metode Penelusuran

Menciptakan cara baru untuk menelusuri, termasuk "telusuri pakai gambar" dan "penelusuran suara."

·         Kualitas Situs & Laman

Menggunakan sekumpulan sinyal untuk menentukan seberapa dapat dipercaya, bereputasi, atau otoritatif suatu sumber. (Salah satu sinyal tersebut adalah PageRank, salah satu algoritme pertama Google, yang tampak pada tautan antar-laman untuk menentukan relevansinya.)

·         Cuplikan

Menampilkan pratinjau kecil informasi, seperti judul laman dan teks deskriptif singkat, tentang setiap hasil penelusuran.

·         Ejaan

Mengidentifikasi dan memperbaiki kemungkinan kesalahan ejaan dan memberikan alternatif.

·         Sinonim

Mengenali kata-kata dengan arti yang serupa.

·         Terjemahan dan Internasionalisasi

Menyesuaikan hasil berdasarkan bahasa dan negara Anda.

·         Penelusuran Universal

Mencampurkan konten yang relevan seperti gambar, berita, peta, video, dan konten pribadi Anda, ke dalam satu laman hasil penelusuran terpadu.

·         Konteks Pengguna

Meneydiakan hasil yang lebih relevan berdasarkan wilayan geografisRiwayat Web, dan faktor-faktor lainnya.

·         Video

Menunjukkan hasil berbasis video dengan gambar kecil sehingga Anda dapat memutuskan dengan cepat video mana yang akan ditonton.

6.      Mengidentifikasi Spam

Situs spam muncul dalam semua bentuk dan ukuran. Beberapa situs merupakan omong kosong yang dihasilkan secara otomatis yang tidak dapat dimengerti oleh manusia. Tentu saja, kami juga melihat situs yang menggunakan teknik spam halus. Periksa contoh  “spam murni”  ini yang merupakan situs yang menggunakan teknik spam paling agresif. Ini adalah streaming tangkapan layar spam langsung yang telah kami identifikasi secara manual dan baru-baru ini dihapus agar tidak muncul di hasil penelusuran.

7.      Kebijakan

Kami sangat memperhatikan informasi yang Anda temukan di Google. Kami berupaya melakukan pendekatan konsisten yang mengutamakan pengguna.
Kami ingin mengelola informasi dunia. Tetapi, bagaimana dengan perangkat lunak perusak? Bagaimana dengan nomor kartu kredit? Ada banyak masalah sulit yang kami pikirkan setiap hari. Di sini Anda akan menemukan daftar kebijakan yang dikelola di sekitar wilayah topik tertentu. Kami memulai dengan kebijakan terutama terkait dengan penghapusan konten, namun ini adalah dokumen aktif dan kami berencana untuk memperbaruinya dari waktu ke waktu. Kami sangat menantikan masukan dan saran Anda.

 



Cara Kerja Penelusuran Yahoo

 

1.      Spider

Merupakan program yang men-download halaman-halaman yang mereka temukan, mirip dengan browser. Perbedannya adalah bahwa browser menapilkan secara langsung informasi yang ada (baik tekas, gambar, dll). Untuk kepentingan manusia yang menggunakannya pada saat itu, sedangkan spider tidak melakukan untuk menampulkan dalam bentuk yang terlihat seperti itu, karena kepentingannya adalah untuk mesin, bukan untuk manusia, spider pun dijalankan oleh mesin secara otomatis. Kepentingannya adalah untuk mengambil halaman-halaman yang dikunjunginya untuk disimpan kedalam database yang dimiliki oleh search engine.

 

2.      Crawler

Merupakan program yang dimiliki search engine untuk melacak dan menemukan link yang terdapat dari setiap halaman yang ditemuinya. Tugasnya adalah untuk menentukan spoder harus pergi kemana dan mengevaluasi link berdasarkan alamat yang ditentukan dari awal. Crawler mengikuti link dan mencoba menemukan dokumen yang belum dikenal oleh search engine.

 

3.      Indexer

Komponen ini melakukan aktifitas untuk menguraikan masing-masing halaman dan meneliti berbagai unsur, seperti teks, headers, struktur atau fitur dari gaya penulisan, tag HTML khusus, dll.

4.      Database

Merupakan tempat standar untuk menyimpan data-data dari halaman yang telah dikunjungi, di-download dan sudah dianalisis. kadang kala disebut juga dengan index dari suatu search engine.

 

5.      Result Engine

Mesin yang melakukan penggolongan dan penentuan peringkat dari hasil pencarian pada search engine. Mesin ini menentukan halaman mana yang menemui kriteria terbaik dari hasil pencarian berdasarkan permintaan penggunanya, dan bagaimana bentuk penampulan yang akan ditampilkan.
Proses ini dilaksanakan berdasarkan algoritma perangkingan yang dimiliki oleh search engine tersebut, mengikuti kaidah perangkingan hakaman yang dipergunakan oleh mereka adalah hak mereka, para peneliti mempelajari sifat-sifat yang mereka gunakan, terutama untuk meningkatkan pencarian yang dihasilkan oleh serach engine tersebut.

6.      Web Server

Merupakan komponen yang melayani permintaan dan memberikan respon balik dari permintaan tersebut. Web Server ini biasanya menghasilkan informasi atau dokumen dalam format HTML. Pada halaman tersebut tersedia layanan untuk mengisikan kata kunci pencarian yang diinginkan oleh usernya. Web Server ini juga bertanggung jawab dalam menyampaikan hasil pencarian yang dikirimkan kepada komputer yang meminta informasi.