KomputerPemrograman

Apa crawler? alat crawler "Yandex" dan Google

Setiap hari di Internet ada sejumlah besar bahan baru untuk membuat website memperbarui halaman web lama, meng-upload foto dan video. Tanpa tersembunyi dari mesin pencari tidak dapat ditemukan di World Wide Web, tidak satupun dari dokumen-dokumen ini. Alternatif seperti program robot pada waktu tertentu tidak ada. Apa yang dimaksud dengan robot pencari, mengapa Anda membutuhkannya dan bagaimana untuk beroperasi?

Apa yang dimaksud dengan robot pencari

situs Crawler (mesin pencari) - itu adalah program otomatis yang mampu mengunjungi jutaan halaman web, cepat menavigasi melalui internet tanpa intervensi operator. Bot terus-menerus memindai ruang dari World Wide Web, menemukan halaman web baru dan teratur kunjungi sudah terindeks. Nama lain untuk web crawler spider, crawler, bot.

Mengapa laba-laba mesin pencari

Fungsi utama yang melakukan spider mesin pencari - halaman web diindeks, serta teks, gambar, audio dan file video yang ada di mereka. Bot memeriksa referensi, situs mirror (salinan) dan update. Robot juga melakukan kontrol HTML-kode untuk standar Kesesuaian Organisasi Dunia, yang mengembangkan dan menerapkan standar teknologi untuk World Wide Web.

Apa pengindeksan, dan mengapa diperlukan

Pengindeksan - adalah, pada kenyataannya, adalah proses mengunjungi halaman web tertentu oleh mesin pencari. Program ini memindai teks di situs ini, gambar, video, link keluar, maka halaman muncul dalam hasil pencarian. Dalam beberapa kasus, situs tidak dapat dipindai secara otomatis, maka dapat ditambahkan ke mesin pencari secara manual webmaster. Biasanya, ini terjadi karena tidak adanya link eksternal ke halaman tertentu (sering hanya baru-baru ini dibuat).

Bagaimana laba-laba mesin pencari

Setiap mesin pencari memiliki bot sendiri dengan robot pencari Google dapat bervariasi secara signifikan sesuai dengan mekanisme bekerja pada program serupa, "Yandex" atau sistem lainnya.

Secara umum, prinsip kerja robot adalah sebagai berikut: program "datang" di situs dan link eksternal dari halaman utama, "berbunyi" Web sumber daya (termasuk mereka yang mencari biaya overhead yang tidak melihat pengguna). Perahu adalah bagaimana untuk menavigasi antara halaman dari sebuah situs dan beralih ke orang lain.

Program ini akan memilih situs untuk indeks? Lebih sering daripada tidak "perjalanan" laba-laba dimulai dengan situs berita atau direktori sumber daya utama dan agregator dengan berat referensi besar. Crawler terus menerus memindai halaman satu persatu, pada tingkat dan konsistensi mengindeks faktor-faktor berikut:

  • Internal: perelinovka (internal link antara halaman dari sumber daya yang sama), ukuran situs, kode yang benar, dan sebagainya user-friendly;
  • Eksternal: total referensi berat, yang mengarah ke situs.

Hal pertama pencarian pencarian robot di situs web apapun oleh robots.txt. pengindeksan sumber daya lebih lanjut dilakukan berdasarkan informasi yang diterima itu adalah dari dokumen ini. File ini berisi petunjuk khusus untuk "laba-laba" yang dapat meningkatkan kemungkinan halaman kunjungan oleh mesin pencari, dan, akibatnya, untuk mencapai sebuah situs hit di awal "Yandex" atau Google.

Program analog crawler

Seringkali istilah "pencarian robot" bingung dengan cerdas, pengguna atau agen otonom, "semut" atau "cacing". Direndam perbedaan yang signifikan hanya dibandingkan dengan agen, definisi lain merujuk kepada sejenis robot.

Misalnya, agen dapat:

  • intelektual: program, yang dipindahkan dari situs ke situs, mandiri memutuskan bagaimana untuk melanjutkan; mereka tidak sangat umum di Internet;
  • Otonom: Agen ini membantu pengguna dalam memilih produk, pencarian, atau mengisi formulir, yang disebut filter, yang sedikit terkait dengan program jaringan;.
  • pengguna: program berkontribusi interaksi pengguna dengan World Wide Web, browser (misalnya, Opera, IE, Google Chrome, Firefox), utusan (Viber, Telegram) atau program e-mail (MS Outlook dan Qualcomm).

"Semut" dan "cacing" yang lebih mirip dengan mesin pencari "laba-laba". Bentuk pertama antara jaringan dan konsisten berinteraksi seperti koloni semut ini, "cacing" mampu mereplikasi dalam hal lain sama dengan crawler standar.

Berbagai robot mesin pencari

Membedakan antara berbagai jenis crawler. Tergantung pada tujuan dari program ini, mereka adalah:

  • "Cermin" - Duplikat browsing website.
  • Ponsel - fokus pada versi mobile halaman web.
  • Cepat - memperbaiki informasi baru dengan cepat dengan melihat update terbaru.
  • Referensi - Indeks acuan, menghitung jumlah mereka.
  • Pengindeks berbagai jenis konten - program khusus untuk teks, audio, video, gambar.
  • "Spyware" - mencari halaman yang belum ditampilkan dalam mesin pencari.
  • "Woodpecker" - secara berkala mengunjungi situs untuk memeriksa relevansi dan efisiensi mereka.
  • Nasional - browsing sumber daya Web yang terletak di salah satu domain negara (misalnya, Mobi, atau .kz .ua).
  • Global - Indeks semua situs nasional.

Robot mesin pencari utama

Ada juga beberapa spider mesin pencari. Secara teori, fungsi mereka dapat sangat bervariasi, tetapi dalam prakteknya program yang hampir identik. Perbedaan utama mengindeks halaman web robot dua mesin pencari utama adalah sebagai berikut:

  • Ketatnya pengujian. Hal ini diyakini bahwa mekanisme crawler "Yandex" perkiraan agak ketat situs untuk memenuhi standar World Wide Web.
  • Pelestarian integritas situs. Indeks crawler Google seluruh situs (termasuk konten media), "Yandex" dapat juga melihat konten secara selektif.
  • tes kecepatan halaman baru. Google menambahkan sumber daya baru dalam hasil pencarian dalam beberapa hari, dalam kasus "oleh Yandex" proses dapat berlangsung dua minggu atau lebih.
  • Frekuensi re-pengindeksan. Perayap "Yandex" memeriksa pembaruan dua kali seminggu, dan Google - satu setiap 14 hari.

Internet, tentu saja, tidak terbatas pada dua mesin pencari. mesin pencari lainnya memiliki robot mereka yang mengikuti parameter pengindeksan mereka sendiri. Selain itu, ada beberapa "laba-laba" yang dirancang sumber daya tidak besar pencarian, dan tim individu atau webmaster.

kesalahpahaman umum

Berlawanan dengan kepercayaan populer, "laba-laba" tidak memproses informasi. Program ini hanya scan dan menyimpan halaman web dan pengolahan lebih lanjut dibutuhkan robot yang sama sekali berbeda.

Juga, banyak pengguna percaya bahwa laba-laba mesin pencari memiliki dampak negatif dan "berbahaya" Internet. Bahkan, beberapa versi dari "laba-laba" secara signifikan dapat membebani server. Ada juga faktor manusia - webmaster, yang menciptakan program, dapat membuat kesalahan dalam konfigurasi robot. Namun sebagian besar program yang ada dirancang dengan baik dan dikelola secara profesional, dan masalah yang muncul segera dihapus.

Bagaimana mengelola pengindeksan

robot mesin pencari adalah program otomatis, tetapi proses pengindeksan sebagian dapat dikendalikan oleh webmaster. Hal ini sangat membantu eksternal dan optimasi internal yang sumber daya. Selain itu, Anda dapat secara manual menambahkan situs baru ke mesin pencari: sumber besar memiliki bentuk khusus pendaftaran halaman Web.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 delachieve.com. Theme powered by WordPress.