logo_34
BİLGİSAYAR ANA SAYFA
Siteniz google'da ilk sayfada olsun(Sayfa index'leme)

Robots.txt dosyasını el ile oluşturma

En basit robots.txt dosyası iki kural kullanır:

robots.txt dosyası oluşturun ve içine şu kodu yazın:

Kod:
User-agent: *
Disallow: /

  • User-agent: aşağıdaki kuralın geçerli olduğu robot
  • Disallow: engellemek istediğiniz URL

Bu iki satır, dosyada tek bir giriş sayılır. İstediğiniz kadar çok giriş ekleyebilirsiniz. Tek girişe birden çok Disallow satırı ve birden çok user-agent ekleyebilirsiniz.

robots.txt dosyasındaki her bölüm ayrıdır ve önceki bölümleri esas almaz. Örneğin:

User-agent: *  Disallow: /klasor1/    User-Agent: Googlebot  Disallow: /klasor2/  

Bu örnekte yalnızca /klasor2/ ile eşleşen URL'lere Googlebot için izin verilmemektedir.

User-agent'lar ve botlar

User-agent, belirli bir arama motoru robotudur. Web Robotları Veritabanı'nda, sık kullanılan pek çok bot listelenir. Bir girişi belirli bir bota (adını listeleyerek) veya tüm botlara (yıldız işareti koyarak) uygulanacak şekilde ayarlayabilirsiniz. Tüm botlara uygulanan bir giriş şöyle görünür:

User-agent: *  

Google, birbirinden farklı çeşitli botlar (user-agent'lar) kullanır. Bizim web aramamız için kullandığımız bot, Googlebot'tur. Googlebot-Mobile ve Googlebot-Image gibi diğer botlarımız, Googlebot için belirlediğiniz kurallara uyar, ancak bu botlar için de belirli kurallar ayarlayabilirsiniz.

User agent'ları engelleme

Disallow satırında engellemek istediğiniz sayfalar listelenir. Belirli bir URL'yi veya dize kalıbını listeleyebilirsiniz. Girişin düz eğik çizgiyle (/) başlaması gerekir.

  • Sitenin tamamını engellemek için düz eğik çizgi kullanın.
    Disallow: /
  • Bir dizini ve o dizinin içinde bulunan tüm öğeleri engellemek için dizin adının sonuna bir düz eğik çizgi koyun.
    Disallow: /onemsiz-dizin/ 
  • Bir sayfayı engellemek için o sayfayı listeleyin.
    Disallow: /ozel_dosya.html
  • Belirli bir görseli Google Görseller'den kaldırmak için şunları ekleyin:
    User-agent: Googlebot-Image  Disallow: /gorseller/kopekler.jpg 
  • Sitenizdeki görsellerin tümünü Google Görseller'den kaldırmak için:
    User-agent: Googlebot-Image  Disallow: / 
  • Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın:
    User-agent: Googlebot  Disallow: /*.gif$
  • Sitenizdeki sayfalarda AdSense reklamları görüntülemeye devam ederken bu sayfaların taranmasını engellemek için Mediapartners-Google dışındaki tüm botları engelleyin. Bu, sayfaların arama sonuçlarında görünmesini engellemekle birlikte Mediapartners-Google robotunun gösterilecek reklamları belirlemek üzere sayfaları analiz etmesine olanak sağlar. Mediapartners-Google robotu, sayfaları diğer Google user-agent'ları ile paylaşmaz. Örneğin:
    User-agent: *  Disallow: /    User-agent: Mediapartners-Google  Allow: /

Yönergelerin büyük/küçük harfe duyarlı olduğunu unutmayın. Örneğin, Disallow: /onemsiz_dosya.asp, http://www.example.com/onemsiz_dosya.asp sayfasını engeller ancak http://www.example.com/Onemsiz_dosya.asp sayfasına izin verir. Googlebot robots.txt dosyasındaki boşluk karakterlerini (özellikle boş satırları) ve bilinmeyen yönergeleri dikkate almaz.

Googlebot Site Haritası dosyalarının robots.txt dosyası üzerinden gönderilmesini destekler.

Dize kalıbı eşlemesi

Googlebot (ama tüm arama motorları değil) bazı dize kalıbı eşlemelerini dikkate alır.

  • Karakterlerden oluşan bir diziyle eşlemek için yıldız (*) kullanabilirsiniz. Örneğin, özel ile başlayan tüm alt dizinlere erişimi engellemek için:
    User-agent: Googlebot  Disallow: /ozel*/
  • Soru işareti (?) içeren tüm URL'lere erişimi engellemek için (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri taramasını engellemek için):
    User-agent: Googlebot  Disallow: /*?
  • URL sonu eşlemesini belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL'leri engellemek için:
    User-agent: Googlebot   Disallow: /*.xls$

    Bu dize kalıbı eşlemesini, Allow yönergesi ile birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL'leri dışlayarak Googlebot'un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL'ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:

    User-agent: *  Allow: /*?$  Disallow: /*?

    Disallow: / *? yönergesi, ? içeren URL'lerin tümünü engeller (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'lerin tümünü engeller).

    Allow: /*?$ yönergesi, ? ile biten tüm URL'lere izin verir (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından bir dize ve bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL'lerin tümüne izin verir).

robots.txt dosyasını test etme

robots.txt testi aracı, robots.txt dosyanızın sitenizdeki bir dosyaya veya dizine Googlebot'un erişimini yanlışlıkla engelleyip engellemediğini veya web'de görünmemesi gereken dosyaları Googlebot'un taramasına izin verip vermediğini gösterir. Önerilen bir robots.txt dosyasının metnini girdiğinizde bu araç bu metni, Googlebot ile aynı şekilde okur ve dosyanın etkilerini ve bulunan tüm sorunları listeler.

Bir sitenin robots.txt dosyasını test etmek için:

  1. Web Yöneticisi Araçları Ana Sayfası'nda, istediğiniz siteyi tıklayın.
  2. Site yapılandırması altında Tarayıcı erişimi'ni tıklayın
  3. Henüz seçili değilse robots.txt testi sekmesini tıklayın.
  4. Robots.txt dosyanızın içeriğini kopyalayın ve ilk kutuya yapıştırın.
  5. URL'ler kutusunda test edilecek siteyi listeleyin.
  6. User-agen'lar listesinde istediğiniz user-agent'ları seçin.

Bu araçta yaptığınız hiçbir değişiklik kaydedilmeyecektir. Değişiklikleri kaydetmek için içerikleri kopyalamanız ve robots.txt dosyasına yapıştırmanız gereklidir.

Bu araç yalnızca Google user-agent'lar (örn., Googlebot) için sonuçlar verir. Diğer botlar ise robots.txt dosyasını aynı şekilde tanımayabilir. Örneğin Googlebot, standart robots.txt protokolünün genişletilmiş bir tanımını destekler. Allow: yönergelerinin yanı sıra bazı dize kalıbı eşlemelerini de tanır. Dolayısıyla araç bu uzantıları tanındığı gibi içeren satırları gösterirken, bunun yalnızca Googlebot için geçerli olduğunu ve sitenizi tarayabilecek diğer botlar için geçerli olması gerekmediğini unutmayın.

www.sadullah34.net

 
Ana Sayfa Satranç Planlar Dokümanlar İletişim
           
   
Web Tasarım : Sadullah Karabulut  [2008 ©] Tüm hakları saklıdır.®
Online: