کاربرد robots.txt چیست؟

پنجشنبه ، 22 شهریور 1397

robots.txt

همانطور که می دانید، ربات های موتورهای جستجو در میان صفحات وب می خزند، آن‌ها را ایندکس می‌کنند و لینک ‌ها را دنبال کرده و به صفحات دیگر وارد می‌شوند. اما این ربات ها قبل از خزیدن یک صفحه از دامنه، فایل robots.txt آن را می‌خوانند و بر اساس دستوراتی که در این فایل وجود دارد، اجازه خزیدن در یک صفحه و سپس ایندکس کردن را پیدا می کنند. پس با دستوراتی که در این فایل می نویسید می توانید صفحاتی را برای خزیدن منع ‌کنید و اجازه ی خزیدن در صفحاتی را صادر کنید. نوشتن این فایل نیازمند دقت و توجه زیادی است چون اگر صفحات مهمی مثل صفحه فرود (لندینگ پیج) سایت خود را مسدود کنید، به سئوی سایت خود و در نتیجه کسب و کار آنلاین خود ضربه می زنید! همچنین باید توجه کنید که اجازه دسترسی به قسمت های مهم سایت مثل صفحات مدیریتی و ادمین سایت را ندهید تا امنیت وبسایت خود را به خطر نیندازید.

پس فایل robots.txt یک فایل متنی است که به وسیله آن می توان تعیین کرد که ربات های موتورهای جستجو در کدام آدرس ها از وبسایت شما، اجازه ی خزیدن و ایندکس کردن دارند. این فایل همچنین برای جلوگیری از ایندکس شدن صفحات با محتوای تکراری و با url های مختلف کاربرد دارد.

نحوه ساخت فایل robots.txt

به کنترل پنل خود رفته و  فایلی با فرمت و نام robots.txt در پوشه روت فضای وب سایت خود بسازید و کدهای مربوطه را در آن تایپ کنید. در ساخت این فایل باید به چند نکته توجه کنید:

  •   نام این فایل را باید حتما با حروف کوچک یعنی به صورت robots.txt بنویسید.
  •   بعد از ساختن این فایل، باید آن را در آدرس http://domain.com/robots.txt که در دسترس ربات ها است، قرار دهید.
  •   توجه داشته باشید که گوگل برای خواندن این فایل، ابتدا دامنه http را می خواند.
  •   اگر می خواهید ربات های خزنده به زیر دامنه های سایت شما دسترسی داشته باشند، باید برای هر زیردامنه یک فایل robots.txt مجزا بسازید.

   اگر سایت شما هم با http  و هم https باز می شود، باید فایل robots.txt هر دو را یکسان تنظیم کنید.


در ادامه دستورات کلیدی که برای نوشتن فایل robots.txt استفاده می شود را بیان می کنیم:

User-agent:

در مقابل این عبارت نام ربات یا خزنده مورد نظر را می نویسیم. با  User-agent می توان به یک ربات یا خزنده ی خاص، و یا همه ی ربات ها اجازه ی دسترسی داد یا دسترسی آنها را مسدود کرد.

Disallow:

با این دستور می توان لیست خاصی از فایلها یا دایرکتوری هایی که نمی خواهید ربات ها به آن دسترسی داشته باشند را تعیین کرد. درواقع برای جلوگیری از ایندکس شدن آدرس خاصی از سایت از این دستور استفاده می شود. کافیست بعد از این دستور نام سایت را وارد کنید.

Disallow: /blog/

Allow:

از این دستور برای اجازه دادن ایندکسینگ زیرپوشه ای که در یک پوشه Dissallow قرار دارد استفاده می شود.

برای مثال گوگل از ربات های مختلفی برای خزیدن در وبسایت ها استفاده می کند که می توان به Googlebot یا Googlebot-Image اشاره کرد:
User-Agent: Googlebot
/Disallow: /file
اگر بخواهید قانونی که در فایل robots.txt می نویسید روی همه ی ربات ها اعمال شود، می توانید بعد از user-agent، از * استفاده کنید. در این صورت یک قانون بر روی همه ی ربات ها اعمال می شود:
User-agent:*
/Disallow: /file

اگر بخواهید دسترسی ربات ها به تمام محتویات سایت را مسدود کنید، می توانید از کاراکتر / استفاده کنید:
Disallow:/
 
اگر می خواهید دسترسی به یک تصویر روی سایت را محدود کنید، آدرس آن را به همراه User-agent مربوط به آن وارد کنید:
User-agent: Googlebot-Image
Disallow: /images/arcomp.jpg
اگر می خواهید همه ی تصاویر سایتتان را از دید ربات های موتور جستجو مخفی کنید، از این دستور استفاده کنید:
 User-agent: Googlebot-Image
Disallow:/
و اگر قصد دارید نوعی از فایل ها، مثلا فایل های تصویری با فرمت gif، را از دید موتورهای جستجو مخفی کنید می  توانید از چنین دستوری استفاده کنید:
 User-agent: Googlebot
$Disallow: /*.gif

 

تست فایل robots.txt در گوگل وبمسترز:

برای اینکه بدانید فایل robots.txt که نوشته اید به درستی، دسترسی ربات ها را محدود می کند یا نه، می توانید از امکانrobots.txt Tester در گوگل وبمسترز استفاده کنید.

برای این کار به حساب سرچ کنسول یا همان وبمستر تولز خود وارد شده، و در منوها “Crawl” را انتخاب کنید. سپس به زیرمنوی “robots.txt Tester.” رفته و وارد ابزار تست فایل robots.txt شوید. در ادیتور سمت راست محتوای فایل robots.txt را وارد کرده و submit کنید. یکی از ربات های گوگل را انتخاب کرده و روی Test کلیک کنید تا میزان دسترسی آن ربات به هرکدام از آدرس ها را ببینید.

همچنین اگر می خواهید بدانید که یک ربات به آدرس خاصی دسترسی دارد یا خیر، در قسمت “Enter a URL to test if it is آدرس مورد نظر خود را وارد کنید و نوع ربات گوگل را هم مشخص کرده و روی Test کلیک کنید.  اگر پیام “ALLOWED” را دیدید یعنی ربات مورد نظر شما به آن آدرس دسترسی دارد و در غیر این صورت با پیام “BLOCKED” مواجه خواهید شد.

 

 

منبع: تیم تولید محتوای گروه طراحی آرکامپ

                 (کیانا مهدی نژاد)

 

 

 

 

 

 

capthca    

تاکنون نظری ثبت نشده است.

نمادهای دریافت شده

نماد اعتماد الکترونیکی گروه آرکامپlogo-samandehi

لیست پروژه ها

گروه طراحی آرکامپ با تاکید بر نیازهای مشتریان و با بکارگیری جدیدترین تکنولوژی های مربوطه همواره خدمات خود را در زمینه تولید نرم افزار و طراحی وبسایت ارائه داده است. لیستی از این پروژه ها در این بخش آمده است.
مشاهده پروژه ها

 

کمک به موسسه خیریه محک

جدیدترین مطالب