Robots.txt ফাইল তৈরির সঠিক উপায়।

অনেক ওয়েব ডেভলোপারা বা নতুন যারা ওয়েব সাইট তৈরি করতেছে তারা না বুঝেই Robots.txt ফাইল তৈরি করে ব্যবহার করতেছে অথবা অন্যের সাইটের Robots.txt ফাইল কপি করে ব্যবহার করতেছে। আবার অনেকে তো এটা ব্যবহার করা তো দূরের কথা Robots.txt কি সেটাই জানে না। আসুন জেনে নেই Robots.txt এর বিস্তারিত।

Robots.txt কি ???


ওয়েব রোবট (Robots.txt) ফাইল বলতে বুঝায় এমন একটি ফাইল যা গুগল সার্চ ইঞ্জিনকে বা বিভিন্ন ধরনের রোবটদের বলে দেয় কোন কোন ডাইরেক্টরি সে crawl করতে পারবে আর কোনটা সে crawl করতে পারবে না।

যেমন মনে করেন Robots.txt ফাইলে যদি নীচের মত করে লিখি তবে কোন রোবট এই ডাইরেক্টরিকে crawl করতে পারবে না।

Disallow: /wp-admin/

Robots.txt ফাইল কেন প্রয়োজন ???


সার্চ ইঞ্জিন অপটিমাইজেশনের জন্য Robots.txt ফাইল অনেক গুরুত্বপূর্ণ একটি জিনিস। এর মাধ্যমেই গুগল সার্চবট বুঝে নেয় কোন কোন পেজ ইনডেক্স করতে হবে আর কোনটি করতে হবে না। এছাড়াও এটা করলে সাইটের সিকিউরিটিও বৃদ্ধি পায়। যারা। সেই সব হ্যাকার বটের মাধ্যমে সাইটকে হ্যাক করার চেষ্টা করে তাদের থেকে সুরক্ষা দিবে।

Robots.txt ফাইলের সংকেত বা শব্দ


Robots.txt ফাইলে কিছু কমন সংকেত বা শব্দ থাকে তা নিচে আলোচনা করা হলঃ

সংকেত বা শব্দ বর্ণনা
User-agent: রোবট সমূহকে নির্দেশ করে।
* User-agent: * এর মানে সকল প্রকার রোবট।
Allow: লাইনে শুরুতে Allow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা রোবট crawl করবে।বিঃদ্রঃ একটি পারফেক্ট Robots.txt ফাইলে Allow: না ব্যবহার করাই ভাল।
Disallow: লাইনে শুরুতে Disallow: বলতে বুঝায় এর পরে যেই Path বা Directory থাকবে তা কোন রোবট crawl করবে না।বিঃদ্রঃ যদি Disallow: এর পর কোন Path বা Directory না দেওয়া হয় তবে Disallow: কাজ করবে Allow এর।
# কমেন্ট লেখার জন্য ব্যবহার করা হয় এই চিহ্নটি। মানে কোড গুলো কোন বিষয়ক তা বুঝা যায়।বিঃদ্রঃ Robots.txt ফাইলে কমেন্ট না ব্যবহার করা উত্তম।

User-agent: ও Robots নিয়ে বিস্তারিত


Robots.txt ফাইল তৈরিতে প্রথমেই এসে User-agent: কথা। User-agent: বলতে ব্যবহারকারীকে বুঝি মানে যারা যারা এই সাইটটি পরিদর্শন করবে যেমনঃ সাধারন মানুষ, গুগল বট, গুগল বট ইমেজ, ইয়াহু এমন আরও অনেকে।

Robots.txt ফাইলের প্রথমেই বলে দিতে হয় কোন ব্যবহারকারীদের জন্য নীচের Disallow: গুলো প্রযোজ্য হবে। ব্যবহারকারী বলতে নির্দিষ্ট কিছু সার্চ Robots ও বিভিন্ন বটের বিশেষ কিছু অংশকে বুঝায় যেমনঃ User-agent: Googlebot-Image এখানে Googlebot-Image কিন্তু কোন Robots না। এটা গুগল বটের একটি নির্দিষ্ট অংশ। আসেন কিছু জনপ্রিয় সার্চ Robots ও বিভিন্ন বটের নির্দিষ্ট অংশের সাথে পরিচিত হই।

সার্চ Robots দের নাম Robots.txt ফাইলে ব্যবহিত শব্দ
Google  googlebot
MSN Search  msnbot
Yahoo  yahoo-slurp
Alexa/Wayback  ia_archiver
Ask/Teoma  teoma
Cuil  twiceler
GigaBlast  gigabot
Scrub The Web  scrubby
DMOZ Checker  robozilla
Nutch  nutch
Baidu  baiduspider

এবার আসুন বিভিন্ন বটের বিশেষ কিছু অংশের সাথে পরিচিত হইঃ

বটের বিশেষ অংশের নাম Robots.txt ফাইলে ব্যবহিত শব্দ
Google Image  googlebot-image
Google Mobile  googlebot-mobile
Yahoo MM  yahoo-mmcrawler
Yahoo Blogs  yahoo-blogs/v3.9
MSN PicSearch  psbot
SingingFish  asterias

Disallow বা Allow অংশ


Robots.txt ফাইল দ্বারা যা Disallow করা হবে / এর পর সম্পূর্ণ URL বা ডাইরেক্টরি নাম দিতে হবে। যেমনঃ

[php]
Disallow: /wp-admin/

Disallow: /index.php

Disallow: /moumachi.net/contact[/php]

যদি ওয়েব সাইটের কোন নির্দিষ্ট URL কে Disallow করতে হয় তবে নীচের মত লিখতে হবে

[php]Disallow: /moumachi.net/contact[/php]

যদি ওয়েব সাইটের পেজ, ট্যাগ, আর্কাইভ, ফিড, ক্যাটাগরি ইত্যাদি Disallow করতে হয় তবে নীচের মত লিখতে হবে

[php]Disallow: /page/

Disallow: /tag/

Disallow: /feed/

Disallow: /archives/[/php]

যদি ওয়েব সাইটের কোন নির্দিষ্ট এক্সটেনশন এর সকল ফাইল Disallow করতে হয় তবে নীচের মত লিখতে হবে

[php]Disallow: /*.php$

Disallow: /*.xhtml$

Disallow: /*.css$[/php]

ওয়ার্ডপ্রেস ব্যবহারকারীদের জন্য একটি কমন Robots.txt ফাইল নিচে দিলাম এটা ব্যবহার করতে পারেন। নীচের লেখা গুলো কপি করে নোট প্যাডে পেস্ট করুন এবং robot.txt নামে সেভ করুন। এরপর ফাইলটি আপনার সার্ভারের রুট ডাইরেক্টরিতে আপলোড করুন।

[php]
Sitemap: http://www.Domain.com/sitemap.xml.gz

User-agent: Googlebot-Image
Disallow:

User-agent: Mediapartners-Google*
Disallow:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /index.php
[/php]

উপরের Sitemap এ আপনার সাইটের সাইটম্যাপ দিন। এছাড়া যারা এসইও র জন্য পেজ, ট্যাগ বা আর্কাইভ, ক্যাটাগরি Disallow দিতে করতে চান তারা উপরের লেখা টুকুর সাথে নীচের অংশ টুকু অ্যাড করে দিন।

[php]
Disallow: /page/

Disallow: /tag/

Disallow: /archives/[/php]

আপনার সাইটের Robots.txt ফাইলটি আপনি খুব সহজেই দেখতে পারেন বা অন্য কেউ দেখতে পারবে। এজন্য www.yourdomain.com/robotx.txt (YourDomain এর জায়গায় আপনার সাইটের নাম দিবেন)  দিলেই হবে।

আপনার ওয়েব সাইটের Robots.txt ফাইলটি সঠিক হয়েছে কিনা তা পরীক্ষা করার জন্য http://tool.motoricerca.info/robots-checker.phtml এই সাইটটি ব্যবহার করতে পারেন। আপনার সাইটের Robots.txt ফাইলটি যদি সঠিক হয়ে থাকে তবে নীচের লোগোর মত একটি ভ্যালিড লোগো দিবে আপনাকে। চাইলে এটা আপনার সাইটে ব্যবহার করতে পারেন। আর যদি কোন ভুল থাকে তবে তা দেখাবে।

Valid Robots.txt

আপনার সাইটের Robots.txt তৈরিতে যদি কোন সমস্যা হয় তবে জানাতে পারেন।

ধন্যবাদ।