يساعد ملف robots.txt محركات البحث الكبرى على فهم الأماكن المسموح لها بالانتقال إليها على موقع الويب الخاص بك.
ولكن، على الرغم من أن محركات البحث الرئيسية تدعم ملف robots.txt، إلا أنها قد لا تلتزم جميعها بالقواعد بنفس الطريقة.
أدناه، دعنا نوضح تعريف ملف robots.txt، وكيف يمكنك استخدامه.
ما هو ملف robots.txt؟
كل يوم، هناك زيارات إلى موقع الويب الخاص بك من الروبوتات - المعروفة أيضًا باسم الروبوتات أو العناكب. تقوم محركات البحث مثل Google وYahoo وBing بإرسال هذه الروبوتات إلى موقعك حتى يمكن الزحف إلى المحتوى الخاص بك وفهرسته تظهر في نتائج البحث.
تعد الروبوتات شيئًا جيدًا، ولكن هناك بعض الحالات التي لا تريد فيها أن يعمل الروبوت في موقع الويب الخاص بك ويقوم بالزحف إلى كل شيء وفهرسته. وهنا يأتي دور ملف robots.txt.
من خلال إضافة توجيهات معينة إلى ملف robots.txt، فإنك تقوم بتوجيه برامج الروبوت للزحف إلى الصفحات التي تريد الزحف إليها فقط.
ومع ذلك، من المهم أن تفهم أنه لن يلتزم كل روبوت بالقواعد التي تكتبها في ملف robots.txt الخاص بك. لن يستمع Google، على سبيل المثال، إلى أي توجيهات تضعها في الملف حول تكرار الزحف.
هل تحتاج إلى ملف robots.txt؟
لا، ملف robots.txt غير مطلوب لموقع ويب.
إذا جاء الروبوت إلى موقع الويب الخاص بك ولم يكن لديه واحد، فسوف يقوم فقط بالزحف إلى موقع الويب الخاص بك وفهرسة الصفحات كما يفعل عادةً.
لا تكون هناك حاجة إلى ملف robot.txt إلا إذا كنت تريد المزيد من التحكم في ما يتم الزحف إليه.
بعض الفوائد لامتلاك واحدة تشمل:
- المساعدة في إدارة التحميل الزائد على الخادم
- منع مخلفات الزحف بواسطة الروبوتات التي تزور الصفحات التي لا ترغب في زيارتها
- احتفظ بمجلدات أو نطاقات فرعية معينة خاصة
هل يمكن لملف robots.txt منع فهرسة المحتوى؟
لا، لا يمكنك إيقاف فهرسة المحتوى وعرضه في نتائج البحث باستخدام ملف robots.txt.
لن تتبع جميع برامج الروبوت التعليمات بنفس الطريقة، لذلك قد يقوم بعضها بفهرسة المحتوى الذي قمت بتعيينه بحيث لا يتم الزحف إليه أو فهرسته.
بالإضافة إلى ذلك، إذا كان المحتوى الذي تحاول منع ظهوره في نتائج البحث يحتوي على روابط خارجية له، فسيؤدي ذلك أيضًا إلى فهرسة محركات البحث له.
الطريقة الوحيدة لضمان عدم فهرسة المحتوى الخاص بك هي إضافة ملف العلامة الوصفية noindex إلى الصفحة. يبدو هذا السطر من التعليمات البرمجية بهذا الشكل وسيتم إدخاله في ملف HTML الخاص بصفحتك.
من المهم ملاحظة أنه إذا كنت تريد ألا تقوم محركات البحث بفهرسة صفحة ما، فستحتاج إلى السماح بالزحف إلى الصفحة في ملف robots.txt.
أين يوجد ملف robots.txt؟
سيظل ملف robots.txt موجودًا دائمًا في النطاق الجذر لموقع الويب. على سبيل المثال، يمكن العثور على الملف الخاص بنا على https://www.hubspot.com/robots.txt.
في معظم مواقع الويب، يجب أن تكون قادرًا على الوصول إلى الملف الفعلي حتى تتمكن من تحريره في FTP أو عن طريق الوصول إلى مدير الملفات في لوحة التحكم CPanel الخاصة بمضيفيك.
في بعض منصات CMS، يمكنك العثور على الملف مباشرة في منطقتك الإدارية. HubSpot، على سبيل المثال، يصنع ذلك من السهل تخصيص ملف robots.txt الخاص بك الملف من حسابك.
إذا كنت تستخدم WordPress، فيمكن الوصول إلى ملف robots.txt في المجلد public_html بموقعك على الويب.
يتضمن WordPress ملف robots.txt افتراضيًا مع تثبيت جديد يتضمن ما يلي:
وكيل المستخدم: *
عدم السماح: / wp-admin /
عدم السماح: / wp-include /
ما ورد أعلاه يخبر جميع الروبوتات بالزحف إلى جميع أجزاء موقع الويب باستثناء أي شيء ضمن المجلدات /wp-admin/ أو /wp-includes/.
ولكن قد ترغب في إنشاء ملف أكثر قوة. دعنا نوضح لك كيف، أدناه.
يستخدم لملف Robots.txt
قد يكون هناك العديد من الأسباب التي تجعلك ترغب في تخصيص ملف robots.txt الخاص بك - بدءًا من التحكم في ميزانية الزحف وحتى منع الزحف إلى أقسام موقع الويب وفهرستها. دعنا نستكشف بعض الأسباب لاستخدام ملف robots.txt الآن.
1. حظر كافة برامج الزحف
إن منع جميع برامج الزحف من الوصول إلى موقعك ليس أمرًا تريد القيام به على موقع ويب نشط، ولكنه يعد خيارًا رائعًا لموقع ويب للتطوير. عندما تقوم بحظر برامج الزحف، سيساعد ذلك في منع ظهور صفحاتك على محركات البحث، وهو أمر جيد إذا لم تكن صفحاتك جاهزة للعرض بعد.
2. منع الزحف إلى صفحات معينة
إحدى الطرق الأكثر شيوعًا وإفادة لاستخدام ملف robots.txt الخاص بك هي تقييد وصول روبوت محرك البحث إلى أجزاء من موقع الويب الخاص بك. يمكن أن يساعد ذلك في زيادة ميزانية الزحف الخاصة بك إلى أقصى حد ومنع الصفحات غير المرغوب فيها من الظهور في نتائج البحث.
من المهم ملاحظة أنه لمجرد أنك طلبت من الروبوت عدم الزحف إلى الصفحة، فهذا لا يعني أنه سيفعل ذلك لا يتم فهرستها. إذا كنت لا تريد أن تظهر الصفحة في نتائج البحث، فستحتاج إلى إضافة علامة تعريف noindex إلى الصفحة.
نموذج لتوجيهات ملف Robots.txt
يتكون ملف robots.txt من كتل من سطور التوجيهات. سيبدأ كل توجيه بوكيل مستخدم، ثم سيتم وضع القواعد الخاصة بوكيل المستخدم هذا أسفله.
عندما يصل محرك بحث معين إلى موقع الويب الخاص بك، فإنه سيبحث عن وكيل المستخدم الذي ينطبق عليه ويقرأ الكتلة التي تشير إليه.
هناك العديد من التوجيهات التي يمكنك استخدامها في ملفك. دعونا كسر تلك أسفل، الآن.
1. وكيل المستخدم
يسمح لك أمر وكيل المستخدم باستهداف روبوتات أو عناكب معينة لتوجيهها. على سبيل المثال، إذا كنت تريد فقط استهداف Bing أو Google، فهذا هو التوجيه الذي ستستخدمه.
على الرغم من وجود المئات من وكلاء المستخدم، فيما يلي أمثلة لبعض خيارات وكيل المستخدم الأكثر شيوعًا.
وكيل المستخدم: Googlebot
وكيل المستخدم: Googlebot-Image
وكيل المستخدم: Googlebot للجوال
وكيل المستخدم: Googlebot-News
وكيل المستخدم: بينجبوت
وكيل المستخدم: Baiduspider
وكيل المستخدم: msnbot
وكيل المستخدم: slurp (ياهو)
وكيل المستخدم: ياندكس
من المهم ملاحظة أن وكلاء المستخدم حساسون لحالة الأحرف، لذا تأكد من إدخالهم بشكل صحيح.
وكيل مستخدم حرف البدل
تتم الإشارة إلى وكيل مستخدم حرف البدل بعلامة النجمة (*) ويتيح لك تطبيق التوجيه بسهولة على جميع وكلاء المستخدم الموجودين. لذا، إذا كنت تريد تطبيق قاعدة محددة على كل روبوت، فيمكنك استخدام وكيل المستخدم هذا.
وكيل المستخدم: *
سوف يتبع وكلاء المستخدم فقط القواعد التي تنطبق عليهم بشكل وثيق.
2. عدم السماح
يخبر توجيه عدم السماح محركات البحث بعدم الزحف أو الوصول إلى صفحات أو أدلة معينة على موقع الويب.
فيما يلي عدة أمثلة لكيفية استخدام توجيه عدم السماح.
منع الوصول إلى مجلد معين
في هذا المثال، نطلب من جميع برامج الروبوت عدم الزحف إلى أي شيء في الدليل /portfolio على موقعنا.
وكيل المستخدم: *
عدم السماح: /portfolio
إذا أردنا فقط ألا يقوم Bing بالزحف إلى هذا الدليل، فسنضيفه على النحو التالي، بدلاً من ذلك:
وكيل المستخدم: بينجبوت
عدم السماح: /portfolio
حظر PDF أو أنواع الملفات الأخرى
إذا كنت لا تريد الزحف إلى ملف PDF أو أنواع الملفات الأخرى، فمن المفترض أن يساعدك التوجيه أدناه. نحن نخبر جميع برامج الروبوت أننا لا نريد الزحف إلى أي ملفات PDF. يخبر $ الموجود في النهاية محرك البحث بأنه نهاية عنوان URL.
لذلك إذا كان لدي ملف pdf في mywebsite.com/site/myimportantinfo.pdf, لن تتمكن محركات البحث من الوصول إليه.
وكيل المستخدم: *
عدم السماح: *.pdf$
بالنسبة لملفات PowerPoint، يمكنك استخدام:
وكيل المستخدم: *
عدم السماح: *.ppt$
قد يكون الخيار الأفضل هو إنشاء مجلد لملف PDF أو ملفات أخرى ثم عدم السماح لبرامج الزحف بالزحف إليه وإلغاء فهرسة الدليل بأكمله باستخدام العلامة الوصفية.
منع الوصول إلى الموقع بأكمله
يكون هذا التوجيه مفيدًا بشكل خاص إذا كان لديك موقع ويب للتطوير أو مجلدات اختبار، حيث يخبر جميع برامج الروبوت بعدم الزحف إلى موقعك على الإطلاق. من المهم أن تتذكر إزالة هذا عند تشغيل موقعك، وإلا ستواجه مشكلات في الفهرسة.
وكيل المستخدم: *
العلامة * (النجمة) التي تراها أعلاه هي ما نسميه تعبير "أحرف البدل". عندما نستخدم علامة النجمة، فإننا نشير ضمنًا إلى أن القواعد الواردة أدناه يجب أن تنطبق على جميع وكلاء المستخدم.
3. السماح
يمكن أن يساعدك توجيه السماح في تحديد صفحات أو أدلة معينة تريدها do تريد أن تتمكن الروبوتات من الوصول والزحف. يمكن أن تكون هذه قاعدة تجاوز لخيار عدم السماح، الموضح أعلاه.
في المثال أدناه، أخبرنا Googlebot أننا لا نريد الزحف إلى دليل المحفظة، ولكننا نريد الوصول إلى عنصر محفظة محدد والزحف إليه:
وكيل المستخدم: Googlebot
عدم السماح: /portfolio
السماح: /portfolio/crawlableportfolio
4. خريطة الموقع
إن تضمين موقع خريطة الموقع الخاصة بك في ملفك يمكن أن يسهل على برامج زحف محركات البحث الزحف إلى خريطة الموقع الخاصة بك.
إذا قمت بإرسال ملفات Sitemap الخاصة بك مباشرة إلى أدوات مشرفي المواقع لكل محرك بحث، فليس من الضروري إضافتها إلى ملف robots.txt الخاص بك.
خريطة الموقع: https://yourwebsite.com/sitemap.xml
5. تأخير الزحف
يمكن لتأخير الزحف أن يخبر الروبوت بأن يبطئ عند الزحف إلى موقع الويب الخاص بك حتى لا يصبح الخادم الخاص بك مرهقًا. المثال التوجيهي أدناه يطلب من Yandex الانتظار لمدة 10 ثوانٍ بعد كل إجراء زحف يتخذه على موقع الويب.
وكيل المستخدم: ياندكس
تأخير الزحف: 10
هذا توجيه يجب أن تكون حذرًا معه. على موقع ويب كبير جدًا، يمكن تقليل عدد عناوين URL التي يتم الزحف إليها كل يوم بشكل كبير، الأمر الذي قد يؤدي إلى نتائج عكسية. يمكن أن يكون هذا مفيدًا على مواقع الويب الأصغر حجمًا، حيث تزور الروبوتات كثيرًا.
ملاحظة: تأخير الزحف هو غير مدعوم من جوجل أو بايدو. إذا كنت تريد أن تطلب من برامج الزحف الخاصة بهم إبطاء زحفهم إلى موقع الويب الخاص بك، فستحتاج إلى القيام بذلك من خلال أدواتهم.
ما هي التعبيرات العادية وأحرف البدل؟
تعد مطابقة الأنماط طريقة أكثر تقدمًا للتحكم في الطريقة التي يزحف بها الروبوت إلى موقع الويب الخاص بك باستخدام الأحرف.
هناك تعبيران شائعان ويستخدمهما كل من Bing وGoogle. يمكن أن تكون هذه التوجيهات مفيدة بشكل خاص على مواقع التجارة الإلكترونية.
النجمة: * يتم التعامل معها كحرف بدل ويمكن أن تمثل أي تسلسل من الأحرف
علامة الدولار: يتم استخدام $ لتعيين نهاية عنوان URL
من الأمثلة الجيدة على استخدام حرف البدل * في السيناريو الذي تريد فيه منع محركات البحث من الزحف إلى الصفحات التي قد تحتوي على علامة استفهام. يخبر الكود أدناه جميع برامج الروبوت بتجاهل الزحف إلى أي عناوين URL تحتوي على علامة استفهام.
وكيل المستخدم: *
عدم السماح: /*؟
كيفية إنشاء أو تحرير ملف Robots.txt
إذا لم يكن لديك ملف robots.txt موجود على الخادم الخاص بك، فيمكنك بسهولة إضافة ملف باستخدام الخطوات الموضحة أدناه.
- افتح محرر النصوص المفضل لديك لبدء مستند جديد. برامج التحرير الشائعة التي قد تكون موجودة على جهاز الكمبيوتر الخاص بك هي Notepad أو TextEdit أو Microsoft Word.
- أضف التوجيهات التي ترغب في تضمينها في المستند.
- احفظ الملف باسم "robots.txt"
- اختبر ملفك كما هو موضح في القسم التالي
- قم بتحميل ملف .txt الخاص بك إلى الخادم الخاص بك باستخدام FTP أو في لوحة التحكم CPanel. تعتمد كيفية تحميله على نوع موقع الويب لديك.
في WordPress، يمكنك استخدام المكونات الإضافية مثل Yoast، وAll In One SEO، وRank Math لإنشاء ملفك وتحريره.
يمكنك أيضا استخدام أداة إنشاء ملف robots.txt لمساعدتك في إعداد واحدة قد تساعد في تقليل الأخطاء.
كيفية اختبار ملف Robots.txt
قبل البدء باستخدام رمز ملف robots.txt الذي أنشأته، ستحتاج إلى تشغيله من خلال أداة اختبار للتأكد من صلاحيته. سيساعد هذا في منع حدوث مشكلات تتعلق بالتوجيهات غير الصحيحة التي ربما تمت إضافتها.
أداة اختبار ملف robots.txt متاحة فقط على الإصدار القديم من Google Search Console. إذا لم يكن موقع الويب الخاص بك متصلاً بـ Google Search Console، فستحتاج إلى القيام بذلك أولاً.
زر ال دعم جوجل الصفحة ثم انقر فوق الزر "فتح اختبار ملف robots.txt". حدد الخاصية التي ترغب في اختبارها ثم سيتم نقلك إلى شاشة، مثل الشاشة أدناه.
لاختبار رمز robots.txt الجديد، ما عليك سوى حذف ما هو موجود حاليًا في المربع واستبداله بالرمز الجديد والنقر على "اختبار". إذا كانت الاستجابة للاختبار الخاص بك "مسموح بها"، فهذا يعني أن الكود الخاص بك صالح ويمكنك مراجعة ملفك الفعلي باستخدام الكود الجديد.
نأمل أن يكون هذا المنشور قد جعلك تشعر بخوف أقل من البحث في ملف robots.txt الخاص بك - لأن القيام بذلك هو إحدى الطرق لتحسين تصنيفاتك وتعزيز جهود تحسين محركات البحث.
- الوصول
- حسابي
- اكشن
- نشط
- الكل
- المنطقة
- حول
- بنج
- قطعة
- أحذية طويلة
- البوتات
- صندوق
- دعوة
- الحالات
- سبب
- الكود
- مشترك
- محتوى
- يوم
- تأخير
- التطوير التجاري
- التجارة الإلكترونية
- رئيس التحرير
- الاسم الأول
- اتباع
- مجانًا
- خير
- شراء مراجعات جوجل
- Google بحث
- عظيم
- كيفية
- HTTPS
- HubSpot
- مئات
- مؤشر
- مسائل
- IT
- عدة
- كبير
- خط
- موقع
- رائد
- علامة
- الرياضيات
- مييتااا
- مایکروسافت
- ميكروسوفت ورد
- جاكيت
- خيار
- مزيد من الخيارات
- أخرى
- منصات التداول
- الإضافات
- محفظة
- الملكية
- RE
- الأسباب
- استجابة
- النتائج
- رجل الالي
- الروبوتات
- القواعد
- يجري
- تشغيل
- شاشة
- بحث
- محرك البحث
- محركات البحث
- SEO
- طقم
- So
- بداية
- الدعم
- مدعومة
- الهدف
- يروي
- تجربه بالعربي
- الاختبار
- كتلة
- انتظر
- الموقع الإلكتروني
- المواقع
- ما هي تفاصيل
- WordPress
- XML
- بريد ياهووو