מה זה קובץ Robots.txt? רגע, בטוח צריך את זה?

מזה קובץ robots.txt

מזה קובץ robots.txt?

זהו קובץ הגדרות שמתווך בין מנהל האתר למנועי החיפוש.
זה מעין תקן של שפה. מופיע כקובץ בשמו המלא  robots exclusion standard/protocol
וזוהי השפה שבה האתר שלך מדבר אל הרובוטים של מנועי החיפוש.
לכל מנועי החיפוש ישנם רובוטים (crawlers) שדואגים לאנדקס (בעצם לקרוא) את האינטרנט.

ואז זה פשוט: כדי שכל המנועי החיפוש ידברו באותה שפה עם אתרי האינטרנט,
פותחה שפה שבה מנהל האתר אומר לרובוטים (crawlers) מה לאנדקס ומאיזה דף להתעלם.

אז למה בכל זאת צריך את קובץ robots.txt?

הקובץ נועד לקשר בין מנהל האתר ומנועי החיפוש.
בעזרת קובץ זה ניתן לחסום דף ייעודי או ספריה שלמה מהרובוטים של מנועי החיפוש.
בנוסף נהוג לבצע הפניה לקובץ sitemap.xml שנקרא ע"י מנועי החיפוש ומהווה את מבנה האתר.

דוגמאות להגדרות שונות:

מאפשר לכל הרובוטים גישה לאתר

User-agent: *
Disallow:

חוסם גישה של הרובוטים לאתר

User-agent: *
Disallow:/

חוסם גישה לספריות הבאות

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

מאפשר רק לרובוט של גוגל גישה וחוסם את כל שאר הרובוטים

User-agent: Google
Disallow:
User-agent: *
Disallow: /

ציון שם הקובץ של site map כלומר אנו יכולים ליצור הצבעה לכל שם שאנו נרצה

Sitemap: http://www.domain.co.il/sitemap_index.xml

בנוסף לקובץ Robots.txt בכל דף ניתן  להוסיף תווית מיוחדת שאומרת לרובוט מה לעשות.

לדוגמה:

בדוגמה הבאה הרובוט לא מאנדקס את הדף ולא ממשיך לדף הבא לצורך אינדוקס.

META name="ROBOTS" content="NOINDEX, NOFOLLOW"

ומה אומר על כך הגורו של גוגל מט כץ?
האם ליצור את הקובץ הזה בכל מקרה (למרות שלא צריך לחסום)

מקורות:

robotstxt.org אתר לגבי מידע ודוגמות לקובץ Robots.txt

פניה מאתר w3.org שמאגד את התקן של האינטרנט בנושא  רובוטים (crawlers)

הדס רוזן

עוזרת לעסקים לבלוט באינטרנט בקידום אתרים וכתיבה שיווקית, סטוריטלרית שיודעת לספר עליך ועל העסק שלך הכי מסקרן והכי מענין כדי למשוך אליך את הקהל המתאים שיבחרו בך

כתיבת תגובה