FAQ - часто задаваемые вопросы
Каким образом я могу представить адреса страниц в файле Sitemaps?
Имеет ли значение, какая кодировка используется при создании файлов Sitemaps?
Каким образом определять время?
Каким образом вычислять даты последнего изменения?
Где следует размещать файл Sitemaps?
Насколько большим может быть файл Sitemaps?
Что следует делать после создания файла Sitemaps?
Какие требования к URL страниц в файле Sitemaps?
На моем сайте существуют версии адресов и "http", и "https". Следует ли мне перечислять их все?
Влияет ли позиция адреса в файле Sitemaps на его обработку?
Можно ли сжать файлы Sitemaps в zip или они должны быть сжаты в gzip?
Может ли тег "priority" в XML Sitemap изменять позиции страниц в результатах поиска?
Существует ли XML schema относительно которой следует выполнять валидацию файлов Sitemaps?
Что мне делать, если у меня есть другие вопросы по использования протокола Sitemaps?
Q: Каким образом я могу представить адреса страниц в файле Sitemaps?
Как и в других файлах формата XML, во всех значениях данных (включая адреса страниц) должны быть экранированы следующие символы: амперсанд (&), одинарная кавычка ('), двойная кавычка ("), знак меньше (<), и знак больше (>). Также следует убедиться, что все адреса страниц соответствуют стандарту для URI RFC-3986, стандарту для URI RFC-3987, и стандарту XML. Если вы используете скрипт для генерации URL, вы можете обычным образом выполнить экранирование URL. Однако, затем еще потребуется выполнить экранирование спецсимволов. Например, следующий скрипт на python выполняет экранирование спецсимволов http://www.example.com/view?widget=3&count>2
$ python
Python 2.2.2 (#1, Feb 24 2003, 19:13:11)
>>> import xml.sax.saxutils
>>> xml.sax.saxutils.escape("http://www.example.com/view?widget=3&count>2")
Результирующий адрес будет выглядеть следующим образом:
http://www.example.com/view?widget=3&count>2
Q: Имеет ли значение, какая кодировка используется при создании файлов Sitemaps?
Да. Ваши файлы Sitemaps должны быть в кодировке UTF-8.
Q: Каким образом определять время?
Следует использовать W3C Datetime encoding для тега lastmod и всех других дат и времени в протоколе. Для примера, 2004-09-22T14:12:14+00:00.
Формат ISO8601 позволяет опустить часть, где указано время; например, 2004-09-22 также корректно. Однако, если на сайт часто вносятся изменения, следует указывать и точное время для того, чтобы роботы имели как можно больше информации о страницах вашего сайта.
Q: Каким образом вычислять даты последнего изменения?
Для статических файлов это должно быть фактическое время изменения соответствующего файла. Можно использовать команду UNIX date для получения даты:
$ date --iso-8601=seconds -u -r /home/foo/www/bar.html >> 2004-10-26T08:56:39+00:00
Для многих динамических страниц можно относительно легко подсчтать дату последнего изменения основываясь на дате изменения данных или используя даты проведения периодических апдейтов сайта (если они есть). Даже использование приблизительной даты может помочь поисковым роботам не индексировать страницы, которые не менялись. Это уменьшит исходящий трафик сайта и нагрузку на серверы.
Q: Где следует размещать файл Sitemaps?
Настоятельно рекомендуется размещать файл Sitemaps в корневой директории вашего веб-сервера, например http://webartsolutions.com/sitemap.xml.
В некоторых случаях может потребоваться создать разные файлы Sitemaps для разных разделов сайта (например в случае различного уровня доступа для записи данных в разные разделы сайта сотрудникам подразделений компании).
Мы допускаем, что если вы разместили файл Sitemaps по адресу http://example.com/path/sitemap.xml, то вы имеете возможность описывать метаданные для адресов, начинающихся с http://example.com/path/.
Все адреса, указанные в файле Sitemaps, должны размещатся в пределах того же хоста, что и файл Sitemaps. Например, если файл Sitemaps размещается по адресу http://webartsolutions.com/sitemap.xml, он не может включать адреса с поддомена http://notes.webartsolutions.com. Если файл Sitemaps размещается по адресу http://www.example.com/myfolder/sitemap.xml, он не может включать адреса с http://www.example.com.
Q: Насколько большим может быть файл Sitemaps?
Файл Sitemaps не должен превышать объема 10 MБайт (10 485 760 байт) и может содержать максимум 50 000 адресов страниц. Эти ограничения позволяют обойти возможные зависания серверов, связанные с обработкой файлов большого объема. Это означает, что если на вашем сайте более чем 50 000 страниц или файл Sitemaps занимает более 10 МБайт, то следует создать несколько Sitemaps и использовать индексный файл Sitemaps. Следует использовать индексные файлы Sitemaps даже если сайт относительно небольшой, но планируется разместить более 50 000 страниц или обїем файла Sitemaps может превісить 10 МБайт. Индексный файл Sitemaps может содержать ссылки на 1000 обычных Sitemaps и не должен также превышать объема 10 МБайт (10 485 760 байт). Можно также использовать gzip для сжатия файлов Sitemaps.
Q: На моем сайте несколько миллионов уникальных страниц, каким образом я могу обозначить только те, которые изменились?
Вы можете указать часто изменяемые адреса страниц в нескольких файлах Sitemaps и использовать тег lastmod в индексном файле Sitemaps, чтобы определить целевые файлы Sitemaps. Поисковые системы затем будут последовательно обрабатывать только изменившиеся файлы Sitemaps.
Q: Что следует делать после создания файла Sitemaps?
После создания файла Sitemaps и размещения его на веб-сервере, следует отправить его в поисковую систему, поддерживающую протокол Sitemaps. Поисковые системы могут затем запрашивать ваши файлы Sitemaps и добавлять адреса страниц из этих файлов в очередь на индексацию. Используйте документацию соответствующей поисковой системы для более подробной информации об отправке Sitemaps. Вы также можете отправить адрес файла Sitemaps, используя HTTP-запрос (замените <searchengine_URL> соответствующим адресом, предоставленным поисковой системой):
Отправьте HTTP-запрос по следующему адресу:
<searchengine_URL>/ping?sitemap=sitemap_url
Например, если файл Sitemaps размещается по адресу http://www.example.com/sitemap.gz, то результирующий URL будет выглядеть так:
<searchengine_URL>/ping?sitemap=http://www.example.com/sitemap.gz
Следует делать URL-кодирование для части адреса после /ping?sitemap=:
<searchengine_URL>/ping?sitemap=http%3A%2F%2Fwww.yoursite.com%2Fsitemap.gz
You can issue the HTTP request using wget, curl, or another mechanism of your choosing. A successful request will return an HTTP 200 response code; if you receive a different response, you should resubmit your request. The HTTP 200 response code only indicates that the search engine has received your Sitemap, not that the Sitemap itself or the URLs contained in it were valid. An easy way to do this is to set up an automated job to generate and submit Sitemaps on a regular basis.
Note: If you are providing a Sitemap index file, you only need to issue one HTTP request that includes the location of the Sitemap index file; you do not need to issue individual requests for each Sitemap listed in the index.
Q: Do URLs in the Sitemap need to be completely specified?
Yes. You need to include the protocol (for instance, http) in your URL. You also need to include a trailing slash in your URL if your web server requires one. For example, http://www.example.com/ is a valid URL for a Sitemap, whereas www.example.com is not.
Q: My site has both "http" and "https" versions of URLs. Do I need to list both?
No. Please list only one version of a URL in your Sitemaps. Including multiple versions of URLs may result in incomplete crawling of your site.
Q: URLs on my site have session IDs in them. Do I need to remove them?
Yes. Including session IDs in URLs may result in incomplete and redundant crawling of your site.
Q: Does position of a URL in a Sitemap influence its use?
No. The position of a URL in the Sitemap is not likely to impact how it is used or regarded by search engines.
Q: Some of the pages on my site use frames. Should I include the frameset URLs or the URLs of the frame contents?
Please include both URLs.
Q: Can I zip my Sitemaps or do they have to be gzipped?
Please use gzip to compress your Sitemaps. Remember, your Sitemap must be no larger than 10MB (10,485,760 bytes), whether compressed or not.
Q: Will the "priority" hint in the XML Sitemap change the ranking of my pages in search results?
The "priority" hint in your Sitemap only indicates the importance of a particular URL relative to other URLs on your own site and does not imply any effect on the ranking of your pages in search results.
Q: Существует ли XML schema относительно которой следует выполнять валидацию файлов Sitemaps?
Да. XML schema для файлов Sitemaps размещена по адресу http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd, И schema для индексных файлов Sitemaps доступна по адресу http://www.sitemaps.org/schemas/sitemap/0.9/siteindex.xsd. Вы также можете прочитать о валидации Sitemaps.
Q: Что мне делать, если у меня есть другие вопросы по использования протокола Sitemaps?
Смотрите доступную документацию на каждой поисковой системе для детальной информации по отправке и и спользованию Sitemaps.
Last Updated: 29 November 2006