304 Not Modified



Предыдущая | Следующая

Функция бота – слать запросы и получать на них ответы, которые он и передает в хранилище на индексацию. Если этот ответ = "304 Not Modified", то документ за таким ответом уже не приходит (вся группа статусов 3xx в HTTP без отправки тела сообщения). То есть, в этом случае очередь документов на индексацию сократится обязательно – а значит, и индексация ускорится.

Не нужно сворачивать на теги страницы, они здесь ни при чем, речь только о HTTP-response. И Last-Modified не тег :) "meta http-equiv" совершенно ясно об этом говорит – все такие мета-теги являются "костылем" для статических сайтов. Не может сайт управлять HTTP-заголовками, вот и пытается вместо них слать "эквиваленты в мета-тегах". Это абсолютно ущербный заменитель, особенно в данном случае.

Я пробовал использовать Last-Modified. :) Но на мелочи, потому что есть одна проблема.
На крупных проектах обычно используют достаточно навороченные движки. При формировании страницы опрашивается множество источников данных и из каждого нужно получить время последнего изменения, потом сравнить их и выбрать самое позднее – примерно так должен выглядеть алгоритм.

Если все сделано по правилам и в соответствии с протоколом: отлавливался подзапрос "if-modified-since", и если с того времени не было изменений, вместо страницы боту отдавался статус 304.