Запретные слова в раскрутке

   
   
27 ноября 2001 г. пресс-служба холдинга ALG опубликовала пресс-релиз, который рассказывал о том, что информация о последней разработке Студии Артемия Лебедева в области промышленного дизайна — часах Sexaginta — теперь располагается по новому адресу: wwwdesign.ru/id/sxaginta/ вместо прежнего wwwdesign.ru/id/sexaginta/. «Почувствуйте разницу» — с иронией заметила пресс-лужба ALG.

Смена адреса произошла из-за того, что «почтовые ящики Студии Лебедева и пресс-службы ALG распухли от писем служащих крупных коммерческих банков, международных финансовых корпораций, трансатлантических инвестиционных холдингов и т.п. Служащие жаловались на невозможность посмотреть новую замечательную разработку Студии Лебедева в области промышленного дизайна, «поскольку их @#%$&^$ системные администраторы установили #%^$%@# прокси, которые режут все урлы, в которых обнаруживается слово sex». Соответственно, часы Sexaginta («шестьдесят», лат.) были приравнены к голым теткам, гомосексуализму, художественному произведению «Глубокая глотка», University of Sussex и детской порнографии».

Изумительный пресс-релиз! И очень поучительный — на мой взгляд, его можно без всякой дополнительной правки включать в качественные пособия для веб-разработчиков. Но я расскажу о проблеме чуть поподробнее.

Итак, чтобы люди, работающие в различных организациях, и имеющие доступ в интернет за счет фирмы, не тратили свое рабочее время и деньги своей компании на лазанье по развлекательным ресурсам, в прокси-серверах, через которые осуществляется доступ в интернет, настраиваются специальные фильтры. Эти фильтры не пропускают запросы на просмотр URL'ов, в которых содержатся определенные ключевые слова. Самые популярные и чуть ли не обязательные — это, конечно, sex, porno, erotic, xxx, а дальше — «по вкусу» — games, chat, MP3 и т.п.

Однако медаль, получаемая прокси-серверами организаций за успешную борьбу за чистоту корпоративного трафика, имеет и обратную сторону: часто «запретные» слова обнаруживаются в адресах страниц, которые на самом деле к темам «sex» или «games» никакого отношения не имеют. Таким образом, вполне приличные и серьезные веб-страницы оказываются недоступными для корпоративных пользователей.

Как подметил Рома Воронежский в своем юморном «Словаре программиста», «Корпоративный пользователь — жалкое, затюканное существо, которое не имеет права выбирать себе компьютер и программы для него». К этому можно добавить — «которое не имеет права выбирать веб-сайты, которые можно посетить». Но, тем не менее, пользователи, выходящие в Сеть со своих рабочих мест, составляют значительную часть всей российской аудитории интернета: в выходные дни посещаемость веб-сайтов по сравнению с буднями падает в среднем в два раза. А у проектов, ориентированных на бизнес, корпоративные пользователи составляют даже больше, чем 50% аудитории.

Так что, волей-неволей, а с корпоративными пользователями (точнее, системными администраторами, устанавливающими фильтры на прокси-серверах), приходится считаться — это вам не 5%, использующих браузер Netscape 4.x. К тому же, если уж говорить о старых или экзотических браузерах, то в них большинство сайтов все-таки можно просмотреть, а вот корпоративные прокси-серверы вообще не пропускают адреса с «запретными» словами, показывая вместо них стандартную страницу с сообщением о запрете доступа.

На «грабли» корпоративных прокси наступают очень многие веб-разработчики. Кто-то слишком увлекается творческим процессом — страница с информацией о часах «Sexaginta» — как раз такой случай. А вот еще один пример из этой категории: в 1998 г. на сайте студии РусАрт (wwwstudio.ru, теперь она называется Индивид) был опубликован рассказ об интересном эпизоде из практики компании. Дизайнеры фирмы при верстке страниц использовали цветные графические распорки, названия которых представляли собой коды соответствующих цветов: например, файл черной распорки назывался «000000.gif». А вот прозрачную распорку дизайнеры назвали «xxxxxx.gif», что было вполне логичным, учитывая то, что цвет у прозрачной распорки отсутствует, а отсутствующее или неизвестное традиционно обозначается символом «x». Но корпоративные прокси, конечно, с такой логикой не были знакомы, и, «видя» в имени файла «запретную» комбинацию «xxx», блокировали загрузку файла, в результате чего макет страницы в браузере искажался.

Другой частый случай неоправданной блокировки приличных и серьезных страниц корпоративными прокси-серверами — необдуманный подход веб-разработчиков к наименованию файлов веб-страниц, графики и т.п. Желая поиграть в креатив, авторы присваивают файлам «красивые» имена, хотя в этом нет никакой надобности. Например, в разгар скандала с участием президента США Билла Клинтона и Моники Левински на сервере Cityline была создана страница с подборкой материалов по данному делу — wwwcityline.ru/sexybill/. Присвоение такого названия («Сексуальный Билл») разделу, имеющему чисто политический характер — довольно сомнительный шаг. Сегодня страница wwwcityline.ru/sexybill/ удалена — наверное, из-за посещаемости, которая в два раза ниже, чем планировали авторы.

Возможно, кто-то из разработчиков дает своим документам такие названия в надежде, что страница получит хороший рейтинг в запросах поисковых систем (ведь ключевые слова эротической и развлекательной тематики пользуются повышенным спросом у посетителей поисковиков). Только зачем гнаться за хорошей позицией веб-страницы в результатах поисковых запросов, если половина пользователей все равно не сможет ее (страницу) посмотреть?

Таким образом, получается интересная ситуация: оказывается, веб-разработчик должен думать не только о том, как будет смотреться веб-страница в браузере пользователя, но и о том, будет ли она вообще показываться и не «зарубит» ли ее корпоративный прокси-сервер. Чтобы уменьшить вероятность попасть в «опалу» у прокси-серверов организаций, не следует без особой надобности применять в названиях своих документов такие слова, как sex, porno, erotic, chat, game, mp3 и их варианты.

И, напоследок, для самостоятельного изучения, список фильтров одного реально существующего корпоративного прокси-сервера. Это еще относительно мягкий вариант, блокирующий только эротику и чаты и кое-что другое по мелочи. Ни MP3, ни игры этот сервер не «режет».

^http://.*sex..*
^http://.*.sex.*
^http://.*/sex/.*
^http://.*.playboy.*
^http://.*.penthouse.*
^http://.*sexshop.*
^http://.*livesex.*
^http://.*/sex.*
^http://.*.xxx.*
^http://.*erotic.*
^http://.*xxx..*/.*
^http://.*.eros.*
^http://.*porno..*
^http://.*.porno.*
^http://.*krovatka.*
^http://.*divan.*
^http://.*zavalinka.*
^http://.*.ru/.*/chat..*
^http://.*/chat/.*
^http://.*/Chat/.*
^http://chat..*
^http://ns2.caravan.ru.*
^http://www.mtrros.msk.ru/cgi-bin/chat.*
^http://.*chat.portal.*
^http://.*/vcclient/.*
^http://.*.nude.*
^http://monah.fsn.net.*
^http://.*girlz..*
^http://.*spedia.net.*

Автор — Станислав Жарков
. Источник: http://packpymku.net/