Теоретическая основа профессии Развед wi-ki Литература Видеотека Софт Обучение On-line инструментарий разведчика Полезные материалы Материалы СМИ Обзоры Профессиональные сообщества Ретроспектива Секреты мастерства

Не пренебрегайте специализированными поисковиками

Хорошо известно, что более 70% информации или как это теперь называют – контента, в интернете составляют аудио и видео файлы. Конечно, подавляющая часть этой лавины информации составляют клипы, фильмы, песни и прочие продукты, которые при всей фантазии вряд ли можно использовать при выполнении разведзадания.

Но, тем не менее, категорически нельзя игнорировать медийный контент. С каждым годом нарастает, и не просто нарастает, а лавинообразно увеличивается, ценная деловая информация, упакованная в аудио и видео файлы. Речь идет в первую очередь о подкастах, т.е. выложенных на сайтах, блогах, файлах для прослушивания и скачивания, и видеосюжетах. Аналитика агентств, профессионально занимающихся конкурентной разведкой, показала, что среди этого материала очень много различного рода записей с разного рода событий, пресс-конференций, презентаций, докладов и т.п. В них содержится информация ценная для разведки, ведущейся как по компаниям, включая планы продвижения продукции, грядущие сделки и т.п.; по персоналиям, включая их связи, личностные характеристики и т.п.; и, наконец, по продукту, его параметрах, сферах намечаемого применения и т.п.

Безусловно, сами по себе медийные файлы – это сфера, которая требует специальной, иногда программной, т.е. с использованием софта, обработки. И об этом мы тоже сжато, но конкретно поговорим. Но в любом случае, для того, чтобы было что обрабатывать, сначала надо получить исходный материал. В 90% случаев для поиска видео и аудио материалов используют либо поисковики YouTube, RuTube, Google и Yandex.

Вертикальные поисковики

Поскольку всегда проще обозревать меньшее пространство, чем большее и понимать более узкую область, чем более широкую, то соответственно с развитием интернета постоянно растет число вертикальных или предметных поисковиков, т.е. поисковиков, ориентированных на ту или иную сферу бизнеса, науки, техники и вообще, человеческой деятельности.

Работают такие поисковики на тех же принципах, что и универсальные. Но за счет того, что число ресурсов, которые обходят и индексируют их веб-пауки является намного меньше, чем у универсальных машин, то им гораздо проще отделить качественный контент от некачественного. Еще один немаловажный фактор – это бедность профессионального языка любой сферы бизнеса, науки и техники по сравнению с человеческим языком. А коль скоро значимых слов в поисковых запросах используется меньше, то соответственно математические алгоритмы, позволяющие, что называется счислять содержимое сайтов, гораздо выше, чем у универсальных поисковиков. Соответственно, релевантность выдачи, т.е. соответствие снипетов, а ими называются короткие ссылки на сайты с маленьким фрагментом, содержащими слова, входящие в Ваш запрос, во многих случаях выше, чем у универсальных поисковиков. Общая закономерность здесь следующая – чем уже область работы предметного поисковика, тем лучшие результаты при прочих равных условиях он показывает.

Есть, надо прямо сказать, у вертикальных поисковиков и один существенный недостаток. Коммерческие, а соответственно, и кадровые, инфраструктурные и другие возможности компаний, которые их поддерживают, конечно же, уступают таким гигантам поиска, как Google, Bing, Yandex. Кроме того, многие вертикальные поисковики являются побочными продуктами компаний, основная деятельность которых лежит в другой плоскости. Поэтому совет – вертикальные поисковики обязательно использовать но, ни в коем случае, ни как замену универсальных, а как их дополнение. Как инструменты, позволяющие углубить, уточнить, а иногда и получить дополнительную информацию. В первую очередь это относится к патентному поиску. К поиску научно-технической информации, поиску программных решений, кодов и т.п. При этом приходится учитывать, что в Рунете вертикальных поисковиков до обидного мало.

Добыча разведчика – файловые поисковики.

Файловый поиск принципиально отличается от рассмотренных выше поисковых машин. Здесь не индексируются и не ищутся страницы, не происходит их ранжирование, нет никакой поисковой выдачи в виде спинетов.

В мире сейчас действует многие тысячи тысяч так называемых FTP серверов общего пользования и сотни тысяч корпоративных серверов. FTP они называются, поскольку являются файлохранилищами. Их ни в коем случае нельзя путать с торрентами, против которых ведется сейчас повсеместно и в России и за рубежом борьба.

В FTP серверах хранятся самые разнообразные файлы в самых различных форматах. Даже фантазии не хватает описать, что там есть. Известны случаи, когда на этих серверах оказывались подробные описания передовых научно-исследовательских разработок, бета-версии компьютерных программ и много-много другого ценного. Конечно, так же как в случае с аудио и видео контентом значительную часть составляют файлы, которые вряд ли пригодятся для целей бизнеса и выполнения разведзадания, но вероятность найти там материал по интересующей теме имеется и немаленькая.

Определенная сложность состоит в способе использования файловых поисковиков. Для того чтобы найти файл, нужно знать его название. А в подавляющем большинстве случаев применительно к тематике конкурентной разведки, как раз название то интересующего файла, нам неизвестно. Означает ли это, что надо опустить руки и игнорировать FTP поисковики? Отнюдь. Название любого файла является достаточно длинным и включает в себя ряд элементов. Поэтому, например, если вы ищете информацию о какой-то компании или персоналии, то попробуйте на всякий случай ввести в английской транскрипции интересующий Вас объект или субъект. Файловые поисковики построены таким образом, что если в название файла фрагментом входит введенный запрос, то в выдаче вы получите весь набор файлов, где содержится это слово. А там уж, что называется, надо брать в руки лопату и копать.

Надо сказать, что работа с файловым поисковиком абсолютно проста и схожа с универсальным. Вводится либо полное название файла, либо известный Вам фрагмент. В каталоге выбирается тип файла, географическое расположение серверов. После этого остается только нажать на кнопку «Найти» и ждать результата.

Интерес представляют появляющиеся поисковики, представляющие собой своего роди гибрид между файлом и универсальным поисковиком. Как универсальный поисковик он выдает ссылки на конкретные веб-страницы, как файловый поисковик он ищет только страницы с файлами определенного формата. Наиболее интересные для нужд конкуретной разведки такого рода поисковик – это http://www.zanran.com. Он ищет файлы формата PDF, Excel, DOC и т.п. Именно в этих форматах хранится наиболее интересующая разведчиков информация.

О «Невидимом интернете» и быстротекущем времени

Очевидно, в «невидимом интернете» хранится зачастую наиболее желанная, интересная и ценная для выполнения разведзадания информация. Прежде всего, в «невидимом интернете» содержится львиная доля сведений. Кроме того, наиболее ценная информация не выставляется напоказ. Классическая работа на этот счет была написала еще в 2001 году двумя американцами. Г.Прайсом и Р.Шерманом. Она так и называется «Невидимый интернет». В ней указывалось, что до 90% неспамовых сведений приходится именно на «невидимый интернет». А то, с чем работают поисковики – это просто верхушка айсберга.

Подавляющая часть признанных работ, посвященных «Невидимому интернету» опубликованных в бумажном и в электронном виде, приходится на период до 2006 года. В прошлом году была издана одна книга в Америке на эту тему. Кстати, она была мгновенно раскуплена. Что интересно, эта книга является не чем иным, как изложением работы Шермана и Прайса максимально понятным языком для студентов старших курсов колледжей. Пожалуй, единственным исключением является недавно защищенная в Финляндии диссертация Дмитрия Шестакова на тему «Глубокого веба». Соответственно, даже в выходящих в настоящее время публикациях наиболее авторитетных специалистов используется статистика периода до 2006 года. Между тем, в интернете можно смело считать год за десять. Поэтому сегодня вероятно в «глубоком» или «невидимом» интернете содержится сведений намного больше и по ценности, и по объему, и по доле, чем в «видимом» интернете в начале нулевых годов.

Прежде всего, широчайшее распространение «тяжелых» аудио, а тем более, видео файлов привело к совершенно другой нагрузке на составляющие сети и распределение пропорций между так называемым «видимым» и «невидимым интернетом». Поэтому, в дальнейшем я буду оперировать в основном данными, технологиями и программами, относящимися к информации текстового и статистического характера. «Невидимый интернет» в видео и аудио формате – это совершенно отдельная тема.

Недавно Вице-президент IBM по интеллектуальному анализу данных, сообщил, что за последние шесть лет объем документов в интернете увеличился в десять раз. На следующее десятилетие он прогнозирует увеличение порядка 25 раз. Под документом понимаются текстовые и статистические файлы ограниченного объема. (Т.е. большая книга, либо досье является рядом взаимоувязанных документов). По его мнению, подавляющая часть этих документов, особенно, в части коммерческой, научной, патентной информации будет относиться к «невидимому» интернету. При этом помните, что «невидимый» интернет – это не закрытый интернет, в нем можно и нужно работать.

Можно говорить о том, что в современных условиях вообще становится не очень корректно сравнивать объемы информации, находящейся в так называемом «открытом вебе» и в «невидимом вебе». По сути, на наших глазах происходит процесс расслоения интернета на несколько малосвязанных сегментов, или даже более точно, слоев.

Доступный слой, где преобладают коммерция, развлечения и справочная информация. В него все более вырождается традиционный веб 1.
Слой социального взаимодействия, которое в настоящее время по большей части происходит на основе групп по интересам, игр, делового нетворкинга и обмена легальным и нелегальным контентом. Это столь быстро развивающиеся сейчас социальные сети и, соответственно, веб 2.
Активно формирующийся, бурно развивающийся, обретающий свои инструменты работы «невидимый интернет», связанный в основном со знаниями. Знания в корне отличаются от данных тем, что представляют собой информацию, предназначенную для конкретного использования и предполагающую, как условие этого использования, наличие определенного профессионального и квалификационного уровня.
Неиндексируемый интернет с невидимыми обычным поисковикам сайтами в основном криминального и антиобщественного характера. По факту, основная часть этого интернета принадлежит сети, развернутой на основе решения ТОR. TOR был создан для своих нужд американской военно-морской разведкой. В настоящее время сеть TOR, несмотря на криминальный характер подавляющего числа сайтов, поддерживается несколькими крупнейшими некоммерческими фондами, а также рядом крупных американских корпораций и правительством Швеции.

С учетом изменений в вебе, которые произошли за последние десять лет, «невидимый» интернет грубо можно поделить на «персонифицированный интернет», «неиндексированный интернет» и «deep web».

«Персонифицированный интернет» – это интернет социальных сетей, типа Facebook, В Контакте и Google + с закрытыми для нефрендов страницами. При этом открытый контент Google+ индексируется соответственно Google, a Facebook – Bing`ом.
«Неиндексируемый интернет». Раньше, во времена Шермана-Прайса значительную часть неиндексируемого интернета составляли страницы не html формата, т.е. файлы pdf, djvu, exсel и т.п. К настоящему времени поисковики научились индексировать большинство указанных файлов и эта проблема отпала.
В неиндексируемую часть «невидимого интернета» сегодня попадают следующие интернет-страницы и сайты:
Страницы, при создании которых в URL вставлены либо robots.txt, либо прописан метатег NOINDEX.
Страницы с неаккуратно прописанными элементами флеш анимации;
Некоторая часть динамических сайтов, выполненных с определенными неточностями на движках типа Joomla;
Страницы сайта, на которые по тем или иным причинам не ведут гиперссылки с других страниц сайта. При этом, эти страницы, как правило, не имеют ограничительных метатегов и записи в URL. Во многих случаях такие страницы имеются на больших порталах и сайтах и используются либо для нужд администраторов, либо для хранения различного рода архивной и прочей информации.

Позволю себе предложить еще понятие полуиндексированного сайта. Это сайт, который зарегистрирован в каталогах поисковиков и соответственно при введении в поисковую строку запроса по теме сайта, он открывается. Но, тем не менее, из-за обсужденных выше особенностей поисковых систем, сайты не попадают не то что в первые десять, а зачастую, и в первые пятьдесят страниц выдачи, хотя содержат нужную и полезную информацию.

Причины такой полуиндексации лежат как в чрезвычайно быстром росте количества ресурсов, определенном несовершенстве поисковых алгоритмов, так и в некоторых коммерческих моментах работы наиболее популярных поисковиков. Поисковики обслуживают аудиторию, а правда жизни такова, что особенно в последнее пятилетие не только в России, но и во многих других странах мира в интернет пришла аудитория, которая ищет не информацию, а расписание электричек. И поиском занимается не человек, обладающий знаниями и достаточным уровнем образования, а люди, имеющие минимальный уровень подготовки.

«Глубокий веб». Это значительная и очень интересная с точки зрения конкурентной разведки часть «невидимого интернета». К нему, вслед за Дмитрием Шестаковым, я отношу сайты с динамическими страницами, требующими заполнения различного рода веб-форм, а также в ряде случаев, специальных паролей, логинов и т.п.

Сама по себе динамическая страница присутствует только на сервере, генерируется в соответствии с запросом пользователя и отображается как обычная веб-страница. Сайты, где для такой генерации веб-страницы не предусмотрены специальные формы, как правило, нормально индексируются поисковыми системами. В случае же наличия веб формы, генерация происходит только после ее заполнения. Соответственно, значительная часть этих страниц не индексируется. Не индексируются страницы, содержащие в полном объеме базы сведений, относящиеся к платным сайтам. Наиболее наглядно, это можно продемонстрировать на примере хорошо всем известного сайта HeadHunter. Индексируется интерфейс сайта, затем при заполнении вручную определенных веб-форм, вы можете получить часть информации бесплатно, и, наконец, при введении логина и пароля, идентифицирующего оплативших услугу пользователей, получаете базы в полном объеме.

Другие базы, такие, как, например, Интегрум, работают в еще более жестком режиме.

Иными словами, «deep web» или «глубокий веб» – это веб баз сведений и знаний, отображаемых динамическими страницами, требующими для своей генерации заполнения так называемых Search form и дополнительных форм, подтверждающих идентификацию или оплату. В совокупности эти формы называются веб-формами.

Очевидно, что, поскольку «невидимый интернет» является не только для конкурентной разведки, но и для подавляющего большинства маркетологов, хэдхантеров, огромного отряда исследователей и ученых наиболее интересной частью интернета, то должны были появиться инструменты и технологии, которые позволяют работать в этой части веба.

Как сказал по другому поводу известный Пол Бернанке, у Соединенных Штатов есть технология для решения своих проблем – это печатный станок. Поэтому следуя «мудрому» совету г-на Бернанке, даже в отсутствие печатного станка для работы во многих сегментах «невидимого интернета» единственный способ – это просто заплатить деньги и получить доступ к соответствующим базам, представленным в виде динамических страниц. Конечно, надо знать, в каких базах содержатся наиболее достоверные, полные и актуальные сведения по интересующей Вас тематике.

В 2006 году Google получил патент на Поиск баз данных через формы-интерфейсы. Однако, как показали исследования Дмитрия Шестакова, применительно к сайтам Amazon.com и т.п. Google индексирует при помощи этого алгоритма не более 10% содержащихся в базе объектов. Повторенное недавно моими специалистами тестирование показало лишь незначительное увеличение до чуть более 15-17% этого показателя.

В последнее время появился целый ряд поисковиков, осуществляющих поиск в «глубоком вебе». Как правило, эти поисковики базируются на технологии федеративного поиска. Она сводится к алгоритмам, позволяющим машине вместо человека распознавать страницы, где требуется заполнение форм, заполнять их и извлекать из динамических баз данных необходимые сведения. В основном такие машины пока используются как элементы корпоративных систем.

Автор: Елена Ларина

On-line инструментарий разведчика

Мы в соцсетях:

Сам себе разведчик