Что значит парсить на сленге? как понять парсить? значение и смысл

Парсинг – что это значит и как парсить сайты?

Что значит Парсить на сленге? Как понять Парсить? Значение и смысл

Привет, ребят. Опережая события, хочу предупредить, что для того, чтобы парсить сайты необходимо владеть хотя бы php. У меня есть интересная статья о том, как стать php программистом. И все же, что такое парсинг?

Начнем с определения. В этой статье речь пойдет о парсинге сайтов. Попробую объяснить как можно проще и доходчивее.

Парсинг, что это значит: слово понятное дело пришло от английского parse -по факту это означает разбор содержимого страницы на отдельные составляющие. Этот процесс происходит автоматически благодаря специальным программам (парсеров).

В пример парсера можно привести поисковые системы. Их роботы буквально считывают информацию с сайтов, хранят данные об их содержимом в своих базах и когда вы вбиваете поисковой запрос они выдают самые подходящие и актуальные сайты.

Парсинг? Зачем он нужен?

Представьте себе, что вы создали сайт, не одностраничный продающий сайт, а крупный портал с множеством страниц. У Вас есть красивый дизайн, панель управления и возможно даже разделы, которые вы хотите видеть, но где взять информацию для наполнения сайта?

В интернете – где ж еще. Однако не все так просто.

Приведу в пример лишь 2 проблемы при наполнении сайта контентом:

  • Серьезный объём информации. Если Вы хотите обойти конкурентов, хотите чтобы Ваш ресурс был популярен и успешен, Вам просто необходимо публиковать огромное количество информации на своем ресурсе. Сегодняшняя тенденция показывает, что контента нужно больше чем возможно заполнить вручную.
  • Постоянные обновления.  Информацию которая все время меняется и которой как мы уже сказали большие объемы, невозможно обновлять вовремя и обслуживать.  Некоторые типы информации меняются ежеминутно и обновлять её руками невозможно и не имеет смысла.

И тут нам приходит на помощь старый добрый парсинг! Та-дааааам!
Это самое оптимальное решение, чтобы автоматизировать процесс изменения и сбора контента.

  1. быстроизучит тысячи сайтов;
  2. аккуратно отделит нужную информацию от программного кода;
  3. безошибочновыберет самые сливки  и выкинет ненужное;
  4. эффективносохранит конечный результат в нужном виде.

Тут я буду краток, скажу лишь, что для этого можно использовать практически любой язык программированию, который мы используем при разработке сайтов. Это и php, и C++, и python и т.д.

Поскольку наиболее распространенным среди веб-разработчиков является php, хочу поделиться с Вами сайтом, на котором очень доступно объясняется как парсить сайты при помощи php скрипта  http://agubtor.autoorder.biz/l/m2

Поскольку мой проект тоже совсем молодой, я хочу попробовать этот метод.

Ах да, чуть не забыл. Как всегда, для тех кто хочет разобраться в теме до уровня мастерства, вот ссылка на описание видеокурса http://agubtor.autoorder.biz/l/m3

А что Вы думаете об автоматизации сбора информации? Действительно ли без этого не обойтись или лучше наполнять сайт настоящим эксклюзивным контентом?

Напишите Ваше мнение в комментариях.

Источник: http://royal-site.ru/programmirovanie/parsing-chto-eto-znachit-i-kak-parsit-sajty/

Что такое парсинг

Узнай первым о новых статьях в нашем блоге

Парсинг — это сопоставление строки естественного языка или языка программирования с формальными правилами.

Парсинг — это инструмент работы со строковыми данными. Приведем пример, чтобы было понятно.

Представьте себя радистом на войне. Вы получаете зашифрованное сообщение. У вас есть правила дешифровки. Вы начинаете разгадывать послание согласно этому методу.
Вы смотрите вначале на символ из полученного сообщения. Потом на свою таблицу с его значением. Например, цифре “1” соответствует буква “Я”. Вы сопоставляете все символы и получаете то сообщение, которое можно прочитать.

Парсинг работает точно так же. Есть некоторый шаблон сообщения, написанный на формальном языке. С ним сравнивается какая-то строка.
Парсинг применяется в программировании, в аналитике. Может быть полезен в любой области, где есть возможность работы со строковыми данными.

Парсинг сайта — что это

В общем случае, парсинг строит шаблон последовательности символов. Например, может использоваться древовидная структура. Она показывает, в какой последовательности в строке встречаются символы. Может указывать на приоритет, если речь идет о математическом выражении.
Такие структуры нужны для анализа данных.

Парсить можно и интернет-ресурсы. Это делают, когда нужно понять, какой контент содержится на странице.
Найти на страницах сайта только ту информацию, которая нужна вам для анализа — это задача парсинга.

Скрипт парсинга работает с текстовой информацией. Он вытягивает нужные данные, представляет их в удобном виде.
Например, вы — владелец интернет-магазина. И вы хотите быстро собрать данные о других магазинах — ваших конкурентах.

Вас интересует информация с карточек товаров. Вы хотите понять, как их заполняют конкуренты, что они делают лучше вас. Вы определяете, информация с каких сайтов вам нужна. Выбираете программу или скрипт, которыми будете парсить текст. Запускаете.

Программа в одном файле может собрать информацию.

Например, название, цену на товар, категорию и описание. Далее вы уже сможете проанализировать это. Например, решить, какую цену установить для своего ассортимента.
А может, вам нужно поработать с отзывами клиентов? Это тоже задачка для парсинга сайта — собираете нужную информацию в одном месте и читаете, что о вашем конкуренте пишут клиенты.

Этапы парсинга данных

  • Сбор контента.Обычно в программу для парсинга загружается код страницы сайта. И с ним уже работает специальный скрипт — разбивает весь код на лексемы, анализирует, какая информация нужна пользователю.
  • Извлечение информации.Пользователю не нужна вся информация со страницы. Вернемся к примеру выше. Нас интересуют только отзывы клиентов под конкретными товарами — например, кормом для кошек. Парсер будет находить в коде страницы то место, где указана категория товара: “Корм для кошек”. Далее он определит то место на странице, где размещены комментарии. И извлечет в конечный файл только тексты комментариев.
  • Сохранение результатов.Когда вся нужная информация извлечена с сайтов, нужно ее сохранить. Обычно такие данные оформляют в виде таблиц, чтобы было наглядное представление. Можно вносить записи в базу данных. Как будет удобнее аналитику.
  • Защита сайта от парсинга Любой владелец сайта хочет защитить свой контент. Кража любой информации — плохо. Ваш контент может появиться на другом ресурсе, ваша статья может перестать считаться уникальной.Мы расскажем о нескольких методах, как можно предотвратить кражу контента с вашего ресурса.
  • Разграничение прав доступа.Это самый простой метод. Вы можете скрыть информацию о структуре сайта. Сделать так, чтобы она была доступна только администраторам.
  • Установка временной задержки между запросами.Этот метод хорошо работает, когда на сервер направляются хаотические интенсивные запросы. Они идут от одной машины с разными промежутками. Вы можете установить временную задержку между запросами, поступающими от одной машины.
  • Создание черного и белого списка.Это списки пользователей. В белом находятся добропорядочные пользователи. Черный список для тех людей, которые нарушили правила поведения сайта, пытались украсть контент и т. д.
  • Установка периода обновления страниц.Чтобы снизить эффективность парсинга, установите время обновления страниц в файле sitemap.xml. Вы можете ограничить частоту запросов, объем загружаемых данных.
  • Использование методов защиты от роботов.Сюда относится капча, подтверждение регистрации на ресурсе. То, что сможет выполнить человек, но не сможет проделать машина.
Читайте также:  Что значит совпадение чисел? как расшифровать числа? смысл

Парсинг может использоваться как во благо, так и во вред. Этот метод помогает проанализировать большие объемы текстовой информации. Но в то же время, проанализировать могут вас, украсть контент, вытащить конфиденциальную информацию, которая не должна попасть в чужие руки.

Источник: https://semantica.in/blog/chto-takoe-parsing.html

Парсинг Что это и где используется

Парсинг (Parsing) – это принятое в информатике определение синтаксического анализа. Для этого создается математическая модель сравнения лексем с формальной грамматикой, описанная одним из языков программирования. Например, PHP, Perl, Ruby, Python.

Когда человек читает, то, с точки зрения науки филологии, он совершает синтаксический анализ, сравнивая увиденные на бумаге слова (лексемы) с теми, что есть в его словарном запасе (формальной грамматикой).

Программа (скрипт), дающая возможность компьютеру «читать» – сравнивать предложенные слова с имеющимися во Всемирной сети, называется парсером. Сфера применения таких программ очень широка, но все они работают практически по одному алгоритму.

Независимо от того на каком формальном языке программирования написан парсер, алгоритм его действия остается одинаковым:

  1. выход в интернет, получение доступа к коду веб-ресурса и его скачивание;
  2. чтение, извлечение и обработка данных;
  3. представление извлеченных данных в удобоваримом виде – файлы .txt, .sql, .xml, .html и других форматах.

В интернете часто встречаются выражения, из которых следует, будто парсер (поисковый робот, бот) путешествует по Всемирной сети. Но зачастую эта программа никогда не покидает компьютера, на котором она инсталлирована.

Этим парсер коренным образом отличается от компьютерного вируса – автономной программы, способной к размножению, хотя по сути своей работы он похож на трояна. Ведь он получает данные, иногда конфиденциального характера, не спрашивая желания их владельца.

Виртуальный хостинг сайтов для популярных CMS:

WordPress

Joomla

OpenCart

OcStore

PrestaShop

Drupal

Magento

Moodle

MODX Revo

DLE

InstantCMS

IPB

Сбор информации в интернете – трудоемкая, рутинная, отнимающая много времени работа. Парсеры, способные в течение суток перебрать большую часть веб-ресурсов в поисках нужной информации, автоматизируют ее.

Наиболее активно «парсят» всемирную сеть роботы поисковых систем. Но информация собирается парсерами и в частных интересах. На ее основе, например, можно написать диссертацию. Парсинг используют программы автоматической проверки уникальности текстовой информации, быстро сравнивая содержимое сотен веб-страниц с предложенным текстом.

Без программ парсинга владельцам интернет-магазинов, которым требуются сотни однотипных описаний товаров, технических характеристик и другого контента, не являющегося интеллектуальной собственностью, было бы трудно вручную заполнять характеристики товаров.

Возможностью «спарсить» чужой контент для наполнения своего сайта пользуются многие веб-мастера и администраторы сайтов. Это оправдано, если требуется часто изменять контент для представления текущих новостей или другой, быстро меняющейся информации.

Парсинг – «палочка-выручалочка» для организаторов спам-рассылок по электронной почте или каналам мобильной связи. Для этого им надо запустить «бота» путешествовать по социальным сетям и собирать «телефоны, адреса, явки».

Ну и хозяева некоторых, особенно недавно организованных веб-ресурсов, любят наполнить свой сайт чужим контентом. Правда, они рискуют, поскольку поисковые системы быстро находят и банят любителей копипаста.

Конечно же, парсеры не читают текста, они всего лишь сравнивают предложенный набор слов с тем, что обнаружили в интернете и действуют по заданной программе.

То, как поисковый робот должен поступить с найденным контентом, написано в командной строке, содержащей набор букв, слов, выражений и знаков программного синтаксиса. Такая командная строка называется «регулярное выражение».

Русские программисты используют жаргонные слова «маска» и «шаблон».

Чтобы парсер понимал регулярные выражения, он должен быть написан на языке, поддерживающем их в работе со строками. Такая возможность есть в РНР, Perl. Регулярные выражения описываются синтаксисом Unix, который хотя и считается устаревшим, но широко применяется благодаря свойству обратной совместимости.

Синтаксис Unix позволяет регулировать активность парсинга, делая его «ленивым», «жадным» и даже «сверхжадным». От этого параметра зависит длина строки, которую парсер копирует с веб-ресурса. Сверхжадный парсинг получает весь контент страницы, её HTML-код и внешнюю таблицу CSS.

Парсеры и PHP

Этот серверный язык удобен для создания парсеров:

  • У него есть встроенная библиотека libcurl, с помощью которой скрипт подключается к любым типам серверов, в том числе работающих по протоколам https (зашифрованное соединение), ftp, telnet.
  • PHP поддерживает регулярные выражения, с помощью которых парсер обрабатывает данные.
  • У него есть библиотека DOM для работы с XML – расширяемым языком разметки текста, на котором обычно представляются результаты работы парсера.
  • Он отлично ладит с HTML, поскольку создавался для его автоматической генерации.

Этические и технические сложности парсинга

Вопрос о том, является ли парсинг воровством контента, активно обсуждается во Всемирной сети. Большинство оппонентов считают, что заимствование части контента, не являющегося интеллектуальной собственностью, например, технических описаний, допустимо.

Ссылка на первоисточник контента рассматривается как способ частичной легитимации. В то же время, наглое копирование, включая грамматические ошибки, осуждается интернет-сообществом, а поисковыми системами рассматривается как повод для блокировки ресурса.

Кроме этических проблем парсер способен создать и технические. Он автомат, робот, но его вход на сайт фиксируется, а входящий и исходящий трафики учитываются. Количество подключений к веб-ресурсу в секунду устанавливает создатель программы.

Делать этот параметр очень большим нельзя, поскольку сервер может не переварить потока входящего трафика. При частоте 200–250 подключений в секунду работа парсера рассматривается как аналогичная DOS-атаке.

Интернет-ресурс, к которому проявлено такое внимание, блокируется до выяснения обстоятельств.

Парсер можно написать самому или заказать на бирже фриланса, если вам требуются конкретные условия для поиска и чтения информации. Или купить эту программу в готовом виде с усредненным функционалом на специализированном веб-ресурсе.

Источник: https://www.ipipe.ru/info/parsing.html

Парсинг html-сайтов с помощью PHP, Ruby, Python

В общем смысле, парсинг – это линейное сопоставление последовательности слов с правилами языка. Понятие «язык» рассматривается в самом широком контексте. Это может быть человеческий язык (например, русский), используемый для коммуникации людей. А может и формализированный язык, в частности, любой язык программирования.

Парсинг сайтов – последовательный синтаксический анализ информации, размещённой на интернет-страницах.

Что представляет из себя текст интернет-страниц? Иерархичный набор данных, структурированный с помощью человеческих и компьютерных языков.

На человеческом языке предоставлена информация, знания, ради которых, собственно, люди и пользуются Интернетом. Компьютерные языки (html, JavaScript, css) определяют как информация выглядит на мониторе.

Реклама

Читайте также:  Значение фразеологизма уйти ни с чем? как понять уйти ни с чем? смысл?

Макросы VBA. Пора использовать Excel правильно!

Зачем нужен парсинг?

Создавая веб-сайт, его владелец неизбежно сталкивается с проблемой – где брать контент? Оптимальный вариант: найти информацию там где её очень много – в Интернете. Но при этом приходится решать такие задачи:

  • Большие объёмы. В эпоху бурного роста Сети и жесточайшей конкуренции уже всем ясно, что успешный веб-проект немыслим без размещения большого количества информации на сайте. Современные темпы жизни приводят к тому, что контента должно быть не просто много, а очень много, в количествах, намного превышающих пределы, возможные при ручном заполнении.
  • Частое обновление. Обслуживание огромного потока динамично меняющейся информации не в силах обеспечить один человек или даже слаженная команда операторов. Порой информация изменяется ежеминутно и в ручном режиме обновлять её вряд ли целесообразно.

Реклама

Конвертация CSV в YML. Прайс для Яндекса в нужном формате.

Парсинг сайтов является эффективным решением для автоматизации сбора и изменения информации.

По сравнению с человеком, компьютерная программа-парсер:

  1. быстро обойдёт тысячи веб-страниц;
  2. аккуратно отделит техническую информацию от «человеческой»;
  3. безошибочно отберёт нужное и отбросит лишнее;
  4. эффективно упакует конечные данные в необходимом виде.

Результат (будь то база данных или электронная таблица), конечно же, нуждается в дальнейшей обработке. Впрочем, последующие манипуляции с собранной информацией уже к теме парсинга не относятся.

Какие языки программирования используются для написания парсеров?

Любые, на которых создаются программы для работы со Всемирной Паутиной. Веб-приложения для парсинга обычно пишут на C++, Delphi, Perl, Ruby, Python, PHP.

Данный сайт создавался для того, чтобы продемонстрировать методы парсинга на самых популярных языках веб-программирования – PHP, Ruby и Python.

Источник: http://parsing.valemak.com/

Научиться парсингу — с чего начать?

Здравствуйте. Вопрос мой скорее связан с ориентированием в среде языков программирования. На данный момент я являюсь скорее вэб-мастером, со знаниями photoshophtml5css (в основном работаю над своими сайтами + создаю сайты клиентам, используя WordPress).

Последнее время все чаще задаюсь вопросом, чтобы освоить один из языков программирования, чтобы стать более серьезным специалистом. Это значит, что я спрашиваю себя для чего мне это нужно — что я буду с этим делать.

Ответы получаются такие:

1) Освоив, например PHP, я могу создавать плагины для WordPress и другие смежные скрипты (сразу скажу, что мне часто приходится это делать, т.к. сайты создаю с нуля и под разные нужды). К тому же нередко приходят интересные идеи, и хотелось бы творить, реализовывая это самостоятельно.

Скажем, к этому пункту подходит перспектива стать разработчиком на PHP в рамках WordPress. Ведь сейчас он популярен, сайтов становится всё больше, и даже e-Commerce прорывается, базируясь на каком-нибудь Woo.

2) Парсинг (тема вопроса). Мне нравится эта тема, когда можно собрать определенные данные, обработать их и вывести во что-то интересное. На практике уже не раз приходилось встретиться с такими проектами (для себя), но работу я поручал другим программистам.

Сейчас я наконец созрел для того, чтобы освоить один из языков программирования, чтобы реализовывать свои задачи самостоятельно. Мне это действительно интересно.

Я считаю важным понимание зачем мне это понадобится, поэтому специально описал 1, и 2-ы пункты. Зная что я буду делать, я смогу более детально изучить интересуемую область.

Я решил обратиться к вам за советом, чтобы понять с чего правильно начать и в целом услышать что вы думаете. Спасибо!

  • Вопрос задан более двух лет назад
  • 13914 просмотров

Подписаться 72 Оценить Комментировать

  • 1) Нужно иметь представление, как загружаются и работают сайты. Тут необходимо иметь представление и о том, что полезный контент может появится на сайте и после загрузки через определенное время. 2) Нужно иметь представление, как работает самый обычный способ получения контента — Curl. Попробуйте скопировать что то, поработать, представить в xml документ и тд. Тут вы определитесь с принципом работы парсера. — парсер получает вводую информацию -> с учетом программы и вводных данных, парсер запрашивает определенные данные -> парсер обрабатывает данные для пользователя -> при необходимости, парсер повторяет запрос (инициированный пользователем или рекурсий) -> конец 3) Далее вы дойдете до механизмов защиты от парсинга: — ограничение запросов на 1 ip, на один клиент и тд — подгузка информации после загрузки контента — дополнительный запрос на подгрузку контента с CSRF и другими способами — блокирование ip Это откроет вам парсеры типа PhantomJs, Научит пользоваться прокси, мимикрировать под популярные браузеры и тд. Так же вы дойдете до многопоточности работы парсера, и подумаете о переходе на C и подобный язык программирования. Общаясь с сайтом уже посредством api.А дальше, сталкиваяь с новыми проблемами, будете их решать.Нравится 20 1 комментарий
  • С php не имел удовольствия работать, но поводу парсинга могу пояснить. Что вам, по большому счету, надо, так это: 1) скачать страничку сайта или сделать вызов HTTP API. В этом вам помогут библиотеки вроде curl. 2) разобрать полученные в п.1) данные. В случае API, как правило,это JSON. В случае HTML вам пригодится знание XPATH-выражений (которые также помогут, если в результате выполнения п. 1) вы имеете XML) и css-селекторов. Исполнять эти запросы будет XML- или DOM-парсер. 3) полученные в п.2) данные сохранить в конечном или промежуточном виде: CSV, записи в RDBMS (sqlite, mysql, postgresql) или NoSql (Mongo, например) В дальнейшей работе помогут Selenium (или другой HTTP клиент с исполнением javascript), очереди заданий, кэширование (redis).Думаю, направление для поиска я вам задал.Нравится 6 2 комментария
  • Для парсинга обычных страничек используйте php-либу phpQuery. Для парсинга ajax-стариничек, то есть страниц с динамически загружаемым контентом, которые phpQuery видит как пустые, используйте java-либу htmlUnit, с помощью которой можно написать простенький код получения и сохрания страницы в файл, который потом можно распарсить с помощью phpUnit. Язык селекторов phpQuery аналогичный jQuery, так что сложностей возникнуть не должно.Самый простой способ — выбрать сайт, открыть его в f11 и тренироваться.Нравится 2 Комментировать

Пригласить эксперта

  • Для парсинга я бы посоветовал использовать Python. Он довольно гибкий и простой в изучении. И для этих целей подходит как нельзя лучше. Особенно если нужно парсить динамический контент (AJAX, javascript и постзагруза) Альтернативой здесь может быть Java, но это слишком сложно для начинающих Можно использовать такую связку:Python, Selenium+phantomjs ( загрузка страниц ), beautifulsoup (парсинг html), pymysql (для выгрузки в ДБ).Если контент статический то все еще проще — Python + beautifulsoupРаботает все очень быстро. А главное api очень интуитивное и разобраться в функционале очень легко.Нравится 5 Комментировать
  • В самом парсинге нет ничего сложного — берете несколько кусков чужого кода (например несколько однотипных страниц HTML с товаром или новостями), определяете то что вам нужно вытащить, далее смотрите какие-то закономерности, вложенности, признаки и т.д. Определяете — всегда ли это работает или нет. Пишете шаблон (или шаблоны в циклах), потом проверяете тестами — лучше онлайн (например https://regex101.com/ ), чтобы можно было сразу видеть результат.Другое дело как быть со «спарсенными» данными — стоит им доверять полностью или нет. Что делать с данными, если что-то пошло не так.Нравится 3 1 комментарий
  • Если хотите начать с чего-то приземленного не боясь запутаться — посмотрите в сторону xpath. Применяется почти во всех современных языках (в том числе C#, Java). Для практики самое то. Примерно разобравшись с тем, что это такое, сразу поставьте себе задачу. К примеру, спарсить много данных, залить всё в свою БД (сразу и с этим потренируетесь), и дальше, к примеру, строить графики (самый простой вариант).Нравится 2 Комментировать
  • Отличная библиотека для парсинга сайтов — grab. Правда, на питоне. Самому пришлось изучить python только ради использования этой библиотеки, и не пожалел — удобный язык, как и библиотека — делаете запросы на xpath и сохраняете результаты:g = Grab(log_file='parse_log.html')
    g.go(url)
    pages_block = g.doc.select('//div[contains(@class,»pager»)]/div[contains(@class, «pages»)]')
    if pages_block: pages = pages_block.select('.//li/a[not(@title=»Next» or @title=»Previous»)]') page_hrefs = [] for page in pages: href = page.node.attrib['href'] page_hrefs.append(href) print «Page: %d» % int(page.text())Нравится 2 4 комментария
  • Для парсинга изучайте запросы и ответы от HTTP серверов, через сниффер (например Charles). Освойте базы языка C#. Используйте библиотеку xNet для C# от нашего соотечественника. Для хранения данных советую SQLite и NoSQL (в зависимости от задачи).Тьму проектов уже сделал на них, работает очень шустро, рекомендую.Нравится 1 Комментировать
  • (2) теоретически парсинг _любых_ текстовых форматов в самом общем смысле можно делать связкой flex/bison/C++: 1) прописывая регулярки для элементов языка входных данных (строки, числа, тэги,…), затем 2) на bison описываете грамматику входного языка (вложенные тэги, правила расстановки атрибутов, вложенные скобочные выражения и т.п.), flex/bison генерит пару сишных/С++ файлов, выполняющих всю грязную работу по синтаксическому разбору формата, дергая для каждого определенного элемента _ваш_ кусок сишного кода. Что потом делать с этими данными (пихать с СУБД, генерировать AST для компилятора, просто вычленять нужные единичные данные,..) описываете сами на С++.У этого подхода соотношение низкоуровневость*гемор/универсальность стремиться к бесконечности, но по мере наработки библиотеки С++ кода для ваших узких задач для каждой N+1 задачи все сводится к генерации типовых высокоуровневых объектов (символов, списков, деревьев и т.п.), и пары десятков строк кода именно для этой задачи.Нравится 1 комментарий
  • парсить можно на чем угодно. встречал много примеров на пайтоне. а так вообще подойдет на самом деле любой язык программирования, все зависит от удобства и адаптации… как правило выгоднее использовать интерпретируемые языки программирования и скриптовыеНравится Комментировать
Читайте также:  Что значит авось? как понять слово авоська? значение и смысл

Самое интересное за 24 часа

Источник: https://toster.ru/q/254656

Парсить — что это значит? Определение и цели

Гуглить давно уже стало привычкой. Причем совершенно неважно, какой поисковый механизм для этого использовать. Google — это идея, а как ее реализовать, вопрос второй.

Какую бы поисковую машину ни использовал человек, в результате он стремится получить нужное решение быстро и правильно. В большинстве случаев достаточно полистать нужные книжки и найти информацию. Но всегда все хочется сделать быстрее и качественнее.

Классический парсинг информации

Читать книжки — парсить. Что это значит? Это когда человек просто понимает прочитанное и оценивает его относительно автора и издательства. Но это очень эффективный процесс, хотя длительный и трудоемкий.

Гораздо эффективнее использовать поисковые машины интернета: быстро и много информации. Есть выбор.

Однако поиск в интернете:

  • не дает гарантии свежести результата;
  • не дает гарантированного авторитета автора;
  • без издательства, редактора или хотя бы одного цензора написанному.

Но поиск в интернете быстр и объемен — есть выбор. А если выборка велика, то обобщение результата дает необходимые гарантии.

Можно парсить на PHP и тогда автоматом можно оценить свежесть каждого элемента выборки, но редкая поисковая машина не проверяет посетителя на робота и в обязательном порядке потребует капчу или иным образом постарается подтвердить посещение человеком, а не роботом или пауком.

Интернет-парсинг

В интернете есть сайты и поисковые машины. Первые предоставляют информацию, вторые предлагают информацию, которую собрали сами, анализируя многочисленные сайты длительное время.

Найти нужные сайты не так легко для конкретной цели. Воспользоваться поисковыми машинами просто для человека, но не для задачи парсить PHP-скриптом, «интеллектуальным» AJAX-запросом или иным оригинальным образом.

Поисковики стараются работать на человека и «бесплатно» отдавать результаты многолетней работы по разработке алгоритмов поиска и парсинга информации не намерены.

Ответить на капчу не каждому PHP-скрипту возможно, потому вопрос о том, как парсить сайты, фактически означает: как создать собственную поисковую машину. Многие авторитетные поисковики не ограничиваются капчей для проверки того, кто обратился с запросом. Есть множество более простых способов обнаружить робота или паука. Результат выборки будет нежелательным для «искателя» информации.

Определение цели

Поиск информации — поиск сайтов или источников информации. Книжные издания и иные классические формы выражения знаний и опыта, подтвержденные авторитетными авторами, редакторами, издательствами, — это не парсинг, это длительный, убедительно верный процесс поиска нужной информации.

А в современном информационном мире парсить — что это значит? Эту задачу решает конкретный скрипт, написанный конкретным программистом для решения конкретной задачи. Постановщик задачи может и не предполагать, что и как делает этот скрипт. Но он всегда знает, что и как он хочет найти.

При любом положении вещей определение цели заказчика — задача исполнителя. Но вопрос даже не в том, насколько полно они поймут друг друга, вопрос в том, как сделать качественный парсинг.

Хорошая идея — поставить цель найти информацию свежую, точную и объективно достоверную. Отличная идея — определить достижение цели как правильное движение по тегам страниц. HTML — это реальная среда для представления информации, и она идеально точно позволяет различить нужную информацию от рекламного спама.

Источник: http://fjord12.ru/article/375399/parsit—chto-eto-znachit-opredelenie-i-tseli

Ссылка на основную публикацию