Дмитрий Елисеев » Блог » Программирование » Функциональный PHP: Многопоточный парсер

Функциональный PHP: Многопоточный парсер

Второй мастер-класс по функциональному программированию в PHP на примере написания многопоточного парсера активных участников форума. Рассмотрели базовую реализацию многопоточности в PHP и отличия от других языков программирования:

Открыть на YouTube | Исходники примера | Вебинар о подсчёте стоимости

Приглашаю на следующие видеоуроки. Анонс и ссылку на эфир, как обычно, пришлю в отдельной рассылке по вебинарам:

И задавайте вопросы в комментариях. Заранее спасибо и до встречи в эфире!

Дата:

Метки: PHP

Поддержать проект

Другие статьи

Большой стрим про SOLID и GRASP

В статьях и стримах мы стараемся делать код таким, чтобы его было удобнее разрабатывать и поддерживать. При этом мы часто упоминаем некоторые принципы из SOLID и паттерны из GRASP как что-то само собой разумеющееся. Эти аббревиатуры у всех на слуху. Но на практике оказывается, что многие пытаются их вызубрить без понимания зачем они нужны и для чего они придумывались. А потом безуспешно пытаются применить их у себя и получают не тот результат, который хотели.

Разделение кода на модули и микросервисы

На сайте скринкастов начинаем программирование доменной модели через практику Event Storming проекта аукциона. Но помимо этого будет крайне полезно рассмотреть примеры из разных предметных областей. Для этого мы проведём большой практический стрим про разделение кода на модули и микросервисы.

Структуры с процедурами или объекты?

Мы с вами сочинили много кода в проектах, где мы активно пользуемся контейнером внедрения зависимостей. Многие статьи рассматривают только внедрение сервис-контейнера, но не рассказывают о практиках написания самих сервисов. Об этом мы подробно расскажем в следующей части. Но перед этим нужно договориться об используемой в будущем терминологии и определиться с понятием сервиса. Поэтому сегодня рассмотрим, чем сервисы отличаются от других вещей в программном коде.

Мы это сделали! Видеоотчёт

Все видеозаписи уроков обработаны, тайм-коды проставлены, вопросы отвечены. Наш самый крупный четырёхмесячный мастер-класс по Symfony завершён. Вот что у нас с вами получилось...

Неделя ООП: Третий поток

Представляю наше главное событие осени. Снова запускаю уже многим полюбившийся супер-мега-интенсив по объектно-ориентированному программированию. Что в третьем потоке будет такого эпического и чем он будет отличаться от предыдущих?

Мобильная тема для Yii2 на примере Test First

На вебинаре о тестировании мы не уделили внимания практическому применению парадигмы Test Driven Development (TDD) и Test First в реальных проектах и написанию моков в модульных тестах. Попробуем решить сегодняшнюю задачу по практике написания тестов до кода и потренируемся в составлении модульных и функциональных тестов.

Комментарии

Евгений Левачев

Спасибо, очень интересный инфа

Валерий

PHP-борода+усы снова в эфире! Я удивляюсь терпению Дмитрия записать видео на 205 минут! Это 3 часа 25 минут рассказывать про написание парсера!!!
Снимаю шляпу!
Серьезно!

Денис

у вас мощная воля, респект вам!

Виктор

На всякий случай - длина файла - filesize($childPid . '.txt')

Александр

Хороший материал, только автор смешивает или путает два понятия процессы и потоки. Да fork порождает новый процесс, а не поток, а следовательно парсер мультипроцессный, а не мультипоточный. Мультипоточность тоже есть (создание новых потоков они же threads ) через pthreads https://github.com/krakjoe/pthreads только нужна thread-safe сборка php.

Дмитрий Елисеев

В комментариях на YouTube про это уже говорили.

Михаил

Дмитрий, спасибо! Ваши уроки замечательные, но видео больше 3 часов - это очень долго. Возможно, стоит подумать как можно сократить, оставив самое интересное. Например, в этом видео для меня было интересно работа с процессами, подключение краулера, подход к конфигурированию функций. А тонкости реализации самого парсера, которые занимают примерно половину времени не очень.

slo_nik

Добро утро, Дмитрий.
Тема старая, но надеюсь на Ваш ответ.
Пытаюсь повторить, то, о чём Вы тут рассказали.
Но при использовании parallel_map() у меня вываливаются ошибки

fire_get_contents(http://site.com): failed to open stream: HTTP request failed! HTTP/1.1 508 Loop Detected

fire_get_contents(http://site.com): failed to open stream: HTTP request failed! HTTP/1.1 507 Loop Detected

Это происходит, если директория с кэшем пустая. Приходится несколько раз запускать скрипт, пока не создадутся все файлы страниц в кэше.
Как только заполнится - ошибка уходи и всё работает как положено.
Единственно, что я понял из поиска решения, это то, что происходит зацикливание на сервере, но как это решить - не пойму.

slo_nik

Если заменить parallel_map() на обычный array_map() скрипт работает без ошибок вне зависимости, есть файлы в кэше или нет.

slo_nik

Доброй ночи.
Понял свою ошибку, теперь работает без ошибки.
Ошибка была в том, что я пытался обработать массив из 140 ссылок, чтобы получить ссылки на все страницы товаров с учётом пагинации. В итоговом массиве получилось 250 ссылок. Сервер не выдерживал, то о чём Вы, Дмитрий, говорили.
Благодарю за это видео.

Kirill

Дмитрий, добрый день!
Подскажите, как парсер из видео справится с задачей в несколько миллионов спарсенных страниц?

Спасибо

Дмитрий Елисеев

За долгое время справится.

Оставить комментарий

Войти | Завести аккаунт | Войти через

Ваше имя

Ваш Email (никто не увидит)

Ваш сайт

Комментарий

Можно использовать теги <p> <ul> <li> <b> <i> <a> <pre>

Я – человек разумный

Судью на мыло

Также я здесь

Узнавайте о полезных статьях,
не пропускайте видеоуроки,
получайте бонусы.

Разделы блога

Профиль

Скринкасты

Авторефакторинг PHP с Rector

Автоматическое обновление синтаксиса и авторефакторинг PHP-проекта с помощью инструмента Rector. Использование стандартных правил и программирование собственного ректора.

Как работает PHPUnit

Разбираемся как работают и как устроены внутри тестовые фреймворки на примере PHPUnit

Элементы и этапы Event Storming

Диаграмма Event Storming и её элементы. Разделение на этапы для работы над сложными проектами. Пример моделирования службы доставки грузов.

DDD и Event Driven архитектура

Моделирование предметной области бизнеса в DDD. Домены и поддомены. Event Driven архитектура слабосвязанных модулей. Практика Event Storming для построения цепочек команд и событий.

Работа сервера и заблуждения в PHP

Работа HTTP-сервера вроде Apache и Nginx с PHP по протоколам CGI и FastCGI. Переменные окружения и потоки ввода и вывода. Асинхронные PHP-серверы.

Суть компонентного фреймворка

Определение и суть компонентного HTTP-фреймворка. Место фреймворка и библиотек в потоке управления. Совместимость фреймворков и рекомендации PSR.