Мне нужно написать программу для очистки форумов.
Должен ли я писать программу на Python с помощью Scrapy framework или использовать Php cURL? Также есть ли Php эквивалент Scrapy?
благодаря
Я бы выбрал Python из-за превосходных привязок libxml2, в частности, таких, как lxml.html и pyQuery . У Scrapy есть свои привязки libxml2, я не смотрел на них, чтобы проверить их, хотя просмотр документации Scrapy не оставил меня очень впечатленным (я сделал много скрепок, просто используя эти синтаксические анализаторы и ручное кодирование). С любым из них вы получаете по-настоящему превосходный парсер HTML, запрашивая через XPath, а с lxml.html и pyquery (также построенный на lxml) вы получаете селектор CSS.
Если вы делаете небольшую работу, соскабливая форум, я бы пропустил фреймворк и просто сделаю это вручную – это просто и распараллеливание и т. Д. На самом деле не требуется.
Я бы не использовал PHP для нового приложения, которое я пишу. Мне не нравится язык по разным причинам.
Кроме того, это сила, как язык сценариев на стороне сервера для доставки динамических страниц через Интернет. Не как язык программирования общего назначения. Это еще один минус. Я бы придерживался Python.
Что касается того, какие рамки использовать, их много. Harvestman, Scrapy и т. Д. Также есть искатель на основе облаков, основанный на 80-х годах, чем вы могли бы использовать.
Обновление : люди, вероятно, отрицали этот ответ, потому что я сказал, что мне не нравится PHP. Вот список причин. Не совсем точное, но достойное резюме, тем не менее, http://wiki.python.org/moin/PythonVsPhp