HTML Скребок в Php

Я занимаюсь обработкой html в PHP с использованием регулярных выражений. Это работает, но результат кроток и хрупкий. Кто-нибудь использовал какие-либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не придирчивый.

Related of "HTML Скребок в Php"

Я бы рекомендовал PHP Simple HTML DOM Parser после того, как вы очистили HTML со страницы. Он поддерживает недопустимый HTML и обеспечивает очень простой способ обработки элементов HTML.

Если страница, которую вы читаете, является допустимой X (HT) ML, тогда любой встроенный XML-анализатор PHP будет делать.

У меня не было большого успеха с библиотеками PHP для очистки. Если вы приключенческий, вы можете попробовать simplehtmldom . Я бы порекомендовал Hpricot для Ruby или Beautiful Soup для Python, которые являются отличными парсерами для HTML.

Я бы также рекомендовал «Простой HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с jQuery или селекторами JavaScript, тогда вы окажетесь дома.

Я даже писал об этом в прошлом.

Мне посчастливилось работать с htmlSQL , что не так много решений, но очень просто работать.

Используя PHP для выскакивания HTML, я бы рекомендовал cURL + regexp или cURL + некоторые DOM-парсеры, хотя лично использовал cURL + regexp. Если у вас есть глубокий вкус регулярного выражения, это на самом деле более точно.

У меня были хорошие результаты с помощью простого Html DOM Parser, упомянутого выше. И тогда есть также аккуратное расширение для PHP, которое тоже очень хорошо работает.

Мне пришлось использовать завиток на моем хосте 1 и 1.

http://www.quickscrape.com/ – это то, что я придумал, используя класс Simple DOM!