Я занимаюсь обработкой html в PHP с использованием регулярных выражений. Это работает, но результат кроток и хрупкий. Кто-нибудь использовал какие-либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не придирчивый.
Я бы рекомендовал PHP Simple HTML DOM Parser после того, как вы очистили HTML со страницы. Он поддерживает недопустимый HTML и обеспечивает очень простой способ обработки элементов HTML.
Если страница, которую вы читаете, является допустимой X (HT) ML, тогда любой встроенный XML-анализатор PHP будет делать.
У меня не было большого успеха с библиотеками PHP для очистки. Если вы приключенческий, вы можете попробовать simplehtmldom . Я бы порекомендовал Hpricot для Ruby или Beautiful Soup для Python, которые являются отличными парсерами для HTML.
Я бы также рекомендовал «Простой HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с jQuery или селекторами JavaScript, тогда вы окажетесь дома.
Я даже писал об этом в прошлом.
Мне посчастливилось работать с htmlSQL , что не так много решений, но очень просто работать.
Используя PHP для выскакивания HTML, я бы рекомендовал cURL + regexp или cURL + некоторые DOM-парсеры, хотя лично использовал cURL + regexp. Если у вас есть глубокий вкус регулярного выражения, это на самом деле более точно.
У меня были хорошие результаты с помощью простого Html DOM Parser, упомянутого выше. И тогда есть также аккуратное расширение для PHP, которое тоже очень хорошо работает.
Мне пришлось использовать завиток на моем хосте 1 и 1.
http://www.quickscrape.com/ – это то, что я придумал, используя класс Simple DOM!