Как очистить определенные данные от царапин с помощью простого анализатора html dom

Я пытаюсь очистить данные с веб-страницы, но мне нужно получить все данные в этой ссылке .

include 'simple_html_dom.php'; $html1 = file_get_html('http://www.aktive-buergerschaft.de/buergerstiftungen/unsere_leistungen/buergerstiftungsfinder'); $info1 = $html1->find('b[class=[what to enter herer ]',0); 

Мне нужно получить все данные из этого сайта .

 Bürgerstiftung Lebensraum Aachen rechtsfähige Stiftung des bürgerlichen Rechts Ansprechpartner: Hubert Schramm Alexanderstr. 69/ 71 52062 Aachen Telefon: 0241 - 4500130 Telefax: 0241 - 4500131 Email: info@buergerstiftung-aachen.de www.buergerstiftung-aachen.de >> Weitere Details zu dieser Stiftung Bürgerstiftung Achim rechtsfähige Stiftung des bürgerlichen Rechts Ansprechpartner: Helga Kühn Rotkehlchenstr. 72 28832 Achim Telefon: 04202-84981 Telefax: 04202-955210 Email: info@buergerstiftung-achim.de www.buergerstiftung-achim.de >> Weitere Details zu dieser Stiftung 

Мне нужно иметь данные, которые находятся «за» ссылкой – есть ли способ сделать это с помощью простого и понятного парсера – тот, который может быть понят и написан новичком !?

Solutions Collecting From Web of "Как очистить определенные данные от царапин с помощью простого анализатора html dom"

Кажется, это написано в документации :

 $html1->find('b[class=info]',0)->innertext; 

Ваши предоставленные ссылки недоступны, я предлагаю вам использовать встроенный PHP « DOM » Extension вместо «простого анализатора html», это будет намного быстрее и проще;) Я просмотрел страницу с помощью googlecache, вы можете использовать что-то как:-

 $doc = new DOMDocument; @$doc->loadHTMLFile('...URL....'); // Using the @ operator to hide parse errors $contents = $doc->getElementById('content')->nodeValue; // Text contents of #content 

Из того, что я могу быстро взглянуть, вам нужно пройти через теги <dl> в #content, затем dt и dd.

 foreach ($html->find('#content dl') as $item) { $info = $item->find('dd'); foreach ($info as $info_item) {..} } 

Использование библиотеки simple_html_dom

XPath делает выскабливание смехотворно легким и позволяет некоторым изменениям в документе HTML не влиять на вас. Например, чтобы вывести имена, вы должны использовать запрос, который выглядит так:

 //div[id='content']/d1/dt 

Простой поиск в Google даст вам много уроков

@zero: есть хороший сайт, чтобы попробовать сломать сайт, используя как php, так и python … довольно полезный сайт по крайней мере для меня: – http://scraperwiki.com/

Я бы использовал WWW: Mechanize

http://search.cpan.org/dist/WWW-Mechanize/lib/WWW/Mechanize.pm