Я использовал file_get_contents (), чтобы получить исходный код сайта в одну строковую переменную.
Источник содержит много строк, которые выглядят следующим образом: <td align="center"><a href="somewebsite.com/something">12345</a></td>
(и много строк, которые не выглядят так). Я хочу извлечь все idnumber (12345 выше) и поместить их в массив. Как я могу это сделать? Я предполагаю, что хочу использовать какие-то регулярные выражения, а затем использовать функцию preg_match_all (), но я не уверен, как …
Попробуй это:
preg_match('/>[0-9]+<\/a><\/td>/', $str, $matches); for($i = 0;$i<sizeof($matches);$i++) $values[] = $matches[$i];
Не связывайтесь с регулярными выражениями. Получить переменную и позволить библиотеке DOM выполнять мирские задачи для вас. Взгляните на: http://sourceforge.net/projects/simplehtmldom/
Затем вы можете пересечь свой HTMl как дерево и извлечь материал. Если вы действительно хотите напугать, прочитайте xPath.