Извлечение данных PHP-строка

Я использовал file_get_contents (), чтобы получить исходный код сайта в одну строковую переменную.

Источник содержит много строк, которые выглядят следующим образом: <td align="center"><a href="somewebsite.com/something">12345</a></td>

(и много строк, которые не выглядят так). Я хочу извлечь все idnumber (12345 выше) и поместить их в массив. Как я могу это сделать? Я предполагаю, что хочу использовать какие-то регулярные выражения, а затем использовать функцию preg_match_all (), но я не уверен, как …

Попробуй это:

 preg_match('/>[0-9]+<\/a><\/td>/', $str, $matches); for($i = 0;$i<sizeof($matches);$i++) $values[] = $matches[$i];

Не связывайтесь с регулярными выражениями. Получить переменную и позволить библиотеке DOM выполнять мирские задачи для вас. Взгляните на: http://sourceforge.net/projects/simplehtmldom/

Затем вы можете пересечь свой HTMl как дерево и извлечь материал. Если вы действительно хотите напугать, прочитайте xPath.