В принципе, страница генерирует некоторый динамический контент, и я хочу получить этот динамический контент, а не только статический html. Я не могу сделать это с помощью cURL. Помоги пожалуйста.
вы можете попробовать селен на http://seleniumhq.org , который поддерживает js.
Вы не можете использовать только cURL.
cURL будет захватывать определенные исходные (статические) файлы с сайта, но чтобы получить javascript сгенерированный контент, вам придется помещать этот контент в браузерную среду, поддерживающую javascript и все другие объекты-хосты, которые использует javascript, поэтому скрипт может запустить.
Затем, как только скрипт запускается, вам нужно будет получить доступ к DOM, чтобы захватить любой контент, который вы хотите от него.
Вот почему большинство поисковых систем не индексируют javascript-сгенерированный контент. Это не легко.
Если это один конкретный сайт, на который вы пытаетесь собрать информацию, вы можете посмотреть, как именно сайт сам получает данные, и посмотреть, не можете ли вы получить данные непосредственно из этого источника. Например, данные, встроенные в JS на странице (в этом случае вы можете просто разобрать эту JS) или JS, полученный из ajax-вызова (в этом случае вы можете просто просто сделать этот вызов ajax напрямую) или какой-либо другой метод.