Я думаю, что это настоящий вызов!
Я пишу веб-сайт для своей местной футбольной лиги, www.rdyfl.co.uk, и включаю фрагменты кода JavaScript из системы Full-Time FA, где мы создаем наши приборы, связывая их с последними результатами таблицы и т. Д.
Для другой функции, которую я хочу добавить на сайт, мне нужно очистить «предстоящие светильники» для каждой возрастной группы и деления, но когда я исследую источник, у меня есть две проблемы.
Содержимое светильников генерируется javascript, поэтому мне нужно увидеть сгенерированный источник, а не только источник.
Когда я просматриваю сгенерированный источник с помощью Firefox, имена команд на самом деле являются дополнительными ссылками на javascript, а не самим именем.
Я в основном хочу как-то загружать светильники на регулярной основе и писать затем в базу данных mysql?
Я спросил FA, и у них больше нет доступных вариантов доступа к данным?
Никогда не закодированный для выскабливания, прежде чем кто-нибудь может указать мне на простое решение, или кто-нибудь может представить себе вызов?
и включают фрагменты кода javascript
=> Использовать веб-браузер, который отображает Javascript. Этот подход будет работать на всех сайтах.
Вы также можете перепроектировать JS и извлечь данные из него, но это имеет смысл только в том случае, если вам нужны данные только с очень немногих веб-сайтов или требуется сверхвысокая производительность. В противном случае слишком много работы.
Хорошими решениями для очистки браузера являются Watir, Watin, Selenium и iMacros.
Последняя версия OutWit Hub отлично справляется с динамическим контентом. Исходник, очищенный аутфиком для извлечения ссылок, изображений, документов, таблиц и текста, является обновленным DOM. Вы можете, безусловно, сделать работу, чтобы захватить то, что вам нужно, используя эти. Пользовательские скребки по-прежнему применяются к статическому источнику в версии 1.0.3, но версия 1.1.x (все еще в бета-версии) предложит выбор между статическим источником и динамически измененной DOM.
Срыв содержимого, созданного Javascript, является сложной задачей. AFAIK вам нужно будет сделать это с помощью AJAX. Надеюсь, у контента есть css, который вы можете захватить с помощью jQuery или, по крайней мере, с некоторыми идентификаторами. У вас есть id или классы, которые вы можете захватить?