Очистить веб-сайт, созданный Javascript

Я думаю, что это настоящий вызов!

Я пишу веб-сайт для своей местной футбольной лиги, www.rdyfl.co.uk, и включаю фрагменты кода JavaScript из системы Full-Time FA, где мы создаем наши приборы, связывая их с последними результатами таблицы и т. Д.

Для другой функции, которую я хочу добавить на сайт, мне нужно очистить «предстоящие светильники» для каждой возрастной группы и деления, но когда я исследую источник, у меня есть две проблемы.

  1. Содержимое светильников генерируется javascript, поэтому мне нужно увидеть сгенерированный источник, а не только источник.

  2. Когда я просматриваю сгенерированный источник с помощью Firefox, имена команд на самом деле являются дополнительными ссылками на javascript, а не самим именем.

Я в основном хочу как-то загружать светильники на регулярной основе и писать затем в базу данных mysql?

Я спросил FA, и у них больше нет доступных вариантов доступа к данным?

Никогда не закодированный для выскабливания, прежде чем кто-нибудь может указать мне на простое решение, или кто-нибудь может представить себе вызов?

и включают фрагменты кода javascript

=> Использовать веб-браузер, который отображает Javascript. Этот подход будет работать на всех сайтах.

Вы также можете перепроектировать JS и извлечь данные из него, но это имеет смысл только в том случае, если вам нужны данные только с очень немногих веб-сайтов или требуется сверхвысокая производительность. В противном случае слишком много работы.

Хорошими решениями для очистки браузера являются Watir, Watin, Selenium и iMacros.

Последняя версия OutWit Hub отлично справляется с динамическим контентом. Исходник, очищенный аутфиком для извлечения ссылок, изображений, документов, таблиц и текста, является обновленным DOM. Вы можете, безусловно, сделать работу, чтобы захватить то, что вам нужно, используя эти. Пользовательские скребки по-прежнему применяются к статическому источнику в версии 1.0.3, но версия 1.1.x (все еще в бета-версии) предложит выбор между статическим источником и динамически измененной DOM.

Срыв содержимого, созданного Javascript, является сложной задачей. AFAIK вам нужно будет сделать это с помощью AJAX. Надеюсь, у контента есть css, который вы можете захватить с помощью jQuery или, по крайней мере, с некоторыми идентификаторами. У вас есть id или классы, которые вы можете захватить?