Хорошо, я просто пытаюсь проанализировать виджеты данных Викисловаря, предоставленные Wikimedia .
Мое намерение состоит в том, чтобы проанализировать этот дамп данных XML в базе данных MySQL. Я не нашел надлежащей документации относительно структуры этого XML. Кроме того, я не могу открыть файл, потому что он действительно огромный (~ 1 ГБ).
Я думал о разборе его с использованием некоторого PHP-скрипта, но я не имею никакого представления о структуре XML, чтобы продолжить. Итак, если кто-то уже разбирал (или имел представление о любом инструменте для анализа) в MySQL с использованием PHP, пожалуйста, поделитесь информацией. Если ничего нет в PHP, другие методы тоже прекрасны.
Я просто следил за этим сообщением ( http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary–mysql/ ), но это не сработало. 🙁 Если кто-то преуспеет в этом процесс, пожалуйста, помогите. Спасибо в Advance.
Эти файлы могут быть проанализированы на PHP с помощью XMLReader
работающего на потоке compress.bzip2://
. Структура файла, который у вас есть, является образцовой (заглядывая в первые 3000 элементов):
\-mediawiki (1) |-siteinfo (1) | |-sitename (1) | |-base (1) | |-generator (1) | |-case (1) | \-namespaces (1) | \-namespace (40) \-page (196) |-title (196) |-ns (196) |-id (196) |-restrictions (2) |-revision (196) | |-id (196) | |-parentid (194) | |-timestamp (196) | |-contributor (196) | | |-username (182) | | |-id (182) | | \-ip (14) | |-comment (183) | |-text (195) | |-sha1 (195) | |-model (195) | |-format (195) | \-minor (99) \-redirect (5)
Сам файл немного больше, поэтому для обработки требуется довольно много времени. В качестве альтернативы не используйте дампы XML, а просто импортируйте дампы SQL с помощью средства командной строки mysql
. Дампы SQL также доступны на сайте, см. Все форматы дампов для английской викторины :
Общий файл был более крупным с более чем 66 849 000 элементами:
\-mediawiki (1) |-siteinfo (1) | |-sitename (1) | |-base (1) | |-generator (1) | |-case (1) | \-namespaces (1) | \-namespace (40) \-page (3993913) |-title (3993913) |-ns (3993913) |-id (3993913) |-restrictions (552) |-revision (3993913) | |-id (3993913) | |-parentid (3572237) | |-timestamp (3993913) | |-contributor (3993913) | | |-username (3982087) | | |-id (3982087) | | \-ip (11824) | |-comment (3917241) | |-text (3993913) | |-sha1 (3993913) | |-model (3993913) | |-format (3993913) | \-minor (3384811) |-redirect (27340) \-DiscussionThreading (4698) |-ThreadSubject (4698) |-ThreadPage (4698) |-ThreadID (4698) |-ThreadAuthor (4698) |-ThreadEditStatus (4698) |-ThreadType (4698) |-ThreadSignature (4698) |-ThreadParent (3605) |-ThreadAncestor (3605) \-ThreadSummaryPage (11)