Articles of xml parsing

DOMDocument в php

Я только что начал читать документацию и примеры о DOM, чтобы выполнить сканирование и анализ документа. Например, у меня есть часть документа, показанного ниже: <div id="showContent"> <table> <tr> <td> Crap </td> </tr> <tr> <td width="172" valign="top"><a href="link"><img height="91" border="0" width="172" class="" src="img"></a></td> <td width="10">&nbsp;</td> <td valign="top"><table cellspacing="0" cellpadding="0" border="0"> <tbody><tr> <td height="30"><a class="px11" href="link">title</a><a><br> <span […]

Simplexml получает атрибуты с пространством имен

У меня есть XML-документ, который имеет атрибуты с пространством имен. XML выглядит так: <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="http://schemas.android.com/apk/res/android" package="com.sunil.tweet" android:versionCode="1" android:versionName="1.0" > <uses-sdk android:minSdkVersion="11" android:targetSdkVersion="16" /> <application android:allowBackup="true" android:icon="@drawable/ic_launcher" android:label="@string/app_name" android:theme="@style/AppTheme" > <activity android:name="com.sunil.tweet.MainActivity" android:label="@string/app_name" > <intent-filter> <action android:name="android.intent.action.MAIN" /> <category android:name="android.intent.category.LAUNCHER" /> </intent-filter> </activity> </application> Как я могу извлечь атрибут android:name из тега activity […]

Как загрузить XML, когда PHP не может указать правильную кодировку?

Я пытаюсь загрузить источник XML из удаленного места, поэтому я не могу управлять форматированием. К сожалению, файл XML, который я пытаюсь загрузить, не имеет кодировки: <ROOT xmlns:sql="urn:schemas-microsoft-com:xml-sql"> <NODE> </NODE> </ROOT> При попытке что-то вроде: $doc = new DOMDocument( ); $doc->load(URI); Я получил: Input is not proper UTF-8, indicate encoding ! Bytes: 0xA3 0x38 0x2C 0x38 […]

Как я могу использовать различные XML-библиотеки PHP для получения DOM-подобных функций и предотвращения уязвимостей DoS, таких как Billion Laughs или Quadratic Blowup?

Я пишу веб-приложение с XML API в PHP, и я беспокоюсь о трех конкретных уязвимостях, связанных с встроенными определениями DOCTYPE: локальное включение файлов, разложение квадратичной сущности и разложение экспоненциальной сущности. Мне бы хотелось использовать встроенные библиотеки PHP (5.3), но я хочу убедиться, что я не восприимчив к этим. Я обнаружил, что я могу исключить LFI […]

curl: невозможно получить rss с веб-сайта из-за CloudFlare

Я могу подключить этот сайт http://www.youm7.com/newtkarrrss.asp, используя curl на сервере Но я могу получить к нему доступ из localhost без каких-либо проблем Вот тест http://www.tjreb.com/xml_grabber.php?feed=http://www.youm7.com/newtkarirrss.asp&stack=1 Попробуйте RSS-канал CNN http://www.tjreb.com/xml_grabber.php?feed=http://rss.cnn.com/rss/edition_meast.rss&stack=0 Как я могу обойти эту ошибку Вот мой исходный код <?php class xml_grabber { private $xml_file = '' ; private $xml_link = '' ; private $xml_dom […]

Выбор родительских узлов с помощью XMLReader

Мне пришлось переписать часть программы, чтобы использовать XMLReader для выбора частей XML-файла для обработки. Возьмем этот упрощенный XML в качестве примера: <odds> <sport> <region> <group> <event name="English Championship 2014-15" eventid="781016.1"> <bet name="Kazanan" betid="12377108.1"> <selection selectionid="52411062.1"/> </selection> </bet> </event> </group> </region> </sport> </odds> Этот вызов для xpath() : $bets = $xml->xpath( "//odds/sport/region/group/event/bet/selection[contains(@selectionid,'".$selectionToFind."')]/.." ); выберет весь узел […]

синтаксический анализ / сканирование через файл размером 17 гб

Я пытаюсь проанализировать файл дампа stackoverflow (Posts.xml– 17gb). Он имеет форму: <posts> <row Id="15228715" PostTypeId="1" /> . <row Id="15228716" PostTypeId="2" ParentId="1600647" LastActivityDate="2013-03-05T16:13:24.897"/> </posts> Я должен «сгруппировать» каждый вопрос с их ответами. В основном найти вопрос (posttypeid = 1) найти ответы с помощью parentId другой строки и сохранить его в db. Я попытался сделать это с […]

"Ошибка анализа XML: нежелательная информация после элемента документа"

Привет всем, я пытаюсь отобразить карту Google с динамическими местоположениями, полученными из базы данных. Я следил за developers.google.com/maps/articles на phpsqlajax_v3. Я создал базу данных, и таблица выглядит так: trnsportpublic table transportpublicid int 11 AUTOINCREMENT transportType varchar 60 costPerKm десятичный (7,2) адрес varchar 800 teleNo int 10 webLink varchar 300 описание varchar 800 lat double (10,6) […]

Как анализировать XML-файл, используя php

Я хочу проанализировать следующий xml и получить значение метаданных: description using php Я знаю, как получить значение названия $item_title = $x -> item($i) -> getElementsByTagName('title') -> item(0) -> childNodes -> item(0) -> nodeValue; но не может использовать этот способ для получения метаданных: description <item> <title>Jobs: Bullish Economy Confirmed?</title> <metadata:title xmlns:metadata="http://search.cnbc.com/rss/2.0/modules/siteContentMetadata">Jobs: Bullish Economy Confirmed? 06 Jan […]

Лучший XML-парсер для PHP

Раньше я использовал XML Parser, и даже несмотря на то, что он работал нормально, я был недоволен этим в целом, мне показалось, что я использовал обходные пути для вещей, которые должны быть базовой функциональностью. Недавно я видел SimpleXML, но я еще не пробовал. Это проще? Какие преимущества и недостатки имеют оба? Какие-либо другие парсеры, которые […]