PHP: преобразовать вывод curl_exec в UTF8

Я хотел бы работать только с UTF8. Проблема в том, что я не знаю кодировку каждой веб-страницы. Как я могу его обнаружить и преобразовать в UTF8?

<?php $url = "http://vkontakte.ru"; $ch = curl_init($url); $options = array( CURLOPT_RETURNTRANSFER => true, ); curl_setopt_array($ch, $options); $data = curl_exec($ch); // $data = magic($data); print $data; 

См. Это по адресу: http://paulisageek.com/tmp/curl-utf8

Что такое magic() ?

curl_exec_utf8 советам Гумбо и Пекки, я написал curl_exec_utf8

 /** The same as curl_exec except tries its best to convert the output to utf8 **/ function curl_exec_utf8($ch) { $data = curl_exec($ch); if (!is_string($data)) return $data; unset($charset); $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE); /* 1: HTTP Content-Type: header */ preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches ); if ( isset( $matches[3] ) ) $charset = $matches[3]; /* 2: <meta> element in the page */ if (!isset($charset)) { preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches ); if ( isset( $matches[3] ) ) $charset = $matches[3]; } /* 3: <xml> element in the page */ if (!isset($charset)) { preg_match( '@<\?xml.+encoding="([^\s"]+)@si', $data, $matches ); if ( isset( $matches[1] ) ) $charset = $matches[1]; } /* 4: PHP's heuristic detection */ if (!isset($charset)) { $encoding = mb_detect_encoding($data); if ($encoding) $charset = $encoding; } /* 5: Default for HTML */ if (!isset($charset)) { if (strstr($content_type, "text/html") === 0) $charset = "ISO 8859-1"; } /* Convert it if it is anything but UTF-8 */ /* You can change "UTF-8" to "UTF-8//IGNORE" to ignore conversion errors and still output something reasonable */ if (isset($charset) && strtoupper($charset) != "UTF-8") $data = iconv($charset, 'UTF-8', $data); return $data; } с /** The same as curl_exec except tries its best to convert the output to utf8 **/ function curl_exec_utf8($ch) { $data = curl_exec($ch); if (!is_string($data)) return $data; unset($charset); $content_type = curl_getinfo($ch, CURLINFO_CONTENT_TYPE); /* 1: HTTP Content-Type: header */ preg_match( '@([\w/+]+)(;\s*charset=(\S+))?@i', $content_type, $matches ); if ( isset( $matches[3] ) ) $charset = $matches[3]; /* 2: <meta> element in the page */ if (!isset($charset)) { preg_match( '@<meta\s+http-equiv="Content-Type"\s+content="([\w/]+)(;\s*charset=([^\s"]+))?@i', $data, $matches ); if ( isset( $matches[3] ) ) $charset = $matches[3]; } /* 3: <xml> element in the page */ if (!isset($charset)) { preg_match( '@<\?xml.+encoding="([^\s"]+)@si', $data, $matches ); if ( isset( $matches[1] ) ) $charset = $matches[1]; } /* 4: PHP's heuristic detection */ if (!isset($charset)) { $encoding = mb_detect_encoding($data); if ($encoding) $charset = $encoding; } /* 5: Default for HTML */ if (!isset($charset)) { if (strstr($content_type, "text/html") === 0) $charset = "ISO 8859-1"; } /* Convert it if it is anything but UTF-8 */ /* You can change "UTF-8" to "UTF-8//IGNORE" to ignore conversion errors and still output something reasonable */ if (isset($charset) && strtoupper($charset) != "UTF-8") $data = iconv($charset, 'UTF-8', $data); return $data; } 

Регулярные выражения в основном из http://nadeausoftware.com/articles/2007/06/php_tip_how_get_web_page_content_type

Преобразование легко. Обнаружение – трудная часть. Вы можете попробовать mb_detect_encoding, но это очень шаткий метод, он буквально «догадывается» о типе контента, а как подчеркивает @troelskn в комментариях, можно угадать «грубые» различия в лучшем случае (это многобайтовая кодировка?), Но не удается обнаружить нюансы подобных наборов символов.

Правильным способом будет ИМО:

  • Интерпретация любых content-type на странице
  • Интерпретация любых заголовков content-type отправленных сервером
  • Если это ничего не дает, попробуйте «обнюхать» кодировку, используя mb_detect_encoding ()
  • Если это ничего не дает, вернитесь к определенному умолчанию (может быть, ISO-8859-1, может быть, UTF-8).

В отличие от рекомендаций, приведенных в ответе @ Gumbo, я лично считаю, что метатеги должны иметь приоритет над заголовками серверов, потому что я уверен, что если присутствует Meta-тег, это более надежный индикатор фактической кодировки страницы, чем сервер, устанавливающий некоторые операторы сайта, даже не знает, как изменить. Правильный способ, однако, состоит в том, чтобы рассматривать заголовки типа контента с более высоким приоритетом.

Для первого, я думаю, вы можете использовать get_meta_tags () . Последнее, что вы должны получать от завитка, вам просто нужно разобрать его. Вот полный пример того, как систематически обрабатывать заголовки ответов, обслуживаемые cURL.

Тогда преобразование будет использовать iconv :

 $new_content = iconv("incoming-charset", "utf-8", $content); 

Я был очень рад найти этот ответ, но заметил, что в обнаружении тега <meta> есть недостаток. Он просто не соответствовал тегам контента, и он еще не оборудован новыми тегами стиля HTML5: <meta charset="UTF-8"> . Поэтому я написал это, надеюсь, что это поможет вам, ребята, и еще раз спасибо за это отличное решение!

 /* 2: <meta> element in the page */ if (!isset($charset)) { preg_match('/<[\s]*meta[^>]*charset="?([^\s"]+)\s?"/i', $data, $matches); if (isset($matches[1])) { $charset = $matches[1]; } } 

(PS Я не мог понять, как опубликовать это как комментарий, так как это явно не полный ответ).

Вы можете попробовать что-то вроде:

http://www.php.net/manual/en/function.mb-detect-encoding.php

http://www.php.net/manual/en/function.mb-convert-encoding.php

Хотя это не доказательство дурака.

Существует определенный порядок, как указать кодировку символов в HTML :

[…] соответствующие пользовательские агенты должны соблюдать следующие приоритеты при определении кодировки символа документа (от наивысшего приоритета до самого низкого):

  1. Параметр «charset» HTTP в поле «Content-Type».
  2. Объявление META с параметром «http-equiv» для «Content-Type» и значением, установленным для «charset».
  3. Атрибут charset устанавливается на элемент, который обозначает внешний ресурс.

Если объявление кодировки символов отсутствует, HTTP определяет ISO 8859-1 как кодировку символов по умолчанию . Вы можете использовать это как кодировку символов по умолчанию для HTML или просто отказаться от обработки ответа.

Для XHTML у вас также есть объявление XML как источник для кодирования :

В XML-документе символьная кодировка документа указывается в объявлении XML (например, <?xml version="1.0" encoding="EUC-JP"?> ). Для портативного представления документов с особыми кодировками символов наилучшим подходом является обеспечение того, чтобы веб-сервер предоставлял правильные заголовки. Если это невозможно, документ, который хочет установить его кодировку символов явно, должен включать как объявление XML объявление кодировки, так и оператор meta http-equiv (например, <meta http-equiv="Content-type" content="text/html; charset=EUC-JP" /> ). В пользовательских агентах, соответствующих требованиям XHTML, значение объявления кодирования объявления XML имеет приоритет.

Если не объявлено кодирование символов, XML определяет UTF-8 и UTF-16 как кодировку символов по умолчанию :

Если кодировка не определяется протоколом более высокого уровня, это также фатальная ошибка, если объект XML не содержит объявления кодировки, а его содержимое не является законным UTF-8 или UTF-16.

Итак, подведем итог: порядок:

  1. Параметр «charset» HTTP в поле «Content-Type».
  2. Объявление XML с атрибутом encoding .
  3. Объявление META с параметром «http-equiv» для «Content-Type» и значением, установленным для «charset».

Если нет объявления кодировки символов, вы можете считать ISO 8859-1 в качестве кодировки по умолчанию для HTML и должны принимать UTF-8 или UTF-16 в качестве кодировки по умолчанию для XHTML.