Как получить правильную позицию списка в многобайтовой строке, используя preg_match

Я сейчас сопоставляю HTML с помощью этого кода:

preg_match('/<\/?([az]+)[^>]*>|&#?[a-zA-Z0-9]+;/u', $html, $match, PREG_OFFSET_CAPTURE, $position) 

Он соответствует всем совершенным, однако, если у меня многобайтовый символ, он учитывает его как 2 символа при возвращении позиции.

Например, возвращаемый массив $match даст что-то вроде:

 array 0 => array 0 => string '<br />' (length=6) 1 => int 132 1 => array 0 => string 'br' (length=2) 1 => int 133 

Реальное число для <br /> соответствует 128, но есть 4 многобайтовых символа, поэтому он дает 132. Я действительно думал, что добавление модификатора / и позволит ему понять, что происходит, но не повезло.

Я посмотрел на это предложение от @Qtax:

UTF-8 символов в preg_match_all (PHP)

И для некоторой дополнительной справки эта ошибка всплыла при использовании этого: текст Truncate, содержащий HTML, игнорирующий теги

Суть изменения заключается в следующем:

 $orig_utf = 'UTF-8'; $new_utf = 'UTF-32'; mb_regex_encoding( $new_utf ); $html = mb_convert_encoding( $html, $new_utf, $orig_utf ); $end_char = mb_convert_encoding( $end_char, $new_utf, $orig_utf ); mb_ereg_search_init( $html ); $pattern = '</?([az]+)[^>]*>|&#?[a-zA-Z0-9]+;'; $pattern = mb_convert_encoding( $pattern, $new_utf, $orig_utf ); while ( $printed < $limit && $tag_match = mb_ereg_search_pos( $pattern, $html ) ) { $tag_position = $tag_match[0]/4; $tag_length = $tag_match[1]; $tag = mb_substr( $html, $tag_position, $tag_length/4, $new_utf ); $tag_name = preg_replace( '/[\s<>\/]+/', '', $tag ); // Print text leading up to the tag. $str = mb_substr($html, $position, $tag_position - $position, $new_utf ); ....... } 

Также, ссылаясь на HTML-страницу обрезания, есть и другие необходимые изменения:

 $first_char = mb_substr( $tag, 0, 1, $new_utf ); if ( $first_char == mb_convert_encoding( '&', $new_utf ) ) { ... } 

Мой текстовый редактор UTF-8, поэтому, если бы я сравнивал 32-амперсанд моего файла, это не сработало.

Если вам нужно быстро исправить и не заботиться о скорости:

 $mb_pos = mb_strlen( substr($string, 0, $pos) );