Регулярное выражение – любой текст, подходящий для URL-адреса

PHP регулярного выражения, чтобы удалить все, что не является алфавитной буквой или числом от 0 до 9, и заменить пространство на дефис – изменить на нижний регистр, убедитесь, что есть только один дефис – между словами no – или — и т. Д.

Например:

Пример: Быстрая коричневая лиса подпрыгнула. Результат: быстрый-коричневый-лис-прыгнул

Пример: быстрый коричневый лис прыгнул! Результат: быстрый-коричневый-лис-прыгнул

Пример: Быстрая коричневая лиса – прыгнула! Результат: быстрый-коричневый-лис-прыгнул

Пример: быстрый ~ `! @ # $% ^ & * () _ + = ——- brown {} |] [:" '; <>?., / Fox – прыгнул! Результат: быстро-коричнево-лис прыгнул

Пример: быстрый 1234567890 ~ ​​`! @ # $% ^ & * () _ + = ——- brown {} |] [:" '; <>?., / Fox – прыгнул! Результат: -Быстрый-1234567890-коричнево-лис прыгнул


У кого-нибудь есть идея для регулярного выражения?

Благодаря!

Поскольку вам кажется, что все последовательности не-буквенно-цифровых символов заменяются одним дефисом, вы можете использовать это:

$str = preg_replace('/[^a-zA-Z0-9]+/', '-', $str); 

Но это может привести к тому, что ведущие или конечные дефисы могут быть удалены с помощью trim :

 $str = trim($str, '-'); 

И чтобы преобразовать результат в нижний регистр, используйте strtolower :

 $str = strtolower($str); 

Итак, все вместе:

 $str = strtolower($str); $str = trim($str, '-'); $str = preg_replace('/[^a-z0-9]+/', '-', $str); 

Или в компактном однострочном слое:

 $str = strtolower(trim(preg_replace('/[^a-zA-Z0-9]+/', '-', $str), '-')); 

Я просто работал с чем-то похожим, и я придумал этот маленький фрагмент кода, он также предполагает использование латинских символов.

Это пример строки:

$str = 'El veloz murciélago hindú comía fe<!>&@#$%&!"#%&?¡?*liz cardillo y kiwi. La cigüeña ¨^;.-|°¬tocaba el saxofón detrás del palenque de paja';

Сначала я конвертирую строку в htmlentities, чтобы упростить ее использование позже.

$friendlyURL = htmlentities($str, ENT_COMPAT, "UTF-8", false);

Затем я заменяю латинские символы соответствующими символами ascii ( á становится a , Ü становится U и т. Д.):

$friendlyURL = preg_replace('/&([az]{1,2})(?:acute|circ|lig|grave|ring|tilde|uml|cedil|caron);/i','\1',$friendlyURL);

Затем я преобразовываю строку обратно из html-объектов в символы, снова для более удобного использования позже.

$friendlyURL = html_entity_decode($friendlyURL,ENT_COMPAT, "UTF-8");

Затем я заменяю все не алфавитно-цифровые символы на дефисы.

$friendlyURL = preg_replace('/[^a-z0-9-]+/i', '-', $friendlyURL);

Я удаляю лишние дефисы внутри строки:

$friendlyURL = preg_replace('/-+/', '-', $friendlyURL);

Я удаляю ведущие и конечные дефисы:

$friendlyURL = trim($friendlyURL, '-');

И, наконец, преобразуйте все в строчные буквы:

$friendlyURL = strtolower($friendlyURL);

Все вместе:

 function friendlyUrl ($str = '') { $friendlyURL = htmlentities($str, ENT_COMPAT, "UTF-8", false); $friendlyURL = preg_replace('/&([az]{1,2})(?:acute|circ|lig|grave|ring|tilde|uml|cedil|caron);/i','\1',$friendlyURL); $friendlyURL = html_entity_decode($friendlyURL,ENT_COMPAT, "UTF-8"); $friendlyURL = preg_replace('/[^a-z0-9-]+/i', '-', $friendlyURL); $friendlyURL = preg_replace('/-+/', '-', $friendlyURL); $friendlyURL = trim($friendlyURL, '-'); $friendlyURL = strtolower($friendlyURL); return $friendlyURL; } 

Контрольная работа:

 $str = 'El veloz murciélago hindú comía fe<!>&@#$%&!"#%&-?¡?*-liz cardillo y kiwi. La cigüeña ¨^`;.-|°¬tocaba el saxofón detrás del palenque de paja'; echo friendlyUrl($str); 

Результат:

 el-veloz-murcielago-hindu-comia-fe-liz-cardillo-y-kiwi-la-ciguena-tocaba-el-saxofon-detras-del-palenque-de-paja 

Я думаю, что ответ Gumbo лучше подходит для вашей проблемы, и это более короткий код, но я думал, что это будет полезно для других.

Приветствия, Адриана

В функции:

 function sanitize_text_for_urls ($str) { return trim( strtolower( preg_replace( array('/[^a-z0-9-\s]/ui', '/\s/', '/-+/'), array('', '-', '-'), iconv('UTF-8', 'ASCII//TRANSLIT', $str) )), '-'); } 

Что оно делает:

 // Solve accents and diacritics $str = iconv('UTF-8', 'ASCII//TRANSLIT', $str); // Leave only alphanumeric (respect existing hyphens) $str = preg_replace('/[^a-z0-9-\s]/ui', '', $str); // Turn spaces to hyphens $str = preg_replace('/\s+/', '-', $str); // Remove duplicate hyphens $str = preg_replace('/-+/', '-', $str); // Remove trailing hyphens $str = trim($str, '-'); // Turn to lowercase $str = strtolower($str); 

Заметка:
Вы можете объединить несколько preg_replace , передав массив. См. Функцию вверху.

Например:

 // Électricité, plâtrerie --> electricite-platrerie // St. Lücie-Pétêrès --> st-lucie-peteres // -Façade- & gros œuvre --> facade-gros-oeuvre // _-Thè quîck ~`!@#&$%^ &*()_+= ---{}|][ :"; <>?.,/ fóx - jümpëd_- // the-quick-fox-jumped 

EDIT: добавлено «/ u» в конце регулярного выражения для использования UTF8
EDIT: учет дублированных и ведущих / конечных дефис, благодаря @LuBre

Если вы используете это для имен файлов в PHP, ответ Gumbo будет

 $str = preg_replace('/[^a-zA-Z0-9.]+/', '-', $str); $str = trim($str, '-'); $str = strtolower($str); 

Добавлен период для имен файлов, и это strtolower() , а не strtolowercase() .

 $str = preg_replace('/[^a-zA-Z0-9]/', '-', $str);