Преобразование с упрощенного на традиционный китайский

Если веб-сайт локализован / интернационализирован с помощью упрощенного перевода на китайский язык …

  • Можно ли надежно автоматически преобразовать текст в традиционный китайский язык с высоким качеством?
  • Если да, то это будет исключительно высокое качество или просто хорошая отправная точка для перевода переводчика?
  • Есть ли инструменты с открытым исходным кодом (в идеале на PHP) для такого преобразования?
  • Является ли преобразование лучше одним способом против другого (упрощенный -> традиционный или наоборот)?

Короткий ответ: Нет, не надежно + высокое качество. Я бы не рекомендовал автоматические инструменты, если рынок не так важен для вас, и вы можете рисковать определенными публично смущающими цветами. Вы можете обнаружить, что некоторые локализационные фирмы более счастливы начать с качественного упрощенного перевода на китайский язык и адаптировать его к традиционным, но вы также можете обнаружить, что многие компании предпочитают начинать с английского источника.

Более длительный ответ: Есть случаи, когда только глифы разные, и у них разные кодовые точки юникода. Но есть и некоторые идиоматические и лексические различия между КНР и Тайванем / Гонконге, и ваше качество будет страдать, если они не будут обработаны. Технические термины могут быть более проблематичными или менее, в зависимости от эпохи, в которой термины стали широко использоваться. Некоторые из этих проблем могут быть застигнуты автоматическими инструментами, но не все из них. Конечно, если вы идете по пути автоматического преобразования вещей, убедитесь, что вы получаете выкуп от команд QA, базирующихся на каждом из ваших целевых рынков.

Кроме того, есть общественно-политические проблемы. Например, вы можете использовать такие термины, как «Республика Китай» на Тайване, но это будет круто расшатывать китайское правительство, если оно появится в вашей упрощенной китайской версии (а иногда и на вашей английской версии); если у вас есть фактическое дочернее предприятие или партнер в Китае, персонал может быть арестован исключительно на основе подрывной терминологии. (Это не уникально для Китая, у Пакистана / Индии и Турции есть аналогичные проблемы). Вы можете столкнуться с подобной проблемой, сославшись на «Тайвань» как на «страну».

Как сам родной Гонконгер, я согласен с @JasonTrue: не делайте этого. Вы рискуете злиться и оскорблять своих потенциальных пользователей на Тайване и в Гонконге.

НО , если вы все еще настаиваете на этом, посмотрите, как это делает Википедия ; вот одна реализация (лицензия на заметку).

Можно ли надежно автоматически преобразовать текст в традиционный китайский язык с высоким качеством?

Другие ответы сосредоточены на трудностях, но они преувеличены. Одно дело, что значительная часть персонажей точно такая же. Во-вторых, «упрощенные» формы в точности таковы: упрощенные формы традиционных символов. Это означает, что между традиционными и упрощенными персонажами существует от 1 до 1 отношения.

Если да, то это будет исключительно высокое качество или просто хорошая отправная точка для перевода переводчика?

Некоторые вещи нуждаются в настройке.

Есть ли инструменты с открытым исходным кодом (в идеале на PHP) для такого преобразования?

Не то, что я знаю, хотя вы можете проверить google translate api?

Является ли преобразование лучше одним способом против другого (упрощенный -> традиционный или наоборот)?

Несколько символов потеряли различие в упрощенном алфавите. Например, 麵 (мука) была упрощена до того же символа, что и 面 (лицо, сторона). По этой причине традиционное упрощение было бы несколько более точным.

Я также хотел бы отметить, что традиционные символы используются не только на Тайване (их можно найти в HK, а иногда и на материке)


Я смог найти это и это . Однако нужно создать учетную запись для загрузки. Никогда не использовал сайт самостоятельно, поэтому я не могу ручаться за него.

По сути, упрощенные китайские слова имеют много недостающих значений. Никакой язык программирования в мире не сможет точно преобразовать упрощенный китайский язык в традиционный китайский. Вы просто вызовите путаницу для вашей целевой аудитории (Гонконг, Макао, Тайвань).

Прекрасным примером неудачного перевода с упрощенного китайского на традиционный китайский является слово «后». В упрощенной форме он имеет два значения: «за» или «королева». Однако, если вы попытаетесь преобразовать это обратно в традиционный китайский, может быть более двух символов: 後 «за» или «королева». Один забавный пример, с которым я столкнулся, – это переводчик, который перевел «皇后 大道» Queen's Road в «皇後 大道», что буквально означает Queen's Behind Road.

Если ваш алгоритм перевода не является супермассивным, он должен создавать ошибки. Так что вам лучше нанять очень хорошего переводчика, который свободно говорит на обоих типах китайцев.

Я ничего не знаю о какой-либо форме китайцев, но, посмотрев примеры на этой странице в Википедии, я склонен думать, что автоматическое преобразование возможно, так как многие из фраз, похоже, используют одинаковое количество символов и даже некоторые из одинаковые символы.

Я проверил быстрый тест с использованием функции multibyte ord() и я не вижу никаких шаблонов, которые позволяли бы автоматическое преобразование без использования таблицы преобразования (огромного?).

 Traditional Chinese 漢字Simplified Chinese 汉字function mb_ord($string) { if (is_array($result = unpack('N', iconv('UTF-8', 'UCS-4BE', $string))) === true) { return $result[1]; } return false; } var_dump(mb_ord('漢'), mb_ord('字')); // 28450, 23383 var_dump(mb_ord('汉'), mb_ord('字')); // 27721, 23383 

Это может быть хорошим местом для начала создания LUTT:

  • Список упрощенных / традиционных китайских символов

Я добрался до этого другого связанного ответа, который, кажется, согласен (до некоторой степени) с моими рассуждениями:

Есть несколько стран, где китайский язык является основным письменным языком. Основное различие между ними заключается в том, используют ли они упрощенные или традиционные символы, но есть и незначительные региональные различия (в словарном и т. Д.).

Короткий ответ: Да. И это легко. Вы можете сначала преобразовать его из UTF-8 в BIG5, тогда есть множество инструментов для конвертирования BIG5 в GBK, затем вы можете конвертировать GBK в UTF-8.