Преобразование wstring в строку, закодированную в UTF-8

Мне нужно преобразовать между wstring и string. Я понял, что использование фасета codecvt должно сделать трюк, но он, похоже, не работает для локали utf-8.

моя идея заключается в том, что когда я читаю кодированный файл utf-8 в символы, один символ utf-8 считывается в два обычных символа (так работает utf-8). Я хотел бы создать эту строку utf-8 из представления wstring для библиотеки, которую я использую в своем коде.

кто-нибудь знает, как это сделать?

Я уже попытался это:

  locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;  

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

который возвращает 'failed' для cs_CZ.UTF-8 locale и работает правильно для cs_CZ.iso8859-2 locale.

5 ответов


C++ понятия не имеет о Unicode. Используйте внешнюю библиотеку, такую как ICU (UnicodeString класс) или Qt (QString класс), оба поддерживают Unicode, включая UTF-8.


приведенный ниже код может вам помочь:)

#include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

какова ваша платформа? Обратите внимание, что Windows не поддерживает локали UTF-8, поэтому это может объяснить, почему вы терпите неудачу.

чтобы сделать это в зависимости от платформы, вы можете использовать MultiByteToWideChar/так и widechartomultibyte на Windows и iconv на Linux. Вы можете использовать некоторую магию boost, чтобы сделать это независимым от платформы способом, но я сам не пробовал, поэтому я не могу добавить об этой опции.


что делает locale, так это то, что он дает программе информацию о внешней кодировке, но при условии, что внутренняя кодировка не изменилась. Если вы хотите вывести UTF-8, вам нужно сделать это из wchar_t не из char*.

что вы можете сделать, это вывести его как необработанные данные (не строка), затем он должен быть правильно интерпретирован, если языковой стандарт системы UTF-8.

плюс при использовании (w)cout/(w)cerr/(w)cin вам нужно наполнить локаль в потоке.


на библиотека Lexertl имеет итератор, который позволяет вам сделать это:

std::string str;
str.assign(
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
  lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));