Преобразование wstring в строку, закодированную в UTF-8
Мне нужно преобразовать между wstring и string. Я понял, что использование фасета codecvt должно сделать трюк, но он, похоже, не работает для локали utf-8.
моя идея заключается в том, что когда я читаю кодированный файл utf-8 в символы, один символ utf-8 считывается в два обычных символа (так работает utf-8). Я хотел бы создать эту строку utf-8 из представления wstring для библиотеки, которую я использую в своем коде.
кто-нибудь знает, как это сделать?
Я уже попытался это:
locale mylocale("cs_CZ.utf-8");
mbstate_t mystate;
wstring mywstring = L"čřžýáí";
const codecvt<wchar_t,char,mbstate_t>& myfacet =
use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);
codecvt<wchar_t,char,mbstate_t>::result myresult;
size_t length = mywstring.length();
char* pstr= new char [length+1];
const wchar_t* pwc;
char* pc;
// translate characters:
myresult = myfacet.out (mystate,
mywstring.c_str(), mywstring.c_str()+length+1, pwc,
pstr, pstr+length+1, pc);
if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
cout << "Translation successful: " << pstr << endl;
else cout << "failed" << endl;
return 0;
который возвращает 'failed' для cs_CZ.UTF-8 locale и работает правильно для cs_CZ.iso8859-2 locale.
5 ответов
C++ понятия не имеет о Unicode. Используйте внешнюю библиотеку, такую как ICU (UnicodeString
класс) или Qt (QString
класс), оба поддерживают Unicode, включая UTF-8.
приведенный ниже код может вам помочь:)
#include <codecvt>
#include <string>
// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
return myconv.from_bytes(str);
}
// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
std::wstring_convert<std::codecvt_utf8<wchar_t>> myconv;
return myconv.to_bytes(str);
}
какова ваша платформа? Обратите внимание, что Windows не поддерживает локали UTF-8, поэтому это может объяснить, почему вы терпите неудачу.
чтобы сделать это в зависимости от платформы, вы можете использовать MultiByteToWideChar/так и widechartomultibyte на Windows и iconv на Linux. Вы можете использовать некоторую магию boost, чтобы сделать это независимым от платформы способом, но я сам не пробовал, поэтому я не могу добавить об этой опции.
что делает locale, так это то, что он дает программе информацию о внешней кодировке, но при условии, что внутренняя кодировка не изменилась. Если вы хотите вывести UTF-8, вам нужно сделать это из wchar_t
не из char*
.
что вы можете сделать, это вывести его как необработанные данные (не строка), затем он должен быть правильно интерпретирован, если языковой стандарт системы UTF-8.
плюс при использовании (w)cout
/(w)cerr
/(w)cin
вам нужно наполнить локаль в потоке.
на библиотека Lexertl имеет итератор, который позволяет вам сделать это:
std::string str;
str.assign(
lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.begin()),
lexertl::basic_utf8_out_iterator<std::wstring::const_iterator>(wstr.end()));