Существует ли стандартный метод упаковки двоичных данных в строку UTF-16?
(в .NET) у меня есть произвольные двоичные данные, хранящиеся в байт[] (изображение, например). Теперь мне нужно сохранить эти данные в строка (поле "Комментарий" устаревшего API). Есть ли стандартная техника для упаковка двоичные данные в строка? Под "упаковкой" я подразумеваю, что для любого достаточно большого и случайного набора данных,байт.Длина/2 примерно то же самое, что упакованные.Длина; потому что два байта более или менее один персонаж.
два "очевидных" ответа не отвечают всем критериям:
string base64 = System.Convert.ToBase64String(bytes)
не делает очень эффективное использование строка поскольку он использует только 64 символа из примерно 60 000 доступных (мое хранилище -
7 ответов
я наткнулся на Base16k после прочтения вашего вопроса. Не совсем стандарт, но он, похоже, работает хорошо и был достаточно прост в реализации на C#.
советую: do используют base64? Это может быть не самый эффективный способ сделать это storagewise, но у него есть свои преимущества:
- ваши заботы о коде закончились.
- у вас будут наименьшие проблемы совместимости с другими игроками, если они есть.
- если закодированная строка когда-либо будет рассматриваться как ASCII во время преобразования, экспорта, импорта, резервного копирования, восстановления, что угодно, у вас не будет никаких проблем любой.
- если вы когда-нибудь упадете замертво или окажетесь под автобусом или что-то в этом роде, любой программист, который когда-либо попадет в поле комментариев, сразу поймет, что это base64, и не будет считать, что все зашифровано или что-то в этом роде.
во-первых, помните, что Unicode не означает 16 бит. тот факт, что система.Строка использует UTF-16 внутренне ни здесь, ни там. Символы юникода абстрактны - они получают только битовые представления через кодировки.
вы говорите: "мое хранилище-это система.String" - если это так, вы не можете говорить о битах и байтах, только символах Юникода. Система.String, безусловно, имеет собственную внутреннюю кодировку, но (в теории) это может быть отличающийся.
кстати, если вы считаете, что внутреннее представление системы.Строка слишком неэффективна для данных, закодированных в Base64, почему вы не беспокоитесь о латинских / западных строках?
Если вы хотите хранить двоичные данные в систему.String, вам нужно сопоставление между коллекциями битов и символов.
вариант A: есть предварительно сделанный в форме кодировки Base64. Как вы указали, это кодирует шесть битов данных на характер.
вариант B: Если вы хотите упаковать больше битов на символ, то вам нужно будет сделать массив (или кодировку) из 128, 256, 512 и т. д. символов Юникода и упаковать 7, 8, 9 и т. д. бит данных на символ. Эти символы должны быть реальными символами Unicode.
чтобы ответить на ваш вопрос просто, да, есть стандарт, это Base64-кодировка.
Это реальная проблема? У вас есть данные perf для поддержки вашей идеи не использовать Base64?
вы можете рассматривать двоичные данные как UTF-8b. Кодировка UTF-8b предполагает, что байты являются многобайтовыми последовательностями UTF-8, но имеет резервную кодировку для вещей, которые не являются.
вот версия C# Джима Бевериджа c++ реализация:
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
using System.Linq;
//
// Base16k.cpp : Variant of base64 used to efficiently encode binary into Unicode UTF16 strings. Based on work by
// Markus Scherer at https://sites.google.com/site/markusicu/unicode/base16k
//
// This code is hereby placed in the Public Domain.
// Jim Beveridge, November 29, 2011.
//
// C# port of http://qualapps.blogspot.com/2011/11/base64-for-unicode-utf16.html
// This code is hereby placed in the Public Domain.
// J. Daniel Smith, February 23, 2015
//
namespace JDanielSmith
{
public static partial class Convert
{
/// <summary>
/// Encode a binary array into a Base16k string for Unicode.
/// </summary>
public static string ToBase16kString(byte[] inArray)
{
int len = inArray.Length;
var sb = new StringBuilder(len*6/5);
sb.Append(len);
int code = 0;
for (int i=0; i<len; ++i)
{
byte byteValue = inArray[i];
switch (i%7)
{
case 0:
code = byteValue<<6;
break;
case 1:
code |= byteValue>>2;
code += 0x5000;
sb.Append(System.Convert.ToChar(code));
code = (byteValue&3)<<12;
break;
case 2:
code |= byteValue<<4;
break;
case 3:
code |= byteValue>>4;
code+=0x5000;
sb.Append(System.Convert.ToChar(code));
code = (byteValue&0xf)<<10;
break;
case 4:
code |= byteValue<<2;
break;
case 5:
code|=byteValue>>6;
code+=0x5000;
sb.Append(System.Convert.ToChar(code));
code=(byteValue&0x3f)<<8;
break;
case 6:
code|=byteValue;
code+=0x5000;
sb.Append(System.Convert.ToChar(code));
code=0;
break;
}
}
// emit a character for remaining bits
if (len%7 != 0) {
code += 0x5000;
sb.Append(System.Convert.ToChar(code));
}
return sb.ToString();
}
/// <summary>
/// Decode a Base16k string for Unicode into a binary array.
/// </summary>
public static byte[] FromBase16kString(string s)
{
// read the length
var r = new Regex(@"^\d+", RegexOptions.None, matchTimeout: TimeSpan.FromMilliseconds(100));
Match m = r.Match(s);
if (!m.Success)
return null;
int length;
if (!Int32.TryParse(m.Value, out length))
return null;
var buf = new List<byte>(length);
int pos=0; // position in s
while ((pos < s.Length) && (s[pos] >= '0' && s[pos] <= '9'))
++pos;
// decode characters to bytes
int i = 0; // byte position modulo 7 (0..6 wrapping around)
int code=0;
byte byteValue=0;
while (length-- > 0)
{
if (((1<<i)&0x2b)!=0)
{
// fetch another Han character at i=0, 1, 3, 5
if(pos >= s.Length)
{
// Too few Han characters representing binary data.
System.Diagnostics.Debug.Assert(pos < s.Length);
return null;
}
code=s[pos++]-0x5000;
}
switch (i%7)
{
case 0:
byteValue = System.Convert.ToByte(code>>6);
buf.Add(byteValue);
byteValue = System.Convert.ToByte((code&0x3f)<<2);
break;
case 1:
byteValue |= System.Convert.ToByte(code>>12);
buf.Add(byteValue);
break;
case 2:
byteValue = System.Convert.ToByte((code>>4)&0xff);
buf.Add(byteValue);
byteValue = System.Convert.ToByte((code&0xf)<<4);
break;
case 3:
byteValue |= System.Convert.ToByte(code>>10);
buf.Add(byteValue);
break;
case 4:
byteValue = System.Convert.ToByte((code>>2)&0xff);
buf.Add(byteValue);
byteValue = System.Convert.ToByte((code&3)<<6);
break;
case 5:
byteValue |= System.Convert.ToByte(code>>8);
buf.Add(byteValue);
break;
case 6:
byteValue = System.Convert.ToByte(code&0xff);
buf.Add(byteValue);
break;
}
// advance to the next byte position
if(++i==7)
i=0;
}
return buf.ToArray();
}
}
}
namespace Base16kCS
{
class Program
{
static void Main(string[] args)
{
var drand = new Random();
// Create 500 different binary objects, then encode and decode them.
// The first 16 objects will have length 0,1,2 ... 16 to test boundary conditions.
for (int loop = 0; loop < 500; ++loop)
{
Console.WriteLine("{0}", loop);
int dw = drand.Next(128000);
var org = new List<byte>(dw);
for (int i = 0; i < dw; ++i)
org.Add(Convert.ToByte(drand.Next(256)));
if (loop < 16)
org = org.Take(loop).ToList();
string wstr = JDanielSmith.Convert.ToBase16kString(org.ToArray());
byte[] bin = JDanielSmith.Convert.FromBase16kString(wstr);
System.Diagnostics.Debug.Assert(org.SequenceEqual(bin));
}
}
}
}
я дурачился с прямыми массивами символов, и ваш один неудачный случай работает с моей реализацией. Код был протестирован хорошо: поэтому сначала сделайте свои тесты.
вы можете ускорить это, используя небезопасный код. Но я уверен, что UnicodeEncoding так же медленно (если не медленнее).
/// <summary>
/// Represents an encoding that packs bytes tightly into a string.
/// </summary>
public class ByteEncoding : Encoding
{
/// <summary>
/// Gets the Byte Encoding instance.
/// </summary>
public static readonly Encoding Encoding = new ByteEncoding();
private ByteEncoding()
{
}
public override int GetBytes(char[] chars, int charIndex, int charCount, byte[] bytes, int byteIndex)
{
for (int i = 0; i < chars.Length; i++)
{
// Work out some indicies.
int j = i * 2;
int k = byteIndex + j;
// Get the bytes.
byte[] packedBytes = BitConverter.GetBytes((short) chars[charIndex + i]);
// Unpack them.
bytes[k] = packedBytes[0];
bytes[k + 1] = packedBytes[1];
}
return chars.Length * 2;
}
public override int GetChars(byte[] bytes, int byteIndex, int byteCount, char[] chars, int charIndex)
{
for (int i = 0; i < byteCount; i += 2)
{
// Work out some indicies.
int j = i / 2;
int k = byteIndex + i;
// Make sure we don't read too many bytes.
byte byteB = 0;
if (i + 1 < byteCount)
{
byteB = bytes[k + 1];
}
// Add it to the array.
chars[charIndex + j] = (char) BitConverter.ToInt16(new byte[] { bytes[k], byteB }, 0);
}
return (byteCount / 2) + (byteCount % 2); // Round up.
}
public override int GetByteCount(char[] chars, int index, int count)
{
return count * 2;
}
public override int GetCharCount(byte[] bytes, int index, int count)
{
return (count / 2) + (count % 2);
}
public override int GetMaxByteCount(int charCount)
{
return charCount * 2;
}
public override int GetMaxCharCount(int byteCount)
{
return (byteCount / 2) + (byteCount % 2);
}
}
вот некоторые тестовый код:
static void Main(string[] args)
{
byte[] original = new byte[256];
// Note that we can't tell on the decode side how
// long the array was if the original length is
// an odd number. This will result in an
// inconclusive result.
for (int i = 0; i < original.Length; i++)
original[i] = (byte) Math.Abs(i - 1);
string packed = ByteEncoding.Encoding.GetString(original);
byte[] unpacked = ByteEncoding.Encoding.GetBytes(packed);
bool pass = true;
if (original.Length != unpacked.Length)
{
Console.WriteLine("Inconclusive: Lengths differ.");
pass = false;
}
int min = Math.Min(original.Length, unpacked.Length);
for (int i = 0; i < min; i++)
{
if (original[i] != unpacked[i])
{
Console.WriteLine("Fail: Invalid at a position {0}.", i);
pass = false;
}
}
Console.WriteLine(pass ? "All Passed" : "Failure Present");
Console.ReadLine();
}
тест работает, но вам придется протестировать его с помощью функции API.
есть еще один способ обойти это ограничение: хотя я не уверен, насколько хорошо это будет работать.
во - первых, вам нужно будет выяснить, какой тип строки ожидает вызов API-и какова структура этой строки. Если я возьму простой пример, рассмотрим строку .Net:
- int32 и _length;
- byte[] _data;
- byte _terminator = 0;
добавить перегрузку к вызову API, таким образом:
[DllImport("legacy.dll")]
private static extern void MyLegacyFunction(byte[] data);
[DllImport("legacy.dll")]
private static extern void MyLegacyFunction(string comment);
затем, когда вам нужно вызвать байтовую версию, вы можете сделать следующее:
public static void TheLegacyWisperer(byte[] data)
{
byte[] realData = new byte[data.Length + 4 /* _length */ + 1 /* _terminator */ ];
byte[] lengthBytes = BitConverter.GetBytes(data.Length);
Array.Copy(lengthBytes, realData, 4);
Array.Copy(data, 0, realData, 4, data.Length);
// realData[end] is equal to 0 in any case.
MyLegacyFunction(realData);
}