为了账号安全,请及时绑定邮箱和手机立即绑定

Java 和 C 之间的代码点不匹配

Java 和 C 之间的代码点不匹配

慕少森 2022-09-21 17:38:07

所以,我在imgui到科特林的端口中的以下字符遇到了一些问题–


在花了一整天的时间研究字符集和编码之后,我终于找到了我唯一的希望:依靠unicode代码点。


JVM上的那个字符


"–"[0].toInt() // same as codePointAt()


返回代码点 u2013


在C上,我不确定,但因为这是正在做的事情:


const ImFontGlyph* ImFont::FindGlyph(ImWchar c) const

{

    if (c >= IndexLookup.Size)

        return FallbackGlyph;

    const ImWchar i = IndexLookup.Data[c];

    if (i == (ImWchar)-1)

        return FallbackGlyph;

    return &Glyphs.Data[i];

}

哪里


typedef unsigned short ImWchar



ImVector<ImWchar> IndexLookup; // Sparse. Index glyphs by Unicode code-point.


所以,这样做


char* a = "–";

int b = a[0];

返回代码点 u0096


就我所读到的,看起来我们处于“扩展的Ascii”领域,这很糟糕,因为它似乎有不同的版本/解释。1270x7F


例如,此编码表与我的代码点不匹配,但 Cp1252 编码匹配,因此我倾向于认为这是 C 上实际使用的编码。


在刚才提到的链接底部的表格中,您实际上可以看到(小数,从右列与给定数字开始的计数)确实对应于(十六进制,我发现它有点不连贯,但无论如何)。1502013


为了解决这个问题,我试图将我在Kotlin上的s转换为相同的编码(暂时忽略这当然是特定于平台的),所以对于每个Stringc: Char


"$c".toByteArray(Charset.forName("Cp1252"))[0].toUnsignedInt


这有效,但会中断外来字体(如中文、日文等)的渲染。


所以,我的问题是:为什么在JVM和C上有什么区别?u2013u0096


哪种是正确的处理方法?


查看完整描述

1 回答

?
慕后森

TA贡献1483条经验 获得超5个赞

目前我在Windows上解决了这个问题,我在检索字符代码点之前插入了这个函数。它基本上重新映射了所有与ISO-8859-1不同的字符。你可以在这个表格中看到它们,它们都是那些带有浅灰色边框的人。

internal fun Char.remapCodepointIfProblematic(): Int {

    val i = toInt()

    return when (Platform.get()) {

        /*  https://en.wikipedia.org/wiki/Windows-1252#Character_set

         *  manually remap the difference from  ISO-8859-1 */

        Platform.WINDOWS -> when (i) {

            // 8_128

            0x20AC -> 128 // €

            0x201A -> 130 // ‚

            0x0192 -> 131 // ƒ

            0x201E -> 132 // „

            0x2026 -> 133 // …

            0x2020 -> 134 // †

            0x2021 -> 135 // ‡

            0x02C6 -> 136 // ˆ

            0x2030 -> 137 // ‰

            0x0160 -> 138 // Š

            0x2039 -> 139 // ‹

            0x0152 -> 140 // Œ

            0x017D -> 142 // Ž

            // 9_144

            0x2018 -> 145 // ‘

            0x2019 -> 146 // ’

            0x201C -> 147 // “

            0x201D -> 148 // ”

            0x2022 -> 149 // •

            0x2013 -> 150 // –

            0x2014 -> 151 // —

            0x02DC -> 152 // ˜

            0x2122 -> 153 // ™

            0x0161 -> 154 // š

            0x203A -> 155 // ›

            0x0153 -> 156 // œ

            0x017E -> 158 // ž

            0x0178 -> 159 // Ÿ

            else -> i

        }

        else -> i // TODO

    }

}


查看完整回答
反对 回复 2022-09-21

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信