VB中的Unicode 和 Ansi 格式 转换

作者在 2009-01-29 09:06:27 发布以下内容
    VB中的Unicode 和 Ansi 格式

    Visual Basic 32-bit 版本的字串处理采用 Unicode,也就是说字串在 VB 内部是以Unicode 的格式来存放。何谓 Unicode?简单的说,就是每一个字符都是以 2-byte 的形式表示,而每个「实体字符」就是一个「字符」。因此,
 Len("大家好")
 Len("abc")
    所返回的值都是 3,因为「大」和「a」都是一个字符。
    但是这对一些中文字串处理,例如纯文字的数据文件,却是一个大灾难,因为你必须以byte 来定位每个字符,可是 Unicode 却把一切的处理全搞砸了。例如:

Len("Good Morning") 返回 12,而 

Len("今天天气很好") 返回 6 

    对初学者而言,好不容易能使用 VB 来写程序已经是件了不起的事了,却马上在中文处理上挨了一记闷棍,所受到的打击实在不小。但是不要怕,事实上只要再多了解一些指令,就可以把中文处理的问题解决了。

    是什么指令呢?最重要的莫过于 StrConv 了。StrConv 函数的语法为:StrConv(待转换字串, 转换格式)

     其中转换格式在这里用到的是:

    vbUnicode 将 Ansi 字串转换为 Unicode

    vbFromUnicode 将 Unicode 字串转换为 Ansi

    将字串转成 Ansi 之后,所有的字串处理指令都要加个 B,例如:LeftB, RightB,

    MidB, ChrB, InstrB, LenB, InputB 等。例用这些指令来处理就行了。

    当你处理完毕之后,你可以再将它再转回 Unicode,这样就可以使用一般的字串处理指令了。这样讲看得懂吗?如果还是不了解,看看下面的实例说明:

简易使用范例

看看下面的基本范例您应该就会对 VB 的字串处理方式有些概念。


Private Sub Command1_Click ()

Dim sUnicode As String

Dim sAnsi As String

' Unicode 运算

sUnicode = "王小明,A123456789,651023,上海市中山路100号,(02)2345678"

Debug.Print Len(sUnicode) ' 返回 44

Debug.Print Mid$(sUnicode, 5, 10) ' 返回 A123456789

Debug.Print Instr(sUnicode, "上海市") ' 返回 23

' 将 Unicode 字串转成 Ansi

sAnsi = StrConv(sUnicode, vbFromUnicode)

' Ansi 运算

Debug.Print LenB(sAnsi) ' 返回 54

Debug.Print MidB$(sAnsi, 8, 10) ' 返回 ?????,因为忘了转回 Unicode

Debug.Print StrConv(MidB$(sAnsi, 8, 10), vbUnicode) ' 返回 A123456789,请注意转回 Unicode 的动作一定要做


Debug.Print InStrB(sAnsi, StrConv("上海市", vbFromUnicode)) ' 返回 23, 不要忘了要把"上海市"也转成 Ansi,否则会找不到

End Sub

读入文本文件

在 VB 的小技巧中,有一个是快速读文件法:

Private Sub Command1_Click ()

Dim sFile As String

Open "C:\filename.txt" For Input As #1

sFile = Input$(LOF(1), #1)

Close #1

End Sub


    但是很不幸地,如果你读取的文件内含中文字,那上面这段程序会出现 Input pastend of file 的错误。因为 LOF 返回的是文件的 byte 数,而 Input 函数读取的是字符数,由于文件内含中文,因此文件中的字符数将会小于 byte 数,于是就发生错误了。要解决这个问题,我们就要用到 StrConv 和 InputB 这两个函数了:

Private Sub Command1_Click ()

Dim sFile As String

Open "C:\filename.txt" For Input As #1

sFile = StrConv(InputB$(LOF(1), #1), vbUnicode)

Close #1

End Sub

    上面修正程序先用 InputB 将文件读进来,不过使用 InputB 所读入的文件是 Ansi格式的,所以要再用 StrConv 转成 Unicode 才行。随机数据文件许多文字数据文件是以固定字节的位置来加以区格,例如下面的数据格式:王小民650110上海市中山路100号 (02)1234567

    张大呆660824花莲县大甲镇广东街23号(03)9876543


    像这种类型的文件要如何处理呢?这是就必须用到 Type 以及 byte array 了。

Private Type tagRecord

Username(5) As Byte ' 姓名 6 bytes

Birthday(5) As Byte ' 生日 6 bytes

Address(21) As Byte ' 地址 22 bytes

TEL(11) As Byte ' 电话 12 bytes

CrLf(1) As Byte ' 换行字符 2 bytes

End Type


Private Sub Command1_Click()

Dim uRecord As tagRecord

Open "C:\filename.dat" For Random As #1 Len = LenB(uRecord)

Get #1, 2, uRecord ' 取第二笔数据

With uRecord ' With ... End With 应该会用吧

Debug.Print .Username ' 返回 ???

Debug.Print StrConv(.Username, vbUnicode) ' 返回 "张大呆"

End With

Close #1

End Sub


    在这个例子中,一定要用到 byte array,因为只有 byte array 才能正确地定位到每个 byte 的位置。以前使用字串来定位的方法已经不适用了,千万要记住!但是使用byte array 所读入的数据是 Ansi 格式,若要处理或是做运算的话,记得还要转成Unicode 格式才行。


    使用 Byte Array

除了上面必须使用 byte 精确定位的例子之外,纯文字的处理基本上是用不到 bytearray 的。byte array 通常是用在处理 binary 数据。这方面的问题我们将另文讨论。看吧!只要熟悉使用 StrConv,你就可以在 Unicode 及 Ansi 格式之间自由自在地变来变去,相信当您看完这篇文章之后,对处理中文应该不再烦恼了吧!
编程技巧 | 阅读 8513 次
文章评论,共4条
ymwjzz
2009-05-15 12:18
1
看完了该文,对UNICODE有一定的认识,但与到具体的问题,还不能解决。
ymwjzz
2009-05-15 12:21
2
我的源程序:如何上传TXT文件<br />
Private Sub Command1_Click()<br />
Open &quot;a-gbk.txt&quot; For Input As #1<br />
Open &quot;z-1.txt&quot; For Output As #2<br />
Open &quot;c-1.txt&quot; For Output As #3<br />
Do While Not EOF(1)<br />
Line Input #1, mb$<br />
ascmb1 = Asc(Left$(mb$, 1))<br />
ascmb2 = Asc(Mid$(mb$, 2, 1))<br />
If ascmb1 &gt; 64 And ascmb1 &lt; 123 Then<br />
Print #2, mb$<br />
Else<br />
If ascmb2 &gt; 96 And ascmb2 &lt; 123 Then<br />
Print #2, mb$<br />
Else<br />
Print #3, mb$<br />
End If<br />
End If<br />
Loop<br />
Close #1, #2, #3<br />
Print &quot;OK&quot;<br />
End Sub
yunlingzhi(作者)
2009-05-20 09:39
3
首先定义一个Byte类型的数组,用二进制方式打开文件,将内容读到刚定义的字节数组中。接下来直接处理字节数组就可以了,这样不需要你考虑字节是否大于128,也不会出现半个汉字等乱码现象。<br />
你先试试,有问题再联系。
yunlingzhi(作者)
2009-05-20 09:40
4
<div class="quote"><span class="q"><b>ymwjzz</b>: 我的源程序:如何上传TXT文件&nbsp;&nbsp;&nbsp;Private Sub Command1_Click()&nbsp;&nbsp;&nbsp;Open &quot;a-gbk.txt&quot; For Input As #1&nbsp;&nbsp;&nbsp;Open &quot;z-1.txt&quot; For Output As #2</span></div>首先定义一个Byte类型的数组,用二进制方式打开文件,将内容读到刚定义的字节数组中。接下来直接处理字节数组就可以了,这样不需要你考虑字节是否大于128,也不会出现半个汉字等乱码现象。<br />
你先试试,有问题再联系。
游客请输入验证码