两种文件分割/文本处理方法无乱码

易语言 2020-04-25 19:11:47

第一种方法:按行分割这个写起来很简单,
但是缺点是分割的文本缺乏连续性,而且分割后的大小偏差很大
第二种方法:按字节集分割,开始我以为也很简单结果分割出来,有些就出现乱码
参考搜索了论坛和其他网上开源的资源都是简单分割没有考虑乱码问题
开始我是考虑在分割点附近取6字节,组合后判断该处字符是否为汉字,结果仍然不稳定时不时出现乱码
上午突然想到一个巧妙的方法就是倒取最后出现的单字节字符(0-127)这样分割既能保证连续性,又能防止乱码
这里把两种方法分享出来,供大家参考一下。