源码:处理文件格式和字符集的相关代码(3-3)

总入口:源码:处理文件格式和字符集的相关代码(3-1)-CSDN博客

目录

六、预览(正确显示文本文件)

[6.1 总体逻辑](#6.1 总体逻辑)

[6.2 二进制显示](#6.2 二进制显示)

[6.3 文本显示](#6.3 文本显示)


六、预览(正确显示文本文件)

6.1 总体逻辑

首先区分了二进制显示和文本显示,这是两种完全不同的方法。

文本显示默认根据检测到的编码来显示,如果指定了编码,则跳过BOM,否则系统会根据BOM来显示(这样指定的编码就没有意义了)。

cs 复制代码
		public static string makeFileContent(string file, bool bHex, Encoding encoding, ref string state, ref Encoding realEncoding)
		{
			if (bHex)
			{
				。。。。。。二进制显示
			}
			else
			{
				。。。。。。文本显示
			}
		}

6.2 二进制显示

二进制显示根据检测到的格式来处理回车换行。每个回车和换行都导致换行显示(当然,这是我懒了)。

cs 复制代码
				state = "HEX";
				FileResult fileResult = ProcessFile(file, true);
				FileStream filestream = new FileStream(file, FileMode.Open, FileAccess.Read);
				byte[] data = new byte[filestream.Length];
				filestream.Read(data, 0, (int)filestream.Length);
				filestream.Close();
				StringBuilder sb = new StringBuilder();
				bool linehead = true;
				int charWidth = 1;
				int pos = 0;
				if (fileResult.isUTF16)
				{
					charWidth = 2;
					pos = (fileResult.isBigEndian ? charWidth - 1 : 0);
				}
				if (fileResult.isUTF32)
				{
					charWidth = 4;
					pos = (fileResult.isBigEndian ? charWidth - 1 : 0);
				}
				for (int i = 0; i < data.Length; i += charWidth)
				{
					int sum = 0;
					for (int j = 0; j < charWidth; ++j)
					{
						string str = Convert.ToString(data[i + j], 16);
						if (!linehead) sb.Append(" ");
						if (str.Length == 1) sb.Append("0");
						sb.Append(str);
						linehead = false;

						sum += data[i + j];
					}
					if (sum == '\r' && data[i + pos] == '\r')
					{
						sb.Append(Environment.NewLine);
						linehead = true;
					}
					if (sum == '\n' && data[i + pos] == '\n')
					{
						sb.Append(Environment.NewLine);
						linehead = true;
					}
				}
				return sb.ToString();

6.3 文本显示

文本显示利用的是系统的处理文本的功能。

cs 复制代码
				FileResult fileResult = ProcessFile(file, true);
				FileStream fileStream = new FileStream(file, FileMode.Open, FileAccess.Read);
				Encoding tryencoding;
				if (null == encoding)
				{
					if (fileResult.isUTF8) tryencoding = Encoding.UTF8;
					else if (fileResult.isUTF16) tryencoding = Encoding.Unicode;
					else if (fileResult.isUTF32) tryencoding = Encoding.UTF32;
					else tryencoding = Encoding.Default;

					if (fileResult.isBigEndian)
					{
						if (fileResult.isUTF16) tryencoding = Encoding.GetEncoding(1201);
						if (fileResult.isUTF32) tryencoding = Encoding.GetEncoding(12001);
					}
				}
				else
				{
					//指定编码时跳过BOM,以免自动根据BOM改变编码
					tryencoding = encoding;
					int BOMsize = 0;
					if (fileResult.withBOM)
					{
						if (fileResult.isUTF8) BOMsize = 3;
						if (fileResult.isUTF16) BOMsize = 2;
						if (fileResult.isUTF32) BOMsize = 4;
					}
					for (int i = 0; i < BOMsize; ++i)
					{
						fileStream.ReadByte();
					}
				}
				StreamReader streamReader = new StreamReader(fileStream, tryencoding);
				StringBuilder sb = new StringBuilder();
				string content;
				while ((content = streamReader.ReadLine()) != null)
				{
					sb.AppendLine(content);
				}
				realEncoding = streamReader.CurrentEncoding;
				state = streamReader.CurrentEncoding.EncodingName;
				if (fileResult.BOM.Length > 0) state += " BOM: " + fileResult.BOM;
				else state += " BOM: NONE";

				streamReader.Close();
				fileStream.Close();
				return sb.ToString();
			}

(这里是文档结束)

相关推荐
witton19 天前
记一次pdf转Word的技术经历
pdf·乱码·word·pymupdf·mupdf·mupdf.js·winansiencoding
伊织code2 个月前
macOS 使用 iconv 转化文件编码
macos·乱码·文件·编码·转换·iconv
御风@户外3 个月前
qt5的中文乱码问题,QString、QStringLiteral 为 UTF-16 编码
c++·qt·乱码
charlee443 个月前
C++代码改造为UTF-8编码问题的总结
字符编码·utf-8·c/c++
丘上人4 个月前
qt 汉字输出 中文输出 显示乱码 qDebug() 乱码 解决
qt·乱码·qstring·qdebug·qtextcodec
一丝晨光4 个月前
如何很快将文件转换成另外一种编码格式?编码?按指定编码格式编译?如何检测文件编码格式?Java .class文件编码和JVM运行期内存编码?
java·c++·python·visual studio·unicode·ansi·utf8
GIS思维6 个月前
ArcGIS Pro属性表乱码与字段名3个汉字解决方案大总结
字符编码·arcgis·arcgis pro·arcgis pro属性表乱码·shp编码·shp限制
九月镇灵将7 个月前
爬虫逆向学习(十二):一个案例入门补环境
爬虫·学习·nodejs·dom·bom·补环境
左直拳8 个月前
设置spring boot禁止日志输出到控制台
spring boot·后端·乱码·logback·slf4j·输出到控制台