3.python 爬虫基础HTTP原理2和网页基础

HTTP基本原理

响应：由服务器返回给客户端

响应状态码
响应头
响应体

响应状态码

可以根据状态码来判断服务器的响应状态
200代表服务器正常响应，404代表页面未找到，500代表服务器内部发生错误

响应头

包含了服务器对请求的应答信息，如contenttype，server，set-cookis等

响应体

爬虫请求后解析的内容就是响应体,响应的正文数据，比如请求网页时，响应体是html代码;请求一张图片时，响应体为图片的二进制数据;json数据等

网页基础

网页的组成

HTML,CSS和JavaScript
Html相当于骨架，JavaScript相当于肌肉，css相当于皮肤
三者结合起来形成完善的网页

HTML：超文本标记语言（hyper text markup language）

结构，决定网页的结构和内容（是什么），<'head>元素标记头部文件，用<'title>元素标记网页名称，用<'body>元素标记网页主体，用<'table>元素标记表格等等，段落用p标签表示，布局通过布
局标签div嵌套组合合成

CSS：层叠样式表(cascading stytle sheets)

层叠指在html中引用了数个样式文件，并且样式发生冲突时候，浏览器能依据层叠顺序处理
设定网页的表现样式(什么样子)。将网页样式提取出来方便更改某一类元素的样式，通过'<'style>元素插入CSS代码，<'style>元素放在<'head>元素中。网页中文字的大小，颜色，元素间距，排列等

JavaScript(JS)

Html和css只是实现静态信息，缺乏交互性。网页的交互和动画效果通过JavaScript实现
JavaScript通过单独的文件形式加载，后缀为js
Html中通过<'script>标签引入

我的第一个网页

html 复制代码

<html>
	<head>
		<style>
			ui{color:red}
			li{color:blue}
			hi{color:green}
		</style>
		<script>
				function myf(){alert('还是学习吧')}
			</script>
	
		<title>我的第一个网页
		</title>
	</head>

<body>
	<div>
		<h1>
			<ui>我的爱好</ui>
		</h1>
			<h2>
				<li>学习</li>
			</h2>
			<h2>
				<li>游戏</li>
			</h2>
				<h3>
					<a href="javascript:myf()">
					<hi>
						开始游戏
					</hi>
					</a>
				</h3>
	</div>
</body>


	
</html>