请求的一生

本篇讲述:当你在浏览器中输入http://www.baidu.com并按下回车,世界是如何到你面前的。 解析 URL 浏览器通过你输入的 http://www.baidu.com 进行解析,得知: 协议:http 域名: www.baidu.com 资源: / 进行 DNS 查询 检查浏览器缓

一百行代码实现异步爬虫

一个优雅的爬虫需要一下这些东西: 请求器 页面解析器 链接生成器 调度器 请求器 负责发送请求。 页面解析器 负责从页面上解析出继续爬的链接。 链接生成器 负责处理继续爬虫的链接并放入队列。 调度器 决定链接是否应该被爬去的核心部件。 异步 同时有多个请求在发送,即时异步爬虫。 代码 相关代码已

CI: 单打独斗必备

什么是CI 持续集成(英语:Continuous integration,缩写CI),又译为持续集成,是一种软件工程流程,是将所有软件工程师对于软件的工作副本持续集成到共享主线(mainline)的一种举措。该名称最早由葛来迪·布区(Grady Booch)在他的布区方法中提出,不过他并不支持在一

编辑距离

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。DNA也可以视为用A、C、G和T组成的字符串

搜索引擎 之 倒排索引

世界上最伟大的互联网产品,说是搜索引擎,绝对没有别的产品可以替代,尤其是伟大的先在市场占用率最高的搜索引擎,Google Search. 还有很多差一大截的,比如 Bing, Yahoo 和 YANDEX. 什么是搜索引擎 所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息

操作系统 之 内核

最近华为鸿蒙系统沸沸扬扬,宣传自己用了微内核,可以支持各种设备。 那么内核是什么? 为什么微内核可以支持各种设备呢? 内核(英语:Kernel,又称核心)在计算机科学中是一个用来管理软体发出的资料I/O(输入与输出)要求的电脑程式,将这些要求转译为资料处理的指令并交由中央处理器(CPU)及电脑

Tornado Auto Etag 机制

为了研究缓存看了 tornado web.py 里的 finish 函数 代码如下 def finish(self, chunk: Union[str, bytes, dict] = None) -> "Future[None]": "&q
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×