19

文/Chris Sanders

在计算机网络中,每天都可能发生成千上万的问题,从简单的间谍软件感染,到复杂的路由器配置错误。我们永远也不可能立即解决所有问题,而只能期盼充分地准备好相关的知识和工具,从而能够快速地响应各种类型的错误。所有的网络问题都源于数据包层次,即使是有着最漂亮外表的应用程序,它们也可能是“金玉其外”但“败絮其中”,有着混乱的设计与糟糕的实现,又或是看起来是可信的,但背地里在搞些恶意的行为。 阅读全文 »

标签:
阅读:19,999 次
25

文/Jeffrey Dean、Luiz André Barroso

为了提供流畅的用户体验,Web服务的响应时间至关重要。但是随着系统规模和复杂性越来越大,用量不断增加,控制延迟分布的尾部不致过长也越来越难。在中型系统中不太令人注意的暂时的高延迟情况,会对大规模系统的总性能产生巨大影响。与过去系统复杂性达到一定程度后,无错运行不再可行而发展出容错技术类似,现在完全消除引起响应时间波动的来源,对于大型服务来说也不再可行,于是容延(latency tail tolerant)技术应运而生。 阅读全文 »

标签:
阅读:7,706 次
01

文 / Michael Young,Nick Bilton    译 / 祝洪凯,李妹芳

你是否曾经想过《纽约时报》网站的读者会涵盖什么类型的人?我们想过。我们还在想他们倾向于在一天之中的什么时候来访问网站,使用什么工具访问以及他们都来自哪里?从他们是谁到在什么时候、以什么方式以及为什么等,所有这些问题都在我们的思考范围之内。

本文将要介绍的这个可视化项目源于在《纽约时报》研发试验室一次午餐时就这个话题开展的一次简单讨论。正如你将看到的,从非常简单的基于地理的数据集合开始,很快就深入到海量数据和潜在可视化。最终,我们创建了一个可视化用于显示每天《纽约时报》Web站点和手机站点在世界和美国的流量。

收集一些数据

为了对Web站点和手机站点24小时的流量进行可视化,我们需要创建一个可以从《纽约时报》的访问日志中抽取和清洗数据的程序。考虑到我们想要创建一个可以显示在一天内网站的访问次数的可视化并且是一个基于地理信息进行展示的可视化,我们需要的数据包括:

  • 在24小时内,用户每次访问Web站点或手机站点的时间戳。
  • 每个用户每次访问时所处位置的经度和纬度。

原始的访问日志包含了人们访问Web站点和手机站点的很多有用的信息(比如每个访问者使用什么浏览器);但其中有很多信息对我们而言是没有用的,因此需要把它们从日志信息中过滤掉。此外,日志中并不包括每个用户每次访问时的经纬度信息,因此这是我们在日志“清洗”过程中需要添加的信息。

《纽约时报》Web站点月独立访问读者约2000万。这意味着,在任何一天Web站点和手机站点上都有几百万次的页面浏览(或点击);这是我们准备为可视化收集的基础数据。 阅读全文 »

标签:
阅读:23,378 次
preload preload preload
京ICP备06065162