每个开发者都必须知道的 14 个数字

2013-04-02 03:51

每个开发者都必须知道的 14 个数字

by 童海波

at 2013-04-01 19:51:04

original http://blog.jobbole.com/37350/?utm_source=rss&utm_medium=rss&utm_campaign=%25e6%25af%258f%25e4%25b8%25aa%25e5%25bc%2580%25e5%258f%2591%25e8%2580%2585%25e9%2583%25bd%25e5%25bf%2585%25e9%25a1%25bb%25e7%259f%25a5%25e9%2581%2593%25e7%259a%2584-14-%25e4%25b8%25aa%25e6%2595%25b0%25e5%25ad%2597

英文原文:14 numbers every developer should know 编译 oschina

Jeff Dean , 一位著名的 Google 工程师, 推出了一个 每个人都必须知道的数字 的潜在数字列表。这个列表对设计大型基础架构的系统是一个巨大的资源。

算法及其复杂性总是会在计算机系统的关键部分出现,但我发现很少有工程师对一个O(n!)级算法相较一个 O(n5) 算法会怎样有很好的理解。

在编码比赛世界里,竞争选手一直在考虑这些优化权衡。毫不奇怪,有一组每个算法设计者都应该知道的数字。

下面的表格显示了不同复杂度算法条件下,在几秒钟内它们可以达到的极限,n是输入量大小。我已经为每个复杂的类型增加了一些算法和数据结构的例子。

n最大值 复杂度 算法 数据结构
1,000,000,000 and higher log n, sqrt n 对分查找,三元查找, 快速指数,欧几里得算法
10,000,000 n, n log log n, n log* n 集合相交, Eratosthenes筛选法,基数排序, KMP算法,拓扑排序,欧拉路径, 强连通分量, 2sat图 不相交的集, tries树, 哈希映射, 滚动散列双端队列
1,000,000 n log n 排序, 分治法, 扫描线算法, Kruskal算法, Dijkstra算法 段树, 范围树, 堆, 二叉排序树, 树状数组, 后缀数组
100,000 n log2 n 分治法 2d范围树
50,000 n1.585, n sqrt n Karatsuba乘法算法, 平方根技巧 两层树
1000 – 10,000 n2 最大空矩形, Dijkstra算法, 普里姆算法 (密集图)
300-500 n3 所有对最短路径, 最大和子阵,原生矩阵乘法, 矩阵链乘积, 高斯消元法, 网络流
30-50 n4, n5, n6
25 – 40 3n/2, 2n/2 中途相遇 哈希表 (交叉集)
15 – 24 2n 子集枚举, 暴力破解, 动态规划与指数状态
15 – 20 n2 2n 动态规划与指数状态 位集合,  哈希映射
13-17 3n 动态规划与指数状态  哈希映射 (保存状态)
11 n! 暴力破解,回溯法, next_permutation全排列
8 nn 暴力破解, 笛卡尔积

 

这些数字不是非常精确,它们假设了内存操作以及一些变化的常数因子,但对于找到与你的问题和数据量大小相适应的解决方案研究方面,它们确实给出了一个很好的起点。

让我们通过一个实例来继续讲解。

假设你为一家GPS公司工作,你的项目是改善他们的导航功能。在学校,你学会使用Dijkstra’s 算法,在图上计算两点之间的最短距离。了解这些数字,你就会明白,他将耗费几秒钟以计算具有上百万条边的图形,Dijkstra’s 算法实现这些,有每个开发者都必须知道的 14 个数字的时间复杂度(m代表边数,n表示节点数)。

现在你面临一个新的问题:

你期望你的代码能执行多块?几秒钟?数百毫秒?

如果它在网络上的响应时间少于500毫秒,就觉得快。因此我们选半秒。

图有多大?你想解决问题是一个城市,一个国家还是一片大陆?

每一个大于其他大小的,将通过不同的方法解决。

比方说,我们要解决整个欧洲的问题。

下面是一些输入集的大小:

input Europe USA/CAN USA (Tiger)
#nodes 18 029 721 18 741 705 24 278 285
#directed edges 42 199 587 47 244 849 58 213 192
#road categories 13 13 4

即使我们选择半秒时间作为我们的执行时间,我们选的问题大小大约是4千万条边数,从我们提供的表里哼清楚地看到, m log n 太慢了。因此纯Dijkstra 算法解决不了我们的问题。我们需要卡看别的算法,如A星搜索算法或者基于 对于这个问题的高速公路层次式的表现。

相关文章

每个开发者都必须知道的 14 个数字,首发于博客 - 伯乐在线