Squid配置详解

安装

从源中安装

源中自带稳定版本，执行下面的命令进行安装

是大家也许不知道，Squid有一个for Windows的版本，下载地址为: http://www.acmeconsulting.it/pagine/opensource/squid/SquidNT.htm

sudo apt-get install squid squid-common

源码编译安装

当然你也可以到下面的官方网站下载最新的版本进行编译安装：

http://www.squid-cache.org/

其中STABLE稳定版、DEVEL版通常是提供给开发人员测试程序的，假定下载了最新的稳定版squid-2.5.STABLE2.tar.gz，用以下命令解开压缩包：

tar xvfz squid-2.5.STABLE.tar.gz

用bz2方式压缩的包可能体积更小，相应的命令是：

tar xvfj squid-2.5.STABLE.tar.bz2

然后，进入相应目录对源代码进行配置和编译，命令如下：

cd squid-2.5.STABLE2

配置命令configure有很多选项，如果不清楚可先用“-help”查看。通常情况下，用到的选项有以下几个：

--prefix=/web/squid

指定Squid的安装位置，如果只指定这一选项，那么该目录下会有bin、sbin、man、conf等目录，而主要的配置文件此时在conf子目录中。为便于管理，最好用参数--sysconfdir=/etc把这个文件位置配置为/etc。

--enable-storeio=ufs,null

使用的文件系统通常是默认的ufs，不过如果想要做一个不缓存任何文件的代理服务器，就需要加上null文件系统。

--enable-arp-acl

这样可以在规则设置中直接通过客户端的MAC地址进行管理，防止客户使用IP欺骗。

--enable-err-languages="Simplify_Chinese"

--enable-default-err-languages="Simplify_Chinese"

上面两个选项告诉Squid编入并使用简体中文错误信息。

--enable-linux-netfilter

允许使用Linux的透明代理功能。

--enable-underscore

允许解析的URL中出现下划线，因为默认情况下Squid会认为带下划线的URL是非法的，并拒绝访问该地址。整个配置编译过程如下：

./configure --prefix=/var/squid 
--sysconfdir=/etc 
--enable-arp-acl 
--enable-linux-netfilter 
--enable-pthreads 
--enable-err-language="Simplify_Chinese" 
--enable-storeio=ufs,null 
--enable-default-err-language="Simplify_Chinese" 
--enable-auth="basic" 
--enable-baisc-auth-helpers="NCSA" 
--enable-underscore

其中一些选项有特殊作用，将在下面介绍它们。最后执行下面两条命令，将源代码编译为可执行文件，并拷贝到指定位置。

make

sudo make install

基本配置

安装完成后，接下来要对Squid的运行进行配置（不是前面安装时的配置）。所有项目都在squid.conf中完成。Squid自带的squid.conf包括非常详尽的说明，相当于一篇用户手册，对配置有任何疑问都可以参照解决。

在这个例子中，代理服务器同时也是网关，内部网络接口eth0的IP地址为192.168.0.1，外部网络接eth1的IP地址为202.103.x.x。下面是一个基本的代理所需要配置选项：

http_port 192.168.0.1:3128

默认端口是3128，当然也可以是任何其它端口，只要不与其它服务发生冲突即可。为了安全起见，在前面加上IP地址，Squid就不会监听外部的网络接口。下面的配置选项是服务器管理者的电子邮件，当错误发生时，该地址会显示在错误页面上，便于用户联系：

cache_mgr start@soocol.com

以下这些参数告诉Squid缓存的文件系统、位置和缓存策略：

cache_dir ufs /var/squid 
cache_mem 32MB 
cache_swap_low 90 
cache_swap_high 95

在这里，Squid会将/var/squid目录作为保存缓存数据的目录，每次处理的缓存大小是32兆字节，当缓存空间使用达到95%时，新的内容将取代旧的而不直接添加到目录中，直到空间又下降到90%才停止这一活动。

如果不想Squid缓存任何文件，如某些存储空间有限的专有系统，可以使用 null文件系统（这样不需要那些缓存策略）：

cache_dir null /tmp

下面的几个关于缓存的策略配置中，较主要的是第一行，即用户的访问记录，可以通过分析它来了解所有用户访问的详尽地址：

cache_access_log /var/squid/access.log 
cache_log /var/squid/cache.log 
cache_store_log /var/squid/store.log

下面这行配置是在较新版本中出现的参数，告诉Squid在错误页面中显示的服务器名称：

visible_hostname No1.proxy

以下配置告诉Squid如何处理用户，对每个请求的IP地址作为单独地址处理：

client_netmask 255.255.255.255

如果是普通代理服务器，以上的配置已经足够。但是很多Squid都被用来做透明代理。

所谓透明代理，就是客户端不知道有代理服务器的存在，当然也不需要进行任何与代理有关的设置，从而大大方便了系统管理员。相关的选项有以下几个：

httpd_accel_host virtual 
httpd_accel_port 80 
httpd_accel_with_proxy on 
httpd_accel_user_host_header on

在Linux上，可以用iptables/ipchains直接将对Web端口80的请求直接转发到Squid端口3128，由Squid接手，而用户浏览器仍然认为它访问的是对方的80端口。例如以下这条命令：

iptables -t nat -A PREROUTING -s 192.168.0.200/32 -p tcp --dport 80 -j REDIRECT 3128

就是将192.168.0.200的所有针对80端口的访问重定向到3128端口。

所有设置完成后，关键且重要的任务是访问控制。Squid支持的管理方式很多，使用起来也非常简单（这也是有人宁愿使用不做任何缓存的Squid，也不愿意单独使用iptables的原因）。

Squid可以通过IP地址、主机名、MAC地址、用户/密码认证等识别用户，也可以通过域名、域后缀、文件类型、IP地址、端口、URL匹配等控制用户的访问，还可以使用时间区间对用户进行管理，所以访问控制是Squid配置中的重点。

Squid用ACL （Access Control List，访问控制列表）对访问类型进行划分，用http_access deny 或allow进行控制。根据需求首先定义两组用户advance和normal，还有代表所有未指明的用户组all及不允许上网的baduser，配置代码如下：

acl advance 192.168.0.2-192.168.0.10/32 
acl normal src 192.168.0.11-192.168.0.200/32 
acl baduser src 192.168.0.100/32 
acl baddst dst www.soocol.com 
acl all src 0.0.0.0/0 

http_access deny baduser 
http_access allow advance 
http_access allow normal

可以看出，ACL的基本格式如下： acl 列表名称控制方式控制目标比如acl all src 0.0.0.0/0，其名称是all，控制方式是src源IP地址，控制目标是0.0.0.0/0的IP地址，即所有未定义的用户。出于安全考虑，总是在最后禁止这个列表。下面这个列表代表高级用户，包括IP地址从192.168.0.2到192.168.0.10的所有计算机：

acl advance 192.168.0.2-192.168.0.20/32

下面这个baduser列表只包含一台计算机，其IP地址是192.168.0.100：

acl baduser 192.168.0.100/32

ACL写完后，接下来要对它们分别进行管理，代码如下：

http_access deny baduser 
http_access allow advance 
http_access allow normal

上面几行代码告诉Squid不允许baduser组访问Internet，但advance、normal组允许（此时还没有指定详细的权限）。由于 Squid是按照顺序读取规则，会首先禁止baduser，然后允许normal。如果将两条规则顺序颠倒，由于baduser在normal范围中， Squid先允许了所有的normal，那么再禁止baduser就不会起作用。

特别要注意的是，Squid将使用allow-deny-allow-deny……这样的顺序套用规则。例如，当一个用户访问代理服务器时， Squid会顺序测试Squid中定义的所有规则列表，当所有规则都不匹配时，Squid会使用与最后一条相反的规则。

就像上面这个例子，假设有一个用户的IP地址是192.168.0.201，他试图通过这台代理服务器访问Internet，会发生什么情况呢？我们会发现，他能够正常访问，因为 Squid找遍所有访问列表也没有和192.168.0.201有关的定义，便开始应用规则，而最后一条是deny，那么Squid默认的下一条处理规则是allow，所以192.168.0.201反而能够访问Internet了，这显然不是我们希望的。所以在所有squid.conf中，最后一条规则永远是http_access deny all，而all就是前面定义的“src 0.0.0.0”。

高级控制

前面说过，Squid的控制功能非常强大，只要理解Squid的行为方式，基本上就能够满足所有的控制要求。下面就一步一步来了解Squid是如何进行控制管理的。

通过IP地址来识别用户很不可靠，比IP地址更好的是网卡的MAC物理地址。要在Squid中使用MAC地址识别，必须在编译时加上“--enable-arp-acl”选项，然后可以通过以下的语句来识别用户：

acl advance arp 00:01:02:1f:2c:3e 00:01:02:3c:1a:8b ...

它直接使用用户的MAC地址，而MAC地址一般是不易修改的，即使有普通用户将自己的IP地址改为高级用户也无法通过，所以这种方式比IP地址可靠得多。

假如不想让用户访问某个网站应该怎么做呢？可以分为两种情况：一种是不允许访问某个站点的某个主机，比如ok的主机是ok.sina.com.cn，而其它的新浪资源却是允许访问的，那么ACL可以这样写：

acl sinapage dstdomain ok.sina.com.cn 
... ... 
http_access deny ok 
... ...

由此可以看到，除了ok，其它如http://www.sina.com.cn、news.sina.c...��常访问。

另一种情况是整个网站都不许访问，那么只需要写出这个网站共有的域名即可，配置如下：

acl qq dstdomain .tcccent.com.cn

注意tcccent前面的“.”，正是它指出以此域名结尾的所有主机都不可访问，否则就只有tcccent.com.cn这一台主机不能访问。

如果想禁止对某个IP地址的访问，如202.118.2.182，可以用dst来控制，代码如下：

acl badaddr dst 202.118.2.182

当然，这个dst也可以是域名，由Squid查询DNS服务器将其转换为IP。

还有一种比较广泛的控制是文件类型。如果不希望普通用户通过代理服务器下载MP3、AVI等文件，完全可以对他们进行限制，代码如下：

acl mmxfile urlpath_regex \.mp3$ \.avi$ \.exe$ 
http_access deny mmxfile

看到regex，很多读者应该心领神会，因为这条语句使用了标准的规则表达式（又叫正则表达式）。它将匹配所有以.mp3、.avi等结尾的URL请求，还可以用-i参数忽略大小写，例如以下代码：

acl mmxfile urlpath_regex -i \.mp3$

这样，无论是.mp3还是.MP3都会被拒绝。当然，-i参数适用于任何可能需要区分大小写的地方，如前面的域名控制。

如果想让普通用户只在上班时间可以上网，而且是每周的工作日，用Squid应当如何处理呢？看看下面的ACL定义：

acl worktime time MTWHF 8:30-12:00 14:00-18:00 
http_access deny !worktime

首先定义允许上网的时间是每周工作日（星期一至星期五）的上午和下午的固定时段，然后用http_access 定义所有不在这个时间段内的请求都是不允许的。

或者为了保证高级用户的带宽，希望每个用户的并发连接不能太多，以免影响他人，也可以通过Squid控制，代码如下：

acl conncount maxconn 3 
http_access deny conncount normal 
http_access allow normal

这样，普通用户在某个固定时刻只能同时发起三个连接，从第四个开始，连接将被拒绝。

总之，Squid的ACL配置非常灵活、强大，更多的控制方式可以参考squid.conf.default。

认证

用户/密码认证为Squid管理提供了更多便利，最常用的认证方式是NCSA。从Squid 2.5版本开始，NCSA认证包含在了basic中，而非以前单独的认证模块。下面来看看实现认证的具体操作。

首先在编译时配置选项应包括以下配置：

--enable-auth="basic" --enable-basic-auth-helpers="NCSA"

“make install”以后，需要将“helpers/basic_auth/NCSA/ncsa_auth”拷贝到用户可执行目录中，如/usr/bin（如果在该目录中找不到这个执行文件，在编译时请使用make all而不是make，或者直接在该目录中执行make），然后需要借助Apache的密码管理程序htpasswd来生成用户名/密码对应的文件，就像下面这行代码：

htpasswd -c /var/squid/etc/password guest

在输入两遍guest用户的密码后，一个guest用户就生成了。如果以后需要添加用户，把上面的命令去掉-c参数再运行即可。

Squid 2.5在认证处理上有了较大的改变，这里就只讨论2.5版本的处理方法，2.4及以下版本请参考squid.conf.default。在2.5版的squid.conf中，包括以下几个相关选项：

该选项指出了认证方式（basic)、需要的程序（ncsa_auth）和对应的密码文件（password）

auth_param basic program /usr/bin/ncsa_auth /var/squid/etc/password

指定认证程序的进程数

auth_param basic children 5

浏览器显示输入用户/密码对话框时的领域内容

auth_param basic realm My Proxy Caching Domain

基本的认证有效时间

auth_param basic credentialsttl 2 hours

普通用户需要通过认证才能访问Internet

acl normal proxy_auth REQUIRED 
http_access allow normal

通过以上的配置即可完成认证工作。有的读者可能要问：认证只针对普通用户，而高级用户是直接上网的，该怎么处理呢？其实，这两种用户是可以共存的。

如前所述，Squid是顺序处理http_access的，所以在http_access处理过程中，如果先处理normal用户，那么当前用户无论是否属于高级用户，都会被要求进行认证；相反如果先处理高级用户，剩下的就只有需要认证的普通用户了。例如以下配置代码：

... 
http_access allow normal (需要认证) 
http_access allow advance （不需要认证） 
...

不管是否为noauth用户，都要求进行用户名/密码验证。正确的方法是将二者位置交换，代码如下：

... 
http_access allow advance 
http_access allow normal 
...

这时，高级用户不会受到任何影响。

总结

下面把整个squid.conf总结一下：

服务器配置

http_port 192.168.0.1:3128 
cache_mgr start@soocol.com 
cache_dir null /tmp 
cache_access_log /var/squid/access.log 
cache_log /var/squid/cache.log 
cache_store_log /var/squid/store.log 
visible_hostname No1.proxy 
client_mask 255.255.255.255 
httpd_accel_host virtual 
httpd_accel_port 80 
httpd_accel_with_proxy on 
httpd_accel_user_host_header on

用户分类

acl advance arp 00:01:02:1f:2c:3e 00:01:02:3c:1a:8b ... 
acl normal proxy_auth REQUIED 
acl all src 0.0.0.0

行为分类

acl mmxfile urlpath_regex \.mp3$ \.avi$ \.exe$ 
acl conncount maxconn 3 
acl worktime time MTWHF 8:30-12:00 14:00-18:00 
acl sinapage dstdomain ok.sina.com.cn 
acl qq dstdomain .tcccent.com.cn

处理

http_access allow advance 
http_access deny conncount normal 
http_access deny !worktime 
http_access deny mmxfile 
http_access deny sinapage 
http_access deny qq 
http_access allow normal

配置后的状况是，advance组可以不受任何限制地访问Internet，而normal组则只能在工作时间上网，而且不能下载多媒体文件，不能访问某些特定的站点，而且发送请求不能超过3个。

通过本文的介绍，它可以了解Squid的基本能力。当然，它的能力远不止此，可以建立强大的代理服务器阵列，可以帮助本地的Web服务器提高性能，可以提高本地网络的安全性等。要想发挥它的功效，还需要进一步控制。

----------------------------------------------------------------------------------------

其实主要就是refresh_pattern的一些理解和建议.

概念LM，LM就是页面Header里时间(Date)和Last-Modified时间的差。Date一般是Squid从后面取页面的时间，Last-Modified 一般是页面生成时间。
refresh_pattern 的语法是
refresh_pattern [-i] regexp min percent max [options]

min, max的单位是分钟，percent就是百分比。
refresh_pattern 的算法如下：(当前时间定义为CURRENT_DATE)
1) If ((CURRENT_DATE-DATE(就是LM里定义的时间)) < min)，cache是新鲜的
2) else if ((CURRENT_DATE-DATE) < (min + (max-min)*percent)，cache是新鲜的
3) else cache是过期的
cache过期就需要从后面server取新鲜内容。

常用的几个参数的意思

override-expire
该选项导致squid在检查Expires头部之前，先检查min值。这样，一个非零的min时间让squid返回一个未确认的cache命中，即使该响应准备过期。

override-lastmod
改选项导致squid在检查LM-factor百分比之前先检查min值。

reload-into-ims
该选项让squid在确认请求里，以no-cache指令传送一个请求。换句话说，squid在转发请求之前，对该请求增加一个If-Modified- Since头部。注意这点仅仅在目标有Last-Modified时间戳时才能工作。外面进来的请求保留no-cache指令，以便它到达原始服务器。
一般情况可以使用 reload-into-ims。它其实是强行控制对象的超时时间，这违反了http协议的精神，但是在带宽较窄的场合，可以提高明显系统相应时间。
举例：
refresh_pattern -i \.css$ 1440 50% 129600 reload-into-ims
refresh_pattern -i \.xml$ 1440 50% 129600 reload-into-ims
refresh_pattern -i \.html$ 1440 90% 129600 reload-into-ims-
refresh_pattern -i \.shtml$ 1440 90% 129600 reload-into-ims
refresh_pattern -i \.hml$ 1440 90% 129600 reload-into-ims
refresh_pattern -i \.jpg$ 1440 90% 129600 reload-into-ims
refresh_pattern -i \.png$ 1440 90% 129600 reload-into-ims
refresh_pattern -i \.gif$ 1440 90% 129600 ignore-reload
refresh_pattern -i \.bmp$ 1440 90% 129600 reload-into-ims
refresh_pattern -i \.js$ 1440 90% 129600 reload-into-ims

ignore-reload
该选项导致squid忽略请求里的任何no-cache指令。
所以。如果希望内容一进入cache就不删除，直到被主动purge掉为止，可以加上ignore-reload选项,这个我们常用在mp3,wma,wmv,gif之类。
Examples:

refresh_pattern -i \.mp3$ 1440 50% 2880 ignore-reload
refresh_pattern -i \.wmv$ 1440 50% 2880 ignore-reload
refresh_pattern -i \.rm$ 1440 50% 2880 ignore-reload
refresh_pattern -i \.swf$ 1440 50% 2880 ignore-reload
refresh_pattern -i \.mpeg$ 1440 50% 2880 ignore-reload
refresh_pattern -i \.wma$ 1440 50% 2880 ignore-reload
resource age =对象进入cache的时间-对象的last_modified
response age =当前时间-对象进入cache的时间
LM-factor=(response age)/(resource age)

--------------------------------------------------------------------------------------

经过这两天测试，提出下面的改进：[asp.net]

<%
Response.Cache.SetNoServerCaching();
Response.Cache.SetCacheability(HttpCacheability.Public);
Response.Cache.SetAllowResponseInBrowserHistory(true);
Response.Cache.SetExpires( DateTime.Now.AddMinutes(10) );
Response.Cache.SetMaxAge( new TimeSpan(0,10,0) );
Response.Cache.SetLastModified( DateTime.Now.AddMinutes(-5) );
Response.Cache.SetValidUntilExpires(true);
%>

第一句是清理掉当前 IIS 端的 Cache ，其实际作用是防止由于域名，参数带来的串页。

第二句是设置 cache 可以作用在 squid 上。
第三句是允许浏览器端可以缓存，其实第二句 public 就是已经包含这个，但是避免 squid 上有其他设置，还是把这句话加上。
第四句是设置页面的过期时间是 10 分钟以后。
第五句是设置页面的最大生存时间是 300 秒，就是 5 分钟。
第六句是设置页面的最后修改时间是 5 分钟以前。
第七句是设置页面的缓存一直不要失效，其实这句话没有用途。<%
Response.Cache.SetNoServerCaching();
Response.Cache.SetCacheability(HttpCacheability.Public);
Response.Cache.SetAllowResponseInBrowserHistory(true);
Response.Cache.SetExpires( DateTime.Now.AddMinutes(10) );
Response.Cache.SetMaxAge( new TimeSpan(0,10,0) );
Response.Cache.SetLastModified( DateTime.Now.AddMinutes(-5) );
Response.Cache.SetValidUntilExpires(true);
%>

第一句是清理掉当前 IIS 端的 Cache ，其实际作用是防止由于域名，参数带来的串页。

-----------------------------------------------------------------------------------------

1. 首先强调一下视频文件的特点
视频文件的尺寸比起普通 HTTP 请求的文件要大得多
视频文件上传以后就不会被修改
视频文件被播放器下载时，存在大量多线程下载

2. 为了跟踪你的命中率和观察你的文件里的 TCP_MISS 的类型，请增加 squid cache manager 和 access.log 的输出。在配置文件中增加以下内容
acl managerip src [HOSTIP]
acl manager proto cache_object
http_access allow manager managerip

logformat analyse %>a "%rm %ru HTTP/%rv" %Ss:%Sh/%Hs
access_log /usr/local/squid/var/logs/access.log analyse
分别增加了 manager 的访问和 access.log 的跟踪

3. 优化前，先关注你当前的 squid 运行情况
squidclient -h[SQUIDIP] -p[PORT] mgr:info
mgr 的其他选项，用 squidclient mgr: 查看
Request Hit Ratios 和 Byte Hit Ratios 这两项重要指标就是我们要追求的结果。他的指标高地直接说明了 squid 的起到的 cache 效果
Memory accounted for: 项中的 Total accounted 指标表示你所允许 squid 使用的 cache 内存有多少空间已经存储了 cache 文件
File descriptor usage for squid: 项里面的指标指明了你的文件描述符数量是否 cache 瓶颈，如果你的 FD 不足请你重新设置并安装 squid
tail -10000 access.log | awk '{printf $5;}' | sort -rn | uniq -c | sort -rn
用此命令跟踪访问客户端命中率，下面列出日志的名种字段的含义
http://www.maycode.com/index.php/forum.html?func=view&id=809&catid=10