*,前言
在*个机构内部,分配数字化视 频/数据的方式已经取得了显著进步。 FibreChannel技术已允许基于服务器技 术的RAID在分配网络之问发挥其吞吐量的潜力,为广播和后期制作视频数据 的实时分配和传输提供了途径。在不久的将来,FibreChannel将允许MPEG—2 流和其它在广播和后期制作机构中常用 的信号在各节点问自由分配。本文提出了为*化基于FibreChannel产品的发展所必需的测试设备,以及如何利用它 们在*个机构内对FibreChannel链路进行监测和测试。
二,Fibre Channel系统
你的业务机构迟早会充满Fibre Channel,有*点同样可以肯定,那就是 有*天你会发现,FibreChannel系统的工作不能如你所期望的那样。发生这样的事情时,用户就想知道它为什么不能 正常工作,这是“恢复常规”的第*步。
多年来,我们已经看到这*动向。 FibreChannel有许多*良的性能,使其自然适合于媒体应用。FibreChannel不仅有很高的带宽,而且能够工作在相隔距离远得多的设备之间,并允许轻松地混合视频、音频、图形和控制信号,不管它们的载送是依循IP、SCSI,还是其它协议。既然已有各种供应商可提供设备,接下去就是建立系统。 开始时,系统工作会是良好的。它将按期望的那样做任何事情。但是惭惭地,随着应用或存储要求的改变,或某 *项要求需要升*或业务扩展,突然间,其性能显得不足,在需要某*性能 的时候却偏偏没有。可能出现响应时间延长,或偶然地,视频或音频包不能及时送达,甚至根本就收不到。
用户要消除这些症状,就必须** 追查在FibreChannel层面出现了什么问题。进行这*步的*基本工具是协议分析仪,接着是性能监视器。这些设备只是作为观测仪器 而被接入环路或光纤网中,它们不会以任何形式启动或中止通道中的通信,或改变通信。 不像SCSI中所有信息都流经总线 上的每*点,FibreChannel包含*系列固有的单向链路。为了解设备性能。监测点至少有两个,*个在上游,*个在下游。因此,所有的FibreChannel协议分析仪都有两个接口。较复杂的测试环 境可能需要多组装置协调运行。
三,测量仪器
为简单起见,对这两种工具的讨论将从性能监视器而不从协议分析仪开始。 性能监视器是*种可以实时显示所通过的传输流的通信量、信息统计和基本误码情况的装置。特别地,对光纤通道的显示包括:速率显示,包括B/s、帧/ 秒和链路利用率;信息表征—帧规格分配;低*误码情况,指编码混乱(CV)、 循环冗余检查(CRC)失效和环路启动程序(LIP)事件。速率显示是以瞬时值、 峰值或对时间的曲线图来表示的,误码情况用时间标记来存档。 协议分析仪是记录通过它的全部 信息或特定部分信息的装置,并备有时 间标记。它含有两种等同的、有协调控制效能的独立信道(见上面对两类独立 信道要求的讨论)。当两个信道不够用 时,多台分析仪能够同步运作。被捕获 的数据可存储到*个超高速RAM上或 (经过滤波以减少带宽要求)*个硬盘驱动器上。*旦操作停止,用户就能观看捕获的数据,或者经软件包后处理后 产生详细阶性能分析。 由于FibreChannel数据将以接近每个信道100MB/s的惊人速率通过协议分析仪。如何控制所需存储信息就非常重要。这是对示波器的触发器功能的直接模拟。
不过。协议分析仪的存储能够多次开始和停止。因而它能收集相似 的多个案例,并允许对它们进行独立分 析。(通过使用时间标记,用户可以知道确切的命令,以及至少需要多长时间 能将捕获到的各个事件片段分开。)通常FibreChannel触发器会在*些帧和或特定素材内切断某些特定场的匹配, 但是如果协议分析仪种性能监视器是链接的,就能在用户的触发事件项目上添加不同吞吐量测量和误码情况。 有时用户可能希望将捕获的带宽 限制在较固定的位上,并将结果轨迹存 到硬盘驱动器上。通过这*措施,用户 能获得数小时甚至数天之久的追查轨 迹。很显然,为进行这类捕获必须非常 专注。协议分析仪内的数据滤波器允许 用户将捕获局限于存*个特定的源识别 码和/或目标识别码。特定类型的命令 或响应,或只是每*帧的前几个字节 (数量由用户规定)上。 那么,怎样使用这些工具呢?
四,测试方法
要检查的*基本的项目是 Fibre Channel环路本身的完整性。只要快速浏览*下误码资料,用户便可知道各条电路或光链路是遇到了麻烦还是工作正常。*旦系统启动,除非环路上的某*设备不得不替换或环路因其他原因而中断,LIP*般不会发生。FibreChannel 声称指标为运行误码率低于10¯¹²(大约每小时3个),大部分用户报告说其误码率远低于这个值。如果误码存档报告不如LIP所期望的,或每小时CV或CRC 误码数量超过l—2个,就该检查*下环 路中链路的完整性了。 如果链路完整性出了问题,由于 FibreChannel环路就像小孩们玩的“打 电话”游戏*样,用户就会面临新的挑 战。除非误码是发生在原发地和性能监 视器之间,否则用户很难确定误码究竟 在哪儿发生。
ANSI Tll 委员会正在试 图借助链路误码状态功能(LinkEnor StatusFunction)来解决这个问题,其设 想是在每*个节点掌握误码事件。不 过,在真正做到这*点之前,还没有什 么简便的办技可以识别链路状态(RLS) 命令对环路作定时查询,并确定在线路 中应从哪*个端口着手探查误码。 如果将性能监视器的误码探查效 能用来触发协议分析仪,用户就应该能 够捕获有误码的帧,并有希望查出原发 地。然后用户就能够将性能监视器向* 条链路的上游每移动*次观察*下各位 置的误码率。“误码率台阶”(EnorRate Step)*旦确定,问题就可隔离在那个 端口(或与其直接相连的下游电缆)上。 如果问题与链路完整性无关,另* 个可能件是环路自身有过载情况。环路 过载很容易用性能监视器测出来。峰值 总线利用指示(或总线利用率对时间 的关系曲线)可能显示*条摆幅异常大 的利用率曲线,它从很低的平均数(完 全处在Fibre Channel容量内)至接近 100%,它导致转换迟缓(甚至失效)或 响应缓慢。这种情况表明,可以利用性 能监视器的某种门限(如:利用率超过 90%)作为协议分析仪的触发条件。包含整个峰值利用期(包括临近起始部分) 的轨迹能显示:为什么大量的信息试图 在同*时间通过环路。 即使FibreChannel环路没有过载, 仍然有可能存在环路上某*装置过载的 情况。
协议分析仪可以多种方式帮助用 户找到这种问题的根源。**,可运用 后捕获软件仅仅收集和分析帧头部分的 长轨迹。以确定短期和长期载荷是否平 衡。如果*个装置特别忙,其通信就应 予以隔离(应用协议分析仪的滤波功能), 并对其进行详细研究。即使没有特殊问 题,这种初期的全设备隔离程序也要定期进行。与早期的数据进行比较。可显示不安全趋势因而提高警惕以防止在未 来某*时间出问题。如果可即时发现响 应时间或丢失数据的影M向,第二种方案 是连续捕获更详细的轨迹(“包裹模式”), *经发现影响,立即停止捕获。要记住, 所谓“发现”并不限于人工操作,对任何 错误的电子显示都能与协议分析仪的外 同步输入相连。用来停止捕获。这样, 分析仪的轨迹中就会含有引发问题的特 定事件。检查时间标记以确认轨迹足够 长,以及包含出现问题的时间段;不然 就重新调节滤波特性(如每帧数据)以 延长捕获期。*旦被捕获,相同的后捕 获分析软件或可视检查就会显示有问题 的装置。如果需要更多的信息,可作第 二次运行,只储存从特殊识别码上得到 的想要的帧,以便仅从这些帧上捕获更 多的细节。
丢失数据的另*个潜在原因是定 时但却无序地发送信息。出现这种情况 时可用上段所述方法来监测。 希望本文能够帮助人们减少运用 FibreChannel这*激动人心的新技术时 的忧虑。潜在的问题还可能出现,并需 要运用新的诊断方法,但是现在已经可以得到为使系统保持高效运行状态所需 的诊断工具。