CCNA SP Operations

PlAwAnSaI

Administrator
640-760 SSPO Exam Topics (Blueprint)

Exam Description

The 640-760 Supporting Cisco Service Provider IP NGN Operations exam is designed to introduce entry level personnel to the SP network operations environment, processes-orientation, management tools and methods, and enables students to practice the primary job roles and tasks. The exam is also intended to help prepare students for the Cisco Certified Network Associate SP Operations (CCNA SP Operations) certification exam.

Exam Topics
The following information provides general guidelines for the content likely to be included on the Supporting Cisco Service Provider IP NGN Operations exam. However, other related topics may also appear on any specific delivery of the exam.

Perform the network incident management process


[li]Describe how a trouble ticket processes through the network operations center (NOC)[/li]
[li]Identify key network incident metrics in a NOC incident report[/li]
[li]Apply an incident management process[/li]
[li]Perform incident management using basic tools and documentation[/li]
[li]Close an incident ticket[/li]
[li]Prioritize incident tickets according to standards[/li]
[li]Escalate an incident ticket according to typical criteria[/li]
[li]Create an RFC to implement a fix or workaround for an incident[/li][/list]

Apply the problem management process


[li]Apply the Information Technology Infrastructure Library (ITIL) problem management process to the task of managing networks[/li]
[li]Distinguish between incident management and problem management, and determine the interactions that occur between them[/li][/list]

Perform first-level network monitoring and troubleshooting


[li]Use network management tools to monitor network status[/li]
[li]Interpret device specific alarms and determine the severity of the alarm[/li]
[li]Initiate troubleshooting procedures based on received alarms and/or log messages[/li]
[li]Use network management tools to troubleshoot first-level network incidents[/li]
[li]Use syslog functions, severity levels, syslog traps, and buffering[/li]
[li]Use knowledge of IP fundamentals to determine the most likely cause of a network problem[/li]
[li]Determine the most probable cause of a problem from standard output and SNMP traps[/li]
[li]Utilize common structured troubleshooting approaches[/li][/list]

Perform network configuration management


[li]Backup configurations across standard NOC architectures[/li]
[li]Interpret basic standard scripting commands used in automating network maintenance[/li]
[li]Interpret basic UNIX cron job commands used in automating network maintenance[/li]
[li]Use a network inventory management process[/li][/list]

Implement network changes and change management


[li]Accurately document a network[/li]
[li]Utilize a network change implementation rollback[/li]
[li]Implement a network change based on change documentation[/li]
[li]Perform a network upgrade[/li]
[li]Identify upgrade or downgrade issues and recommend corrective actions[/li]
[li]Verify the usability and effectiveness of a network change[/li][/list]

Apply the fundamental concepts of service level agreements (SLAs)


[li]Identify the unique characteristics of different SLAs[/li]
[li]Inform customers about SLA issues[/li]
[li]Monitor service levels against the requirements of an SLA[/li][/list]

Describe basic IP technology in the Service Provider NOC


[li]Describe the purpose and components of an IPv4 address[/li]
[li]Describe the purpose of and components of IOS XR[/li]
[li]Use IOS XR to perform basic router functions[/li]
[li]Compare and contrast IPv4 to IPv6 addresses[/li][/list]

Network Monitoring
Performance Monitoring
Type of Measurement



[li]Passive or Active
[/list]


[li]Passive - การวัดแบบนี้จะไม่พยายามไปรบกวนการทำงานของระบบ Network โดยการไม่ส่ง ข้อมูลลงไปในระบบ Network หรือถ้าจำเป็นก็จะส่งให้น้อยที่สุด ดังนั้นจึงเหมาะกับการตรวจสอบระบบ Network ในจุดต่างๆ แบบเฝ้าดู เช่นการวัด Traffic Flow i.e. SNMP, MRTG, NTOP, Sniffer[/li]
[li]Active - การวัดแบบ active จะทำการ ส่งข้อมูล packet ลงไปในระบบ Network เพื่อทำการหาค่าต่างๆ ของระบบ Network i.e. ping[/li][/list]
[/li]
[li][/li]
Information Technology Infrastructure Library (ITIL)


Code:
http://en.wikipedia.org/wiki/Information_Technology_Infrastructure_Library



Root cause analysis (RCA) Basic principle


Code:
http://thaigovweb.com/mophweb/file/doc/news2998-231109-112844.pdf



Incident Priority - What Everyone Should Know


Code:
http://itservicemngmt.blogspot.com/2007/06/incident-priority-what-everyone-should.html


Building Scalable Syslog Management Solutions, incident management tasks, Event Management


Code:
http://www.cisco.com/en/US/technologies/collateral/tk869/tk769/white_paper_c11-557812.html



ITIL Orientation Video #1

Software Upgrade Procedure for 1000, 1400, 1600-R, 1700, 2600, 2800, 3600, Series Routers


Code:
http://www.cisco.com/en/US/products/ps5855/products_tech_note09186a00801fc986.shtml


for High-End routers 7000, RP, RSP7000, 7100, 7200, 7300, 7400, 7500, 7600, Series Routers


Code:
http://www.cisco.com/en/US/products/hw/routers/ps133/products_tech_note09186a0080094c07.shtml


for IOS XR & IOS is tar file

Enterprise Level Information Management, NMS Information Management Architectures,


Code:
http://nms.gdd.net/index.php/Enterprise_Level_Information_Management



Back up and Restore Configuration Files


Code:
http://www.cisco.com/en/US/products/sw/iosswrel/ps1835/products_tech_note09186a008020260d.shtml



Best Practices

Network Management System: Best Practices White Paper


Code:
http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a00800aea9c.shtml



Service Level Management: Best Practices White Paper


Code:
http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a008011e783.shtml



Configuration Management: Best Practices White Paper


Code:
http://www.cisco.com/en/US/tech/tk869/tk769/technologies_white_paper09186a008014f924.shtml



Cisco IOS IP Service Level Agreement (SLA)

Debugging and Logging
Cisco IOS software allows for detailed debugging for all protocols and processes running in the system for troubleshooting purposes.
CAUTION
Only Cisco IOS experts should enable and disable debug command, because they can have a severe performance impact and should be used with care. Improper use might leave the system inaccessible and in a frozen state in which no packet forwarding takes place.
System messages are shown on the console and can be enabled for any session into the router. Different levels of severity can be configured for different access methods into the router. The eight message severity levels are as follows:


[li][/list]
Emergency (severity 0) - The system is unusable[/li]
[li]Alert (severity 1) - Immediate action is needed[/li]
[li]Critical (severity 2) - Critical condition[/li]
[li]Error (severity 3) - Error condition[/li]
[li]Warning (severity 4) - Warning condition[/li]
[li]Notification (severity 5) - Normal but significant condition[/li]
[li]Informational (severity 6) - Informational message[/li]
[li]Debugging (severity 7) - Debugging message[/li]
The logging command directs the output to various terminals attached to the system or virtually connected, such as Telnet sessions. Example shows how the logging command can be used to determine the severity level of the messages shown.
Example logging Command


Code:
IOS(config)# logging ?
Hostname or A.B.C.D IP address of the logging host
buffered Set buffered logging parameters
console Set console logging level
exception Limit size of exception flush output
facility Facility parameter for syslog messages
history Configure syslog history table
host Set syslog server host name or IP address
monitor Set terminal line (monitor) logging level
on Enable logging to all supported destinations
rate-limit Set messages per second limit
source-interface Specify interface for source address in logging
transactions
trap Set syslog server logging level

IOS(config)# logging console ?
Logging severity level
alerts Immediate action needed (severity=1)
critical Critical conditions (severity=2)
debugging Debugging messages (severity=7)
emergencies System is unusable (severity=0)
errors Error conditions (severity=3)
guaranteed Guarantee console messages
informational Informational messages (severity=6)
notifications Normal but significant conditions (severity=5)
warnings Warning conditions (severity=4)




logging buffered


Code:
http://www.ciscoclub.in.th/index.php?topic=366



Service Level Agreements
Overview



[li]A network provider provides a product to a customer who is expected to pay for the networking services provided[/li]
[li]Customers expect to receive the product in good quality and performing to specifications.[/li]
[li]Networking services are often highly customized to meet individual customer needs.[/li]
[li]The service properties of performance, capacity, and availability are collectively referred to as the service level.[/li]
[li]A SLA defines the service being provided and what happens if the service level is not met.[/li][/list]

Topics


[li]The components of SLAs and how they are defined[/li]
[li]Examples of service level parameters[/li]
[li]Business concerns that must be considered when entering into service level agreements[/li]
[li]Planning and managing a network for a given service level[/li]
[li]Management techniques for monitoring and validating service levels[/li][/list]

Motivation for SLAs


[li]Communication needs vary greatly between customers[/li]
[li]The desired service level is defined by a set of service level objectives consisting of a service level parameter and a target value for that parameter that must be met or exceeded
[/list]


[li]For example, a service level objective might stipulate that the capacity on a link connecting two sites is 100 Mbps[/li]
[li]Another service level objective might state that on weekdays between 8 a.m. and 6 p.m. availability of the link must be 99.9 percent[/li][/list]
[/li]
[li]The provider of the network service guarantees that the service level objectives will be met and what happens in case the service level falls below the target[/li]
Error Message Logging and Limiting the Display of Error Messages
Logging messages are important sources of information for network engineers in charge of troubleshooting.
The eight levels of logging
The higher level is numerically lower.
List of Command for Logging Message Destinations
%TR-3-WIREFAULT:Unit[0],wirefault:check the lobe cable MAU connection
the facility is Token Ring, severity is 3 (error), mnemonic is WIREFAULT, and, of course, the text message is reporting a wire fault condition.

ISO 20000: มาตรฐานงานบริการด้าน IT สำหรับองค์กรในโลกยุคดิจิตอล

องค์กรที่ประสบความสำเร็จในโลกยุคดิจิตอลนี้ ทุกแห่งต่างก็มีระบบเทคโนโลยีสารสนเทศ (IT System) ที่มีประสิทธิภาพรองรับ และสนับสนุนการดำเนินธุรกิจอยู่ ซึ่งถือเป็นปัจจัยสำคัญที่ไม่มีผู้ใดปฏิเสธได้ ดังนั้น คำถามที่มักจะได้ยินกันอยู่บ่อยๆ ก็คือ การให้บริการด้าน IT (IT Services) ขององค์กรเหล่านั้นได้รับการบริหารจัดการอย่างไร

ที่ผ่านมา การบริหารบริการ IT (IT Service Management) ของแต่ละองค์กรมักจะขึ้นอยู่กับ IT Manager หรือผู้ที่มีหน้าที่รับผิดชอบดูแลศูนย์เทคโนโลยีสารสนเทศเป็นหลัก ซึ่งส่วนมากต่างก็บริหารงานไปตามวิธีการที่ตนเองคิดว่าดีที่สุด โดยนำเอาประสบการณ์ที่เคยได้รับในอดีตมาผนวกกับการแสวงหาความรู้เพิ่มเติม เพื่อปรับใช้เป็นแนวทางในการทำงาน ลักษณะดังกล่าวนี้จึงไม่ต่างไปจากการลองผิดลองถูก และบ่อยครั้งที่ฝ่ายบริหารไม่สามารถตรวจสอบความโปร่งใส และประสิทธิภาพการทำงานของฝ่าย IT ได้ ส่งผลให้ฝ่ายบริหารไม่ทราบถึงปัญหา รวมถึงไม่สามารถใช้ประโยชน์จากทรัพยากร และบริการ IT ขององค์กรเพื่อตอบสนองต่อความต้องการในการดำเนินธุรกิจได้อย่างเต็มที่ นอกจากนี้ เมื่อมีการปรับเปลี่ยนบุคลากรภายในฝ่าย IT ก็มักจะส่งผลกระทบถึงการให้บริการ IT ขององค์กรเสมอ เนื่องจากบุคลากรที่เข้ามารับตำแหน่งใหม่นั้นไม่ทราบ หรือไม่เข้าใจถึงวิธีการทำงานที่เป็นอยู่เดิม จึงต้องใช้เวลาในการศึกษางานเป็นระยะเวลาหนึ่งกว่าจะสามารถบริหารบริการ IT ให้เข้าที่เข้าทางได้

ดังนั้น ผู้บริหารจึงควรให้ความสำคัญแก่การนำระบบบริหารบริการ IT ที่เป็นมาตรฐานมาใช้งาน เพื่อให้บริการ IT ขององค์กรมีประสิทธิภาพอย่างแท้จริง ซึ่งในปัจจุบันนี้ มาตรฐานที่ได้รับการยอมรับกันทั่วโลกนั้น ได้แก่ ISO 20000 ซึ่งเป็นมาตรฐานสากลด้านการบริหารบริการ IT โดยเฉพาะ และ ITIL (Information Technology Infrastructure Library) ซึ่งเป็น Best Practices ที่รวบรวมเอาแนวคิดและเทคนิคการบริหารบริการ IT ที่ดีเลิศเข้าไว้ด้วยกัน

เนื้อหาของมาตรฐาน ISO 20000 จะระบุถึงข้อกำหนดต่างๆ ซึ่งเป็นเกณฑ์ในการชี้วัดว่าองค์กรมีการบริหารบริการ IT อย่างมีประสิทธิภาพหรือไม่ หากองค์กรมีการปฏิบัติตามข้อกำหนดเหล่านั้นครบถ้วน ก็จะสามารถผ่านการตรวจประเมิน และได้รับการรับรองมาตรฐาน ISO 20000 ในขณะที่ ITIL เป็นแนวทางปฏิบัติที่มีวิวัฒนาการมาตั้งแต่ปลายทศวรรษที่ 80 ในประเทศอังกฤษ จนกระทั่งเป็นที่นิยมนำมาใช้กันอย่างแพร่หลายทั่วโลกในปัจจุบัน ซึ่งแนวทางของ ITIL นั้นสามารถนำมาปรับใช้ได้อย่างเหมาะสมกับองค์กรในทุกระดับ

ar1.jpg


แผนภาพที่เห็นอยู่ด้านบนนั้น จะแสดงถึงความสัมพันธ์ของกระบวนการปฏิบัติงานภายในองค์กร กับ ITIL และมาตรฐาน ISO 20000 ซึ่งจะเห็นได้ว่ามาตรฐาน ISO 20000 นั้น แบ่งออกเป็น 2 ส่วน ได้แก่


[li]ISO 20000-1 Specification คือ เกณฑ์ในการตรวจประเมินความมีมาตรฐานของการบริหารบริการ IT[/li]
[li]ISO 20000-2 Code of Practice คือ คำอธิบายถึงการปฏิบัติให้สอดคล้องตามเกณฑ์การประเมินข้างต้น[/li][/list]

อย่างไรก็ตาม แม้ว่ามาตรฐาน ISO 20000 จะบอกถึงข้อกำหนดต่างๆ แต่ก็ไม่ได้กล่าวถึงวิธีการ หรือรายละเอียดในการดำเนินการ ดังนั้น องค์กรจึงต้องมีการนำเอา ITIL หรือ Best Practice ด้าน IT Service Management อื่นๆ (เช่น MOF) มาใช้เป็นแนวทางในการจัดการกระบวนการทำงานภายในองค์กร เพื่อให้การบริหารบริการ IT มีประสิทธิภาพสูงสุด

มาตรฐาน ISO 20000 จะแบ่งกระบวนการ (Process) ในการบริหารบริการ IT ออกเป็นกลุ่มๆ ตามลักษณะเฉพาะของแต่ละกลุ่มกระบวนการ ซึ่งจะสอดคล้องกับกระบวนการของ ITIL ทำให้สามารถนำมาใช้งานร่วมกันได้อย่างมีประสิทธิภาพ

ar2.jpg


กระบวนการบริหารบริการ IT ตามมาตรฐาน ISO 20000

แผนภาพองค์ประกอบของกระบวนการต่างๆ ของมาตรฐาน ISO 20000 ที่จะแสดงถึงกระบวนการพื้นฐานตามมาตรฐาน ISO ซึ่งก็คือ PDCA หรือ Plan-Do-Check-Act และแสดงถึงกระบวนการหลัก ซึ่งสามารถแบ่งออกได้เป็น 5 กลุ่ม ดังนี้


[li][/list]
กลุ่ม Service Delivery Processes ประกอบด้วย



[li][/list]
Service Level Management

วัตถุประสงค์ของกระบวนการนี้ คือ เพื่อระบุข้อตกลงระหว่างผู้ให้บริการ และผู้ใช้บริการเป็นลายลักษณ์อักษรอย่างชัดเจน โดยทั้ง 2 ฝ่ายต้องร่วมกันกำหนดขอบเขตของการให้บริการ เช่น ชนิด/ประเภทของบริการ รายละเอียดของบริการ บทบาทและหน้าที่ของทั้ง 2 ฝ่าย และโดยเฉพาะอย่างยิ่งต้องกำหนดระดับการให้บริการ (Service Level) ซึ่งเปรียบเสมือนคำสัญญาถึงระดับคุณภาพของบริการที่ผู้ให้บริการมีให้แก่ผู้ใช้บริการ โดยบันทึกเป็นเอกสารที่เรียกว่า Service Level Agreement หรือ SLA

ตัวอย่างข้อความที่มักจะระบุไว้ในเอกสาร SLA เช่น "ผู้ให้บริการตกลงว่าจะแก้ไขปัญหาที่เกิดขึ้นกับระบบงานสารสนเทศ ให้แก่ผู้ใช้บริการภายในเวลา 4 ชั่วโมง นับตั้งแต่ได้รับแจ้งปัญหาผ่านช่องทางที่ผู้ให้บริการจัดหาไว้ให้ เช่น ทางโทรศัพท์ ทางอีเมล์ หรือ ทาง Web Services" เป็นต้น ดังนั้น การกำหนด SLA จึงถือเป็นเรื่องจำเป็นสำหรับการให้บริการด้าน IT ทุกประเภท

เอกสาร SLA ต้องได้รับความเห็นชอบ โดยทั้ง 2 ฝ่าย (ผู้ให้บริการ และผู้ใช้บริการ) และต้องได้รับการทบทวนอย่างสม่ำเสมอ เพื่อปรับปรุงให้เหมาะสมและตรงกับความต้องการทางธุรกิจ

[/li]
[li]Service Reporting

การจัดทำรายงานเกี่ยวกับการให้บริการเป็นการสื่อสารให้บุคคลที่เกี่ยวข้องทุกฝ่ายรับทราบถึงผลการดำเนินงานว่ามีความสอดคล้องกับเป้าหมายที่ได้กำหนดไว้ในเอกสาร SLA หรือไม่ โดยส่วนใหญ่แล้วรายงานมักประกอบไปด้วย


[li]ประสิทธิภาพของการให้บริการเมื่อเปรียบเทียบกับเป้าหมายที่ได้กำหนดไว้ใน SLA[/li]
[li]การให้บริการที่ไม่สามารถดำเนินการให้เป็นไปตามเป้าหมายที่ได้กำหนดไว้ใน SLA เพื่อตรวจติดตามหาสาเหตุ และวางแผนแก้ไข รวมถึงแผนป้องกันไม่ให้ปัญหานั้นเกิดซ้ำขึ้นมาได้อีก[/li]
[li]ข้อมูลที่เกี่ยวข้องกับ Workload ของระบบ เช่น ปริมาณการใช้ Disk และ CPU ของเครื่องเซิร์ฟเวอร์ เป็นต้น[/li][/list]


[/li]
[li]Service Continuity and Availability Management

ผู้ใช้บริการย่อมคาดหวังที่จะได้รับบริการทุกครั้งที่ตนเองมีความจำเป็นต้องใช้บริการ ดังนั้น กระบวนการนี้จึงเกี่ยวข้องกับการบริหารให้ระบบมีความพร้อมในการให้บริการอยู่เสมอ และมีความต่อเนื่องราบรื่น ไม่หยุดชะงักแม้ว่าจะอยู่ในสถานการณ์เช่นไรก็ตาม

ความเสี่ยงต่างๆ ที่ส่งผลกระทบต่อความพร้อมใช้งานของระบบให้บริการจะต้องได้รับการระบุทั้งหมด และวางแผนปรับปรุงเพื่อให้ระบบสามารถตอบสนองความต้องการใช้งานของผู้ใช้บริการได้ตลอดเวลา เช่น เพิ่มอุปกรณ์สำรอง (Spare) หรือใช้โซลูชั่นประเภท High Availability

สำหรับ Service Continuity Plan นั้น จะพิจารณาถึงสถานการณ์ที่มีเหตุฉุกเฉินเกิดขึ้น เช่น ไฟไหม้ แผ่นดินไหว ระบบ IT หลักไม่สามารถให้บริการได้ เป็นต้น ทั้งนี้ ผู้ให้บริการจะต้องวางแผนสำรองฉุกเฉินเพื่อรับมือเหตุการณ์เหล่านั้น

แผนงานทั้งหมดที่จัดทำขึ้นนี้จะต้องได้รับการทบทวน และทดสอบ อย่างน้อยปีละ 1 ครั้ง หรือเมื่อมีการเปลี่ยนแปลงใดๆ เกิดขึ้น เพื่อให้มั่นใจได้ว่าแผนนั้นมีประสิทธิภาพอยู่เสมอ

[/li]
[li]Budgeting and Accounting for IT Services

กระบวนการนี้มีวัตถุประสงค์เพื่อจัดสรรงบประมาณ และจัดทำบัญชีค่าใช้จ่ายสำหรับการให้บริการด้าน IT เพื่อให้บริการนั้นมีประสิทธิภาพ และเพียงพอต่อความต้องการขององค์กร

การทำบัญชีค่าใช้จ่ายนั้นต้องได้รับการกำหนดวิธีการอย่างชัดเจน ได้แก่ การบันทึกค่าใช้จ่ายด้านฮาร์ดแวร์ ซอฟต์แวร์ ค่าบำรุงรักษา เงินเดือนของบุคลากร รวมถึงค่าใช้จ่ายอื่นๆ ที่ประกอบกันขึ้นเป็นระบบงานให้บริการ ซึ่งข้อมูลดังกล่าวนี้จะช่วยในการจัดสรรงบประมาณได้อย่างมีประสิทธิภาพ และสอดคล้องกับความต้องการขององค์กร อีกทั้งยังสามารถใช้เป็นข้อมูลประกอบการตัดสินใจพิจารณาอนุมัติโครงการต่างๆ ที่จะมีขึ้นในอนาคตได้อีกด้วย

[/li]
[li]Capacity Management

ผู้ให้บริการต้องมีการวางแผนบริหาร Capacity ในการให้บริการให้เพียงพอต่อความต้องการของลูกค้า และ/หรือ ผู้ใช้งาน ทั้งในปัจจุบัน และในอนาคต

ความต้องการทรัพยากรด้าน IT มักจะเพิ่มสูงขึ้นทุกปี ทั้งด้านฮาร์ดแวร์ ซอฟต์แวร์ และความรู้ความสามารถของบุคลากร ดังนั้น จึงควรมีการประเมินความต้องการ และจัดทำแผนเพื่อขยาย Capacity ให้รองรับความต้องการที่เพิ่มขึ้นนั้นเป็นประจำทุกปี เพื่อให้มั่นใจว่าทรัพยากรด้าน IT จะมีเพียงพอต่อการให้บริการตามข้อตกลงที่ระบุไว้ใน SLA

[/li]
[li]Information Security Management

องค์กรทุกแห่งต่างก็มีการนำระบบรักษาความมั่นคงปลอดภัยมาใช้งาน แต่จะมั่นใจได้อย่างไรว่าระบบนั้นดีเพียงพอหรือไม่ กระบวนการนี้จึงมีขึ้นเพื่อบริหารความมั่นคงปลอดภัยสำหรับกิจกรรมทั้งหมดของระบบการให้บริการ ทั้งนี้ควรนำแนวทางปฏิบัติบางส่วนจากมาตรฐาน ISO 27002 มาประยุกต์ใช้ อาทิ เช่น

จัดทำนโยบายด้านความมั่นคงปลอดภัยของสารสนเทศ และทำการประเมินความเสี่ยงสำหรับระบบให้บริการในทุกๆ ด้าน เพื่อค้นหาจุดอ่อน หรือช่องโหว่ที่มีอยู่ ระดับความรุนแรงของผลกระทบหากเกิดเหตุล่วงละเมิดความมั่นคงปลอดภัย และโอกาสที่เหตุเหล่านั้นจะเกิดขึ้น เพื่อวิเคราะห์หาแนวทางป้องกัน แก้ไข และรับมือไว้ล่วงหน้า

[/li][/li]
[li]กลุ่ม Control Precesses ประกอบด้วย



[li][/list]
Configuration Management

ตามข้อกำหนดของ ISO 20000 นั้น กระบวนการ Configuration Management จะหมายถึงการบริหารจัดการ IT Infrastructure สำหรับการให้บริการด้าน IT ทั้งที่เป็น ฮาร์ดแวร์ ซอฟต์แวร์ และอุปกรณ์ต่อพ่วงต่างๆ ซึ่งเราจะต้องเก็บข้อมูลรายละเอียดของอุปกรณ์ทั้งหมดไว้เพื่อประกอบการใช้งาน และเรียกข้อมูลรายละเอียดของอุปกรณ์แต่ละตัวว่า Configuration Item

ข้อมูล Configuration Item ของระบบให้บริการด้าน IT นั้นมีความสำคัญเป็นอย่างยิ่ง เพราะมีความสัมพันธ์กับประสิทธิภาพของการให้บริการโดยตรง กระบวนการนี้จึงมุ่งเน้นในการกำหนด และควบคุม Configuration Item และองค์ประกอบอื่นๆ ทั้งหมดที่เก็บอยู่ในฐานข้อมูลที่เราเรียกว่า Configuration Management Database (CMDB) ให้มีความเหมาะสม ถูกต้อง และทันสมัยอยู่เสมอ

เนื่องจาก Configuration Item ของระบบให้บริการมีอยู่เป็นจำนวนมาก ดังนั้น จึงจำเป็นต้องมีกลไกที่ใช้ในการกำหนด ควบคุม และตรวจสอบองค์ประกอบต่างๆ ของ Configuration Item โดยเฉพาะเมื่อมีการเปลี่ยนแปลงใดๆ เกิดขึ้น ทั้งนี้ การคัดเลือกกลไกดังกล่าวจะต้องคำนึงถึงความเหมาะสม ปริมาณของ Configuration Items และความต้องการใช้งานของผู้ใช้งานด้วย

กลไกการควบคุมที่ดีจะต้องมีขั้นตอนปฏิบัติที่ชัดเจน มีระเบียบแบบแผน และสามารถตรวจสอบได้ว่า Configuration Item นั้น ได้รับการแก้ไข เพิ่มเติม ลบทิ้ง หรือเปลี่ยนแปลงอย่างไรบ้าง ดำเนินการโดยบุคคลใด เมื่อไร นอกจากนั้นยังต้องมีการบันทึกเหตุผลของการเปลี่ยนแปลงข้อมูลของ Configuration Item ทุกครั้ง และต้องจัดเก็บ Log นั้นไว้ในฐานข้อมูลที่มีการควบคุมการเข้าถึงอย่างเหมาะสม เพื่อใช้เป็นหลักฐานอ้างอิงในอนาคตอีกด้วย

[/li]
[li]Change Management

การเปลี่ยนแปลงใดๆ ที่เกิดขึ้นกับระบบให้บริการจะต้องได้รับการบริหารจัดการอย่างรอบคอบ โดยต้องผ่านการประเมินความเสี่ยง และการพิจารณาถึงผลกระทบต่างๆ ที่เกี่ยวข้องกับการเปลี่ยนแปลงนั้น รวมถึงต้องได้รับการอนุมัติจากผู้มีอำนาจก่อนการดำเนินการทุกครั้ง ทั้งนี้ จะต้องมีการทบทวนถึงการเปลี่ยนแปลงนั้นด้วยว่าเป็นไปตามแผนการที่วางไว้หรือไม่ โดยข้อมูลของการดำเนินการทั้งหมด ตั้งแต่การร้องขอ การประเมินผลกระทบ การอนุมัติ และการทบทวนผลการเปลี่ยนแปลง ต้องได้รับการบันทึกไว้

ในกรณีที่การดำเนินการเปลี่ยนแปลงไม่ประสบผลสำเร็จ ไม่ว่าด้วยสาเหตุใดก็ตาม ระบบให้บริการจะต้องได้รับการควบคุมให้ย้อนกลับไปสู่สภาวะเดิมก่อนที่จะมีการเริ่มดำเนินการ

[/li][/li]
[li]กลุ่ม Release Process ประกอบด้วย



[li][/list]
Release Management

การนำระบบฮาร์ดแวร์ ซอฟต์แวร์ หรืออุปกรณ์ต่อพ่วงอื่นๆ เข้าสู่การให้บริการจริงต้องได้รับการบริหารจัดการอย่างเหมาะสม มีประสิทธิภาพ และสามารถควบคุมได้ ดังนั้น ผู้ให้บริการต้องวางแผนร่วมกับผู้ที่เกี่ยวข้องทั้งหมดเพื่อกำหนดขั้นตอนปฏิบัติงาน โดยแผนการดำเนินการนั้นต้องได้รับความเห็นชอบ และผ่านการอนุมัติจากทุกฝ่าย

กระบวนการ Release Management นี้ ประกอบไปด้วยขั้นตอนการสร้าง (Build) การจัดซื้อจัดหา การทดสอบ (ทั้งทางด้านเทคนิค และการใช้งาน) การฝึกอบรมการใช้งาน (ถ้ามี) การประชาสัมพันธ์ให้ผู้ที่เกี่ยวข้องทุกฝ่ายรับทราบถึงกำหนดการปฏิบัติงาน การนำระบบเข้าสู่การให้บริการจริง รวมถึงเตรียมขั้นตอนการยกเลิก และย้อนกลับสู่สภาวะเดิมในกรณีที่ไม่สามารถดำเนินการได้สำเร็จตามแผนการที่ได้วางไว้

สิ่งที่สำคัญคือการทดสอบระบบงาน โดยต้องทดสอบใน Test Environment ที่แยกออกจาก Live/Production Environment อย่างเด็ดขาด เพื่อป้องกันผลกระทบที่เกิดจากการทดสอบระบบงานที่ผิดพลาด นอกจากนี้ ยังต้องระมัดระวังไม่ให้ระบบถูกเปลี่ยนแปลงแก้ไขโดยไม่ได้รับอนุญาต

[/li][/li]
[li]กลุ่ม Resolution Processes ประกอบด้วย


[li][/list]
Incident Management

Incident management task step.


[li]incident detection[/li]
[li]incident reporting[/li]
[li]incident classification and initial support[/li]
[li]investigation and diagnosis[/li]
[li]resolution and recovery[/li]
[li]incident closure[/li][/list]
[/li]
[li]Problem Management[/li][/li]
[li]กลุ่ม Relationship Processes ประกอบด้วย


[li]Business Relationship Management[/li]
[li]Supplier Management[/li][/list]
[/li]


Credit: ACinfotec



การส่งมอบบริการ (Service Delivery)

การจัดการระดับการบริการ (Service Level Management - SLM)
เป็นกระบวนการของการวางแผน การร่วมมือ การร่าง การตกลง การเฝ้าสังเกต และการรายงานของ SLA และการพิจารณาถึงความสำเร็จหรือการบรรลุผลของบริการเพื่อที่จะแน่ใจว่า คุณภาพของบริการที่ต้องการนั้น ได้รับการรักษาไว้และมีการปรับปรุงอย่างต่อเนื่องด้วยต้นทุนที่เหมาะสม SLM มีความสำคัญอย่างมากในองค์กรเพื่อที่จะสามารถกำหนดระดับของบริการ IT ที่ต้องการเพื่อที่จะสนับสนุนธุรกิจ และสามารถที่จะมีสิ่งที่เอาไว้เฝ้าสังเกตดูว่า ระดับของบริการที่ต้องการนั้นบรรลุได้หรือไม่

SLM มีเป้าหมายที่จะรักษาและส่งเสริมคุณภาพของบริการ IT โดยผ่านวงจรของการตกลง การเฝ้าสังเกต และการรายงานผลเกี่ยวกับความสำเร็จของบริการ IT และส่งเสริมการกระทำใดๆ ที่จะกำจัดบริการที่ไม่ดีออกไปโดยคำนึงถึงธุรกิจหรือต้นทุนด้วย วิธีการเหล่านี้ทำให้มีการพัฒนาความสัมพันธ์ระหว่างองค์กร IT กับลูกค้าที่ดีขึ้น

Service Level Agreement (SLA) หรือ ข้อตกลงระดับบริการ เป็นข้อตกลงที่เป็นลายลักษณ์อักษรที่ทำขึ้นระหว่างผู้ให้บริการ IT กับลูกค้าของบริการ IT นั้นๆ เป็นการระบุเป้าหมายของบริการที่สำคัญและหน้าที่ความรับผิดชอบของทั้ง 2 ฝ่าย ดังรูป แสดงถึงความสัมพันธ์ระหว่างลูกค้ากับการจัดการระดับการบริการ

itil1_clip_image002_0000.jpg


SLA ถูกจัดการผ่านกระบวนการ SLM เป็นข้อตกลงที่ให้เป้าหมายที่เฉพาะเจาะจงกับแต่ละบริการและวัดผลได้ว่าองค์กร IT นั้นสามารถให้บริการได้ตามเป้าหมายที่กำหนดไว้ได้หรือไม่ จึงทำให้สามารถตัดสินความสามารถหรือสมรรถนะขององค์กร IT ได้

บริการทาง IT ทุกๆ บริการ ควรที่จะมีการกำหนด SLA ไว้ รวมทั้ง Underpinning Contracts (UCs) และ Operational Level Agreements (OLAs) ก็ควรที่จะมีการกำหนดไว้เช่นเดียวกันกับผู้จัดหาให้ (supplier) ทั้งภายนอกและภายในที่การส่งมอบบริการนั้นๆ เกี่ยวข้องด้วย โดยที่ Underpinning Contracts จะเป็นข้อกำหนดที่ตกลงไว้กับผู้จัดหาให้ภายนอกองค์กร ส่วน Operational Level Agreements เป็นข้อตกลงที่กำหนดไว้กับผู้จัดหาให้ภายในองค์กรเอง เช่น แผนกอื่นๆ เป็นต้น
SLA สามารถนำมาใช้ในการคิดค่าใช้จ่ายได้ (Charging) และช่วยในการแสดงให้ลูกค้าเห็นถึงคุณค่าจากบริการที่ลูกค้าได้รับจากเงินที่ลูกค้าจ่าย เช่น กำหนด SLA ไว้ว่า ให้บริการการใช้งานเครือข่ายได้ 99.99% ต่อเดือน หากผู้ให้บริการ IT ไม่สามารถทำได้ตาม SLA จะถูกปรับเป็นเงินเท่าใด เป็นต้น แต่หากผู้ให้บริการสามารถทำได้ถึง 100% จะแสดงให้เห็นถึงความสามารถของผู้ให้บริการ

ภาพรวมของกระบวนการการจัดการระดับการบริการ ประกอบด้วยกิจกรรมต่อไปนี้

itil1_clip_image004_0000.jpg



[li]วางแผน (plan)[/li]
[li]ทำให้เป็นผล (implement)
[/list]


[li]การทำ Catalogue การบริการ (Service Catalogue)[/li]
[li]การร่าง SLA[/li]
[li]การเจรจาเพื่อตกลง SLA กับลูกค้า[/li]
[li]การทบทวน UCs และ OLAs[/li]
[li]การตกลง SLA[/li][/list]
[/li]
[li]การจัดการกระบวนการที่ดำเนินไปเรื่อยๆ (manage the ongoing process)


[li]การเฝ้าสังเกต SLA ว่าเป็นไปตามที่ได้ตกลงไว้หรือไม่[/li]
[li]การรายงานถึงความสำเร็จที่บรรลุตาม SLA ที่ตกลงกันไว้[/li]
[li]การทบทวน SLA[/li][/list]
[/li]
[li]การทบทวนเป็นระยะ (periodic reviews)


[li]การทบทวนกระบวนการ SLM[/li]
[li]การทบทวน SLA OLAs และ UCs[/li][/list]
[/li]
ผู้ให้บริการ IT ควรจัดทำ Catalogue การบริการ (Service Catalogue) แสดงตัวอย่างดังรูป เพื่อระบุว่ามีบริการอะไรบ้างที่ให้แก่ลูกค้า รวมทั้งลักษณะของบริการนั้นๆ โดยสรุปและรายละเอียดของลูกค้าที่รับบริการ

itil1_clip_image006_0000.jpg


ตัวอย่างเนื้อหาดังต่อไปนี้มักจะปรากฏและควรที่จะมีการระบุอยู่ใน SLA ได้แก่

บทนำ


[li]บุคคลหรือหน่วยงานที่เกี่ยวข้อง[/li]
[li]หัวข้อและรายละเอียดโดยย่อของข้อตกลง[/li]
[li]มีการลงนาม[/li]
[li]วันที่ (เริ่ม สิ้นสุด ตรวจสอบ)[/li]
[li]ขอบเขตของข้อตกลง สิ่งที่ครอบคลุมและสิ่งที่ไม่ครอบคลุม[/li]
[li]หน้าที่ความรับผิดชอบทั้งส่วนผู้ให้บริการและลูกค้า[/li]
[li]รายละเอียดของบริการที่ครอบคลุมถึง[/li][/list]

ชั่วโมงการให้บริการ (Service hours)


[li]ช่วงเวลาหรือชั่วโมงการทำงานที่ต้องการใช้บริการ เช่น 24x7 วันจันทร์ถึงวันศุกร์ 8:00 - 18:00 เป็นต้น[/li]
[li]การจัดการเรื่องการขอขยายเวลาให้บริการ รวมถึงช่วงเวลาที่ต้องการให้แจ้งล่วงหน้า (เช่น คำร้องขอขยายเวลาให้บริการต้องส่งผ่านทาง Service Desk ก่อนเที่ยง เป็นต้น)[/li]
[li]ชั่วโมงการทำงานพิเศษ (เช่น วันหยุดนักขัตฤกษ์)[/li]
[li]ปฏิทินของการให้บริการ (Service calendar)[/li][/list]

สภาพพร้อมใช้งาน
ต้องมีการกำหนดเป้าหมายของสภาพพร้อมใช้งานภายใต้ชั่วโมงการให้บริการที่ตกลงกันไว้ (มักจะแสดงในรูปแบบ Percent) ระยะเวลาและวิธีที่ใช้ในการชี้วัด

ความน่าเชื่อถือ (Reliability)
มักจะแสดงในรูปแบบของจำนวนครั้งที่การให้บริการหยุดชะงักลง หรือระยะเวลาระหว่างการหยุดชะงักของบริการแต่ละครั้ง (Mean Time Between Failures - MTBF)

การสนับสนุน (Support)


[li]ชั่วโมงการทำงานที่ให้การสนับสนุน (ในกรณีที่ไม่เหมือนกับชั่วโมงการให้บริการ)[/li]
[li]การจัดการเรื่องการขอขยายเวลาให้สนับสนุน รวมถึงช่วงเวลาที่ต้องการให้แจ้งล่วงหน้า (เช่น คำร้องขอขยายเวลาให้สนับสนุนต้องส่งผ่าน Service Desk ก่อนเที่ยง เป็นต้น)[/li]
[li]ชั่วโมงการทำงานพิเศษ (เช่น วันหยุดนักขัตฤกษ์)[/li]
[li]ระยะเวลาเป้าหมายในการตอบสนองต่อปัญหาหรือการร้องขอการสนับสนุน[/li]
[li]ระยะเวลาเป้าหมายในการแก้ไขปัญหา ภายใต้แต่ละลำดับความสำคัญของปัญหา (Incident priority)[/li][/list]

ปริมาณงานต่อหน่วยเวลา (Throughput)
ตัวชี้วัดของปริมาณกิจกรรมต่างๆ เช่น จำนวนรายการ (transaction) ที่ถูกประมวลผล จำนวนผู้ใช้งานพร้อมๆ กัน ปริมาณข้อมูลที่ถูกส่งผ่านเครือข่าย เป็นต้น สิ่งเหล่านี้เป็นสิ่งสำคัญเพื่อเวลาที่พบปัญหาเกี่ยวกับสมรรถนะ (performance) ว่าปัญหานั้นเกิดจากปริมาณงานต่อหน่วยเวลาที่เกินจากที่ได้ตกลงกันไว้หรือไม่

ระยะเวลาตอบสนองของธุรกรรม (Transaction response times)
ระยะเวลาเป้าหมายสำหรับเวลาตอบสนองของธุรกรรมโดยเฉลี่ยหรือมากที่สุด

ความต่อเนื่องและความปลอดภัยของบริการ IT (IT Service Continuity and Security)
มีการกล่าวถึงอย่างสั้นๆ เกี่ยวกับแผนความต่อเนื่องของบริการ IT และจะเรียกใช้แผนนั้นอย่างไร และรวมถึงประเด็นต่างๆ เกี่ยวกับความปลอดภัยโดยเฉพาะหน้าที่ความรับผิดชอบของลูกค้า เช่น การเปลี่ยนรหัสผ่าน เป็นต้น

การคิดค่าใช้จ่าย (Charging)
รายละเอียดของสูตรคำนวณการคิดค่าใช้จ่าย

การรายงานและการทบทวนการบริการ (Service reporting and reviewing)
เนื้อหา ความถี่ และการแจกจ่ายรายงานการบริการ และความถี่ของการประชุมการทบทวนการบริการ

สิ่งกระตุ้นและบทลงโทษของสมรรถนะ (Performance incentives/penalties)
รายละเอียดของข้อตกลงต่างๆ ที่เกี่ยวกับสิ่งกระตุ้น (incentives) และบทลงโทษ (penalties) ทางด้านการเงินต่อสมรรถนะของระดับการบริการ


Credit: Chula



ในโลกธุรกิจปัจจุบันที่การแข่งขันนับวันจะยิ่งทวีความเข้มข้น องค์กรธุรกิจต่างๆ ต้อง ดิ้นรนเพื่อเพิ่มประสิทธิภาพขององค์กร ซึ่งโดยพื้นฐานแล้วการพัฒนาด้านเทคโนโลยีสารสนเทศให้มีความทันสมัย และมีประสิทธิภาพตอบสนองการดำเนินธุรกิจขององค์กร จึงมีความจำเป็น และถูกกำหนดเป็นแผนงานการพัฒนาของทุกองค์กรธุรกิจ เพื่อให้หน่วยงานด้านเทคโนโลยีสารสนเทศสามารถพัฒนาและบริหารการจัดการ "งานบริการด้านเทคโนโลยีที่มีคุณภาพ" หลักการในการดำเนินธุรกิจให้ประสบความสำเร็จ สิ่งที่สำคัญประการหนึ่งคือการควบคุมต้นทุนให้ต่ำมากที่สุดเท่าที่จะสามารถทำได้ ทำให้รายจ่ายลดลงและมีรายได้เพิ่มขึ้น จึงได้มีการคิดค้นกระบวนการที่จะมาช่วยควบคุมต้นทุน โดยที่กระบวนการที่ใช้นั้นต้องไม่ส่งผลให้ผลิตภัณฑ์หรือบริการที่มีอยู่มีประสิทธิภาพลดลง การนำเทคโนโลยีเข้ามาใช้นับเป็นทางเลือกหนึ่งที่นิยมใช้กันมาเพื่อให้ธุรกิจบรรลุเป้าหมาย และการนำเทคโนโลยีมาใช้ใน การบริการลูกค้าให้เกิดความพึงพอใจสูงสุด (Customer Satisfaction) โดยเน้นไปที่ "คุณภาพในการให้บริการ" หรือ "Quality of Service" เช่น การปฏิบัติตาม ข้อตกลง Service Level Agreement (SLA) ในสัญญาการให้บริการเทคโนโลยีสารสนเทศ

องค์กรชั้นนำที่ประสบความสำเร็จในโลกยุคดิจิตอล ต่างล้วนมีระบบ IT ที่แข็งแกร่งเป็นพื้นฐานสำคัญในการดำเนินธุรกิจ และด้วยเทคโนโลยีที่มีการเปลี่ยนแปลงอยู่ตลอดเวลา ทำให้ธุรกิจด้าน IT ต้องมีการพัฒนาและปรับปรุงการให้บริการต่างๆ เพื่อเพิ่มคุณภาพ ประสิทธิภาพ และประสิทธิผลในการปฏิบัติงาน การพัฒนาผลิตภัณฑ์และบริการด้านเทคโนโลยี โดยมุ่งตอบสนองความต้องการของลูกค้า และทำให้เกิดความพึงพอใจแก่ลูกค้า จึงต้องมีการนำกระบวนการทางเทคโนโลยีมาใช้เพื่อพัฒนาและปรับปรุงให้การปฏิบัติงานมีคุณภาพ และมีประสิทธิภาพมากขึ้น และเป็นการยกระดับงานบริการด้านเทคโนโลยี จึงนำ ITIL (Information Technology Infrastructure Library) มาประยุกต์ใช้ปรับปรุงกระบวนการทำงานให้มีประสิทธิภาพ ช่วยให้การประสานงานระหว่างหน่วยงาน เพื่อติดตามและแก้ไขปัญหาเป็นไปอย่างเป็นระบบระเบียบ มีข้อมูลเพียงพอต่อการวิเคราะห์ผลลัพธ์ของกระบวนการ มีการกำหนดกฎเกณฑ์ ที่ใช้วัดระดับการให้บริการอย่างชัดเจน เพื่อการตอบสนองความต้องการของผู้ใช้บริการด้วยบริการที่มีคุณภาพ ภายใต้ข้อตกลงร่วมกัน


Credit: Nalinee

bigeyes.gif
 

PlAwAnSaI

Administrator
IT Service Management

IT Service Management ก็คือ การใช้เทคโนโลยีสารสนเทศเพื่อสนับสนุนความต้องการและเป้าหมายทางธุรกิจขององค์กร (Business Requirements & Objectives) เรียกได้ว่า IT ต้อง "Support" Business ไม่ใช่ Business Support IT องค์กรส่วนใหญ่ในปัจจุบันนั้นให้ความสำคัญแก่ "Business Requirement" เป็นลำดับแรก โดยใช้หลัก "Business Leads IT" เทคโนโลยีสารสนเทศถูกนำมาใช้เพื่อเป็นกลไกในการขับเคลื่อนทางธุรกิจธุรกรรมต่างๆ ขององค์กร ดังนั้น การนำเทคโนโลยีสารสนเทศมาใช้ในการให้บริการโดยอ้างอิงจาก กระบวนการบริหารจัดการงานบริการเทคโนโลยีสารสนเทศ "IT Service Management" หรือ "ITSM" ซึ่งเน้นเรื่องการบริหารจัดการทางด้านเทคโนโลยีสารสนเทศให้ตอบสนองต่อความต้องการของธุรกิจ และมุ่งไปที่ความพึงพอใจของผู้ใช้ระบบสารสนเทศ (Users) หรือลูกค้า (Customers)

ITSM เป็นหลักการที่เน้นเรื่องของ "กระบวนการ" หรือ "Process-focused" ซึ่งมุ่งเน้นในการพัฒนากระบวนการให้มีประสิทธิภาพมากยิ่งขึ้นโดยสามารถใช้ร่วมกับหลักการ Best Practice อื่นๆ ยกตัวอย่างเช่น การนำหลักการ TQM, Six Sigma, CMMI หรือ Business Process Improvement (BPM) มาใช้ร่วมกับ ITSM เป็นต้น โดยแนวความคิด ITSM ไม่เน้นเรื่อง "Technology" หรือ "Product" แต่อย่างใด แต่จะเน้นเรื่องกระบวนการในการให้บริการแก่ users และ customers เป็นหลัก และ ITSM ยังสนับสนุนหลักการ "IT Governance" หรือ "GRC" (Governance, Risk Management and Compliance) อีกด้วย ในปัจจุบันหลักการ "IT Service Management" หรือ "ITSM" นั้นมีหลากหลาย Framework ให้องค์กรเลือกนำมาใช้ ได้แก่ ITIL Framework ของ OGC (Office of Government Commerce), CobiT และ Val IT Framework ของ ISACA, ITUP ของ IBM, ASL ของ Netherlands และ MOF ของ Microsoft เป็นต้น ITSM กับ ITSMF หรือ IT Service Management Forum เป็นองค์กรไม่แสวงหาผลกำไร ที่ตั้งอยู่ทั่วโลกกว่า 45 Chapters มีสมาชิกกว่า 5,000 บริษัท และเป็นสมาชิกบุคคลกว่า 70,000 คน โดย ITSMF มุ่งสนับสนุน ITIL Framework และ มาตรฐาน ISO/IEC 20000 ซึ่งใช้เป็นมาตรฐานในการตรวจสอบ "ITSM" Implementation (ITSM Audit Standard) มาตรฐาน ISO/IEC 20000 นั้นถูกพัฒนามาจากมาตรฐาน BS 15000 ของ BSI และ ITIL ของ OGC บางครั้งนิยมเรียก มาตรฐาน ISO/IEC 20000 เป็นมาตรฐาน "ITIL Assessment" หรือ "ITIL Standard"


Credit: Nalinee


ผังก้างปลา (Fish bone diagram) หรือ Ishikawa diagram กับ Mind Map® นั้นเหมือนหรือแตกต่างกันอย่างไร ?


Code:
http://www.prachasan.com/mindmapknowledge/fishbonemm.htm



Cause and Effect Analysis


Code:
http://www.tenstep.com/pv/basicI/3.1.2TCauseandEffect.html



Scripts Review


[li]While looking at a Cisco CRS syslog, you see this message:
[/list]


Quote:
%ROUTING-FIB-1-FIBTBLINIT


Based on the message alone, you should consider it a high-priority message because the severity of the syslog message requires immediate action.

[/li]
[li]Problem management contribute to network availability by developing and documenting workarounds to known problems.

[/li]
[li]IP address schemes for WAN link is mask /31.[/li]


Code:
http://www.cisco.com/en/US/docs/ios/12_2t/12_2t2/feature/guide/ft31addr.html




[li]Critical success factors is used to define key elements for successfully building obtainable service levels.

[/li]
[li]Check the fan tray to ensure that all of the fans are functioning properly if the NMS is receiving temperature alarms from a router.

[/li]
[li]Characteristics can use to identify effective KPIs.
Realistic
Specific
Agreed
Budget-based
Heuristic

[/li]
[li]A syslog packet is limited to 1,024 bytes.

[/li]
[li]You are responsible for monitoring the IP network. You have noticed since the beginning of your shift that a particular interface on a network switch has been flapping, and it has finally gone down. You open an incident ticket. You should perform a search of the known-error database to determine if it is a recurring issue.

[/li]
[li]SNMP trap enables an agent to notify the management station of significant events by sending an unsolicited message.

[/li]
[li]When connecting to the console port, you see this message:
%SYS-2-MALLOCFAIL: Memory allocation of 1028 bytes failed from 0x6015EC84, Pool Processor, alignment 0
Situations could cause this message:
The memory has fragmented into such small pieces that the router cannot find a usable available block.
The router has temporarily or permanently used all available memory.

[/li]
[li]An outage occurs in location "A" due to a router crash. This is not the first time that the router has had this problem. In fact, it crashed three times within the past 20 days. Problem ticket is type of record should be created to resolve this issue.

[/li]
[li]In trobleshooting a network incident, you found that the incident is the result of a known error. Fix the incident and open a request for change immediately is an appropriate way to resolve the issue.

[/li]
[li]Prioritize an incident ticket based on the impact and urgency.

[/li]
[li]ping -a 10.1.1.1 is Microsoft Windows commands will allow to look up the hostname for a given IP address.

[/li]
[li]Possible benefits of generating a detailed root cause analysis using chronological timelines:
Identifies staffing, skills, and expertise
Identifies process deficiencies and breakdowns

[/li]
[li]When an issue is reported to a service desk, system it is recorded in incident management system

[/li]
[li]A customer calls complaining about the level of service being received. The customer produces a log showing service-level measurements that were collected over the past week. Questions should be asked at a minimum in order to assess the validity of the claim:
How were the measurements taken?
Are the measurements statistically relevant?
What were the measurements taken?

[/li]
[li]The log message "%IPNAT-6-DELETED:" indicate does the message is for information only and requires no further action.

[/li]
[li]The following is a shell script for a UNIX-based server.
[/list]


Quote:
#!/bin/sh

HOSTNAME='head -n1 /etc/hostname.hme0'
LAST_IP_OCT='grep loghost /etc/hosts|awk '{print $1}'|cut -d. -f4'
ifconfig hme0:1 10.1.0.$LAST_IP_OCT netmask 255.255.0.0 up
echo "${HOSTNAME}a" > /etc/hostname.hme0:1
echo "10.1.0.$LAST_IP_OCT ${HOSTNAME}a">>/etc/hosts
echo "10.1.0.0 255.255.0.0" >> /etc/netmasks
echo "${HOSTNAME}a 10.1.0.$LAST_IP_OCTn"


Files on the UNIX server will be updated or created when this script is executed:
/etc/hosts
/etc/hostname.hme0:1
/etc/netmasks

[/li]
[li]According to best practices, reasons for escalating a ticket:
When automated escalation does not occur within prescribed time frame
Immediate escalation based on severity
Management escalation due to business reasons

[/li]
[li]Hierarchical and functional is the nature of the method used to escalate an issue that is very serious in nature or an issue that could potentially require an excessive amount of time to resolve.

[/li]
[li]Often should backed up device configurations:
When a configuration change is detected
At predetermined intervals

[/li]
[li]The command logging trap informational instructs a device to perform log only messages with a severity of 0-6.

[/li]
[li]A "device unreachable" event has been detected by the NMS. The NMS has also performed automated routines and determined that no interfaces are reachable (routed or directly connected). The last few log entries stored on the logging server for this device are as follows:


Quote:
%SYS-5-CONFIG-I: Configured from memory by console (cdukes)
%OSPF-5-ADJCHG: Process 62, Nbr 11.162.0.253 on Serial1/0 from EXCHANGE to DOWN, Neighbor Down: Dead timer expired
%C6KENV-4-PSFANFAIL: the fan in power supply 1 has failed
%OSPF-5-ADJCHG: Process 62, Nbr 11.162.0.253 on Serial1/0 from LOADING to FULL, Loading Done
%C6KENV-4-PSFANFAIL: the fan in power supply 2 has failed


The device overheated, causing a system shutdown is the most probable cause of the outage.

[/li]
[li]IP SLA is tool to generates synthetic traffic to measure network performance.

[/li]
[li]An incremental backup is a backup of all files that have changed since the last full or incremental backup.

[/li]
[li]When closing a trouble ticket, closure categorization very important because it helps to identify the cause of an outage.

[/li]
[li]Formulas are commonly used to calculate priority:
Priority = urgency x impact
Priority = urgency + impact

[/li]
[li]Protocols can use to collect detailed configuration information on network devices for inventory purposes:
SNMP
Cisco Discovery Protocol
SSH

[/li]
[li]Required to implement reboots, repairs, or workarounds is initiate a request for change.

[/li]
[li]After notifying the customer about an SLA issue, then document who you contacted about the SLA issue by opening or updating a ticket.

[/li]
[li]Processes are common inputs to root cause analysis:
Incident management
Proactive problem management
Event management

[/li]
[li]Threshold-crossing events is technique used to set up an early warning system for impending service-level violations.

[/li]
[li]Factors are important information in a network change document:
Detailed information about the steps required to carry out the process of network change
A rollback plan, in case the network change is not successful
Steps to verify the accuracy of the network change after the change has taken place

[/li]
[li]A software upgrade is performed on some of the routers in a network. Check show version would be first major verification step after the upgrade.

[/li]
[li]The incident management task:
Incident detection
Incident reporting
Incident classification and initial support
Investigation and diagnosis
Resolution and recovery
Incident closure

[/li]
[li]Effective problem management:
Resources dedicated to problem management are more effective than resources dedicated solely to managing incidents.
A problem ticket can be opened as a result of a single incident ticket.
It is desirable to align incident and problem management categories.

[/li]
[li]Network inventory is polled once per week on Saturdays. A new router is being installed on Sunday. Syslog Manager is network managers be synchronized with the inventory manager have the most up-to-date device list as soon as possible.

[/li]
[li]Your fault managment system indicates that an "interface down" event was received five minutes ago, followed by an "interface up" event three minutes later. Then should monitor the device for additional interface events before taking any action.

[/li]
[li]A customer complained about their network performance. You scheduled a change request that will reroute their traffic through a different node to improve performance. Collect baseline performance data before and after the change to verify that this change had the desired results.

[/li]
[li]When you receive a change document for a network change, Detailed information about the steps required to carry out the process of network change, and a rollback plan would you sure to have.

[/li]
[li]A single trouble ticketing system is important because it is easy to transfer tickets back and forth between the support groups.

[/li]
[li]Types of metrics to support continual service improvement and other process activities:
Process metrics
Service metrics
Technology metrics

[/li]
[li]A measure of how long urgency will be until there is significant impact on the business is urgency defined regarding an incident, problem, or change.

[/li]
[li]Criteria can use to qualify an incident:
Unplanned interruption to a service.
A failure of a configuration item that has not yet impacted service.
A reduction in the quality of service.

[/li]
[li]Closure categorization is the most critical information that needs to be captured in the trouble ticketing system.

[/li]
[li]Incident number, priority, incident start time, SLA, incident status is information typically reported in an NOC incident report.

[/li]
[li]Take impact into account to adjust your workload would you prioritize workload when dealing with multiple high-urgency incident tickets.

[/li]
[li]Types of high priority escalation processes within incident management:
Hierarchical
Functional

[/li]
[li]Triggers an incident when an outage is called into a service center.

[/li]
[li]Provide a legal contract between the customer and the service provider is the primary reason for implementing SLAs.

[/li]
[li]Each syslog message has a numerical severity level assigned to generate error messages about software of hardware mulfunctions. Debug has the highest numeric severity level.

[/li]
[li]Methods can use to back up a configuration running Cisco IOS Software Release 12.2 Mainline:
KRON
SNMP
TFTP

[/li]
[li]A router is causing problems in the network and you want to capture as much information as you can before you manually reload or power-cycle the router. show tech-support is command would type at the CLI of the router to capture information that would be lost when the router is rebooted.

[/li]
[li]Steps are best practices in accurately documenting a network:
Document separate Layer 2 and Layer 3 topologies.
Clearly depict different routing domains with appropriate information such as the routing protocol and process number.
Clearly document the port identifiers on all of the links.

[/li]
[li]Steps would use to troubleshoot a performance-related problem in the network core:
Define problem
Create action plan
Analyze problem

[/li]
[li]Steps are best practices to be followed while documenting a network:
Use different colors and widths for denoting different links of different bandwidth.
Use proper icons for different devices in the network.

[/li]
[li]No interference with live traffic is the advantage of using a passive monitoring technique.

[/li]
[li]The command below was executed on a Cisco 12000 Series Router running Cisco IOS XR.


Quote:
RP/0/9/CPU0:GSR# show ip route

Codes: I - IGRP derived, R - RIP derived, O - OSPF derived,
C - connected, S - static, E - EGP derived, B - BGP derived,
* - candidate default route, IA - OSPF inter area route,
i - IS-IS derived, ia - IS-IS, U - per-user static route,
o - on-demand routing, M - mobile, P - periodic downloaded static route,
D - EIGRP, EX - EIGRP external, E1 - OSPF external type 1 route,
E2 - OSPF external type 2 route, N1 - OSPF NSSA external type 1 route,
N2 - OSPF NSSA external type 2 route

Gateway of last resort is not set

O 10.110.0.2/32 [110/5] via 71.44.1.66, 0:01:00, TenGigE0/1/1/0
O 10.67.10.3/32 [110/128] via 10.119.254.244, 0:02:22, TenGigE0/1/1/0
O 10.68.132.23/32 [110/5] via 71.44.1.66, 0:00:59, TenGigE0/1/1/0
C 10.130.0.0/24 is directly connected, 5:00:59, MgmtEth0/9/CPU0/0
L 10.128.0.21/32 [110/128] via 10.119.254.244, 0:02:22, MgmtEth0/9/CPU0/0
L 10.129.0.29/32 [110/129] via 10.119.254.240, 0:02:22, MgmtEth0/9/CPU0/0
L 10.65.129.55/32 [110/128] via 10.119.254.244, 0:02:22, Loopback10
O 10.10.0.0/24 [110/128] via 10.119.254.244, 0:02:22, TenGigE0/1/1/0
O 10.75.139.0/24 [110/129] via 10.119.254.240, 0:02:23, TenGigE0/1/1/0
O 10.16.208.0/24 [110/128] via 10.119.254.244, 0:02:22, TenGigE0/1/1/0
O 10.84.148.0/24 [110/129] via 10.119.254.240, 0:02:23, TenGigE0/1/1/0
L 10.31.223.0/24 [110/128] via 10.119.254.244, 0:02:22, TenGigE0/1/1/0
O 10.44.236.0/24 [110/129] via 10.119.254.240, 0:02:23, TenGigE0/1/1/0
O 10.141.0.0/24 [110/129] via 10.119.254.240, 0:02:22, TenGigE0/1/1/0
O 10.140.0.0/24 [110/129] via 10.119.254.240, 0:02:23, TenGigE0/1/1/0
L 192.168.253.1/32 is directly connected, 5w2d, Loopback0


There are no static routes in the routing table.

[/li]
[li]After an incident is resolved and the root cause identified, Record the root cause analysis in the known error database to identify and resolve potential incidents should be the next step.

[/li]
[li]Differences between using FTP or TFTP to copy files:
FTP requires a username and password.
FTP uses a reliable transport protocol and TFTP uses an unreliable transport protocol.

[/li]
[li]You are a Tier I NOC staff working on a severity 1 issue. The escalation timeline is defined as 60 minutes. After 55 minutes, you think you are close to resolving the issue. Escalate to Tier II support staff would do in this situation.

[/li]
[li]The problem management process can deal with types of issues:
Prevention of future outages
Current outages

[/li]
[li]A robust trouble ticketing system includes integrated with both asset and event management systems, unique reference numbers, and priority and closure categories.

[/li]
[li]Things can a network change MOP be used for:
Software image upgrade
Installing new hardware
Configuration change

[/li]
[li]The NMS has missed three of the last five polls to a device. Should upgrade the device to the latest software release.

[/li]
[li]To revert back all changes made during the procedure is the purpose of a rollback procedure in a method of procedure.

[/li]
[li]SLAs would not be tracked in the Inventory Manager.

[/li]
[li]

Quote:
#!/bin/ksh
PATH=/usr/sbin:/usr/dt/bin:/usr/bin:.;export PATH
TERMINAL ='who am i | awk '{print$2}''
HOSTNAME='hostname'
DATE='date '+%e %b %Y %H: %M %Z''
DIR_PATH='echo $0 | awk '{print $1}' | wc -c'
DIR_PATH='expr $DIR_PATH - 12'
DIR='echo $0 | awk '{print $1}' | cut -c1-$DIR_PATH';export DIR


When executing the echo command, the script will always look for the command in /usr/bin before looking in the directory from which the script was run.

[/li]
[li]Recurring incidents should trigger the creation of a problem record.

[/li]
[li]Backout/Rollback is section of the network change method of procedure will contain instructions to reverse the network change.

[/li]
[li]The following is the beginning of a shell script.


Quote:
#!/bin/sh
#Script Name is send_traps.sh
trapDir=$1
simulation_IP=$2
waitPeriod=10
trapgenScripts=/opt/MVVFM_Automation/trapgen_scripts/$trapDir
referenceFiles=/opt/MVVFM_Automation/reference_files/traps_validation/$trapDir
alarmValidateDir=/opt/MVVFM_Automation/java/reference_files_creation/traps_validation


The trapgenScripts variable will be set to /opt/MWFM_Automation/trapgen_scripts/10.1.1.1, if the user issues "./send_traps.sh 10.1.1.1" at the CLI without the quotes.

[/li]
[li]A parameter in an SLA must meet:
Relevance
Measurability
Significance

[/li]
[li]The Cisco IOS command, logging buffered 65536, performs indicates the number of log messages kept for viewing during a show logging command on the console.

[/li]
[li]Proactive review of syslog summary report is considered a problem management task.

[/li]
[li]In inventory management, to provide authoritative information for all other managers is the primary responsibility of a "master poller".

[/li]
[li]SNMP counters often show different numbers than Cisco IOS CLI show commands because the only way to reset the SNMP counters is to reload the box.

[/li]
[li]IP SLA be best suited for providing accurate service-level measurements.

[/li]
[li]Functional occurs when the service desk is unable to resolve the incident.

[/li]
[li]You are working on a network outage issue and you realize that you need to make a change to the configuration. You should make the necessary change and open a change ticket as soon as possible.

[/li]
[li]Coordinate root cause analysis is a responsibility of problem management.

[/li]
[li]Problem management is process deals with the investigation of recurring network issues.

[/li]
[li]Incident start time, resolution time, outage impact, chronological events with timelines is typically captured in the network root cause analysis report.

[/li]
[li]A major location was down for several minutes. In your experience, you know that this same location has experienced outages two other times during the past month. As an engineer working on the most recent incident, open a problem ticket, citing a potential chronic issue you would do next.

[/li]
[li]Your organization is in the process of creating a root cause analysis process as part of problem management. Actions you would recommend that they include in the process to clearly identify the root cause:
Capture the chronological information timeline.
Use Ishikawa diagrams to identify the root cause.

[/li]
[li]A device reports a fan failure is a valid reason to open a problem ticket.

[/li]
[li]Known errors in a knowledge database can use to define and analyze a problem in the network.

[/li]
[li]Problem management will improve first-line resolution rates for incidents reported to the service desk.

[/li]
[li]Ping provides the ability to monitor any network device, regardless of operating system.

[/li]
[li]Telnet can use to verify an open port on a remote device.

[/li]
[li]SNMP can be used to determine the number of errors on a router interface.

[/li]
[li]Message-text is part of a syslog message contains detailed information about the event, including terminal port numbers, network addresses, or addresses that correspond to locations in the system memory address space.

[/li]
[li]While viewing the output of a show logging command on a Cisco Catalyst 6500 Series Switch, you notice the following entry:


Quote:
%SYS-0-SYS_LCPERR0:Module 6: Linecard received system exception.


From this message, you can determine that the facility code is SYS.

[/li]
[li]During a review of syslog messages, you notice that the backup power supply in router A is down. Open a problem ticket would be next step.

[/li]
[li]Your NMS is reporting a device outage. You recall seeing this before but are not completely sure. Look at the known-error database for troubleshooting steps is the next step that should take to begin working on the issue.

[/li]
[li]When a resolution is unknown, Check the known-error database for an incident match should be the first step that follow when troubleshooting an incident.

[/li]
[li]A Cisco network router crashes and you want to do as much first-level troubleshooting as quickly as you can so that the router can return to service. Output Interpreter can use that reports potential problems by analyzing supported show command output.

[/li]
[li]Cisco routers provide numerous integrated commands to assist you in monitoring and troubleshooting your internetwork. Assists in the isolation of protocol and configuration problems describes the debug set of commands.

[/li]
[li]A network alarm is reported. Verify that the event actually occurred to eliminate any false-positives is the first task that should perform.

[/li]
[li]Actions can take to determine performance degradation on a Cisco router:
Ping the affected device.
Perform a show interface command on the affected device.

[/li]
[li]Local7 is the default syslog facility used to display log messages for a Cisco switch running Cisco IOS Software Release 12.2.18(SXF).

[/li]
[li]Refer to the exhibit. A Cisco 7200 Series Router is directly connected to a Cisco Catalyst 3560 Series Switch over a Gigabit Ethernet link. It takes an average of 50 seconds after bringing up both ends of the link for data traffic to flow across the link.

fwdtt.GIF


On the switch, enable PortFast would allow the link to forward data traffic within a few seconds after bringing up both ends of the link.

[/li]
[li]While at the CLI on a Cisco ASR 9000 Series router, you notice the following message appear on your screen:


Quote:
2w6d: %SYS-5-CONFIG_I: Configured from console by cisco on vty0 (10.10.20.100)


The router has been up for 20 days.

[/li]
[li]You need to monitor a connection between two PE routers for packet jitter and delay. IP SLA is tool enables this type of monitoring on a Cisco 7600 Series Router.

[/li]
[li]A performance manager is no longer able to poll a single device. The following might be causes:
An access list is dnying access.
The device is down.[/li]
bigeyes.gif
 
Top