DR-06 · ประสบการณ์
การสำรองข้อมูล การกู้คืนจากภัยพิบัติ และความต่อเนื่องทางธุรกิจ ทดสอบไว้ก่อนที่คุณจะต้องใช้
ผมออกแบบการสำรองข้อมูลและการกู้คืนจากภัยพิบัติในแบบที่ใช้งานจริง นั่นคือด้วยการกู้คืน ผมสร้างระบบ Rubrik เพื่อให้ข้อมูลของคุณได้รับการปกป้องและกู้คืนได้ จากนั้นพิสูจน์ด้วยการซ้อมกู้คืนจริงที่วัดเทียบกับเป้าหมาย RTO และ RPO เมื่อเกิดเหตุระบบล่ม คุณจะรู้อยู่แล้วว่าการกู้คืนใช้เวลานานเท่าใด เพราะเราได้ทดสอบไว้แล้ว
01 · สิ่งที่ผมทำ
งานที่ทำจริง
- ออกแบบและติดตั้งสถาปัตยกรรมการสำรองข้อมูล Rubrik สำหรับ VM, ไฟล์แชร์, ฐานข้อมูล และเครื่องโฮสต์จริง โดยกำหนดนโยบายให้สอดคล้องกับระดับความสำคัญที่แท้จริงของแต่ละเวิร์กโหลด
- กำหนดเป้าหมาย RTO และ RPO สำหรับแต่ละระบบ แล้วจัดตารางการป้องกันให้บรรลุเป้าหมายนั้น แทนที่จะคาดเดา
- ทำการซ้อมกู้คืนจริง ไม่ใช่แค่ทดสอบให้ครบช่อง ทั้งการกู้คืน VM ทั้งเครื่อง การกู้คืนระดับไฟล์ และการสาธิตการสลับไปใช้ระบบสำรอง (failover) ที่คุณดูได้ด้วยตา
- เขียนแผนการกู้คืนจากภัยพิบัติเป็นขั้นตอนที่จัดทำเป็นเอกสารและเรียงลำดับชัดเจน พร้อมระบุผู้รับผิดชอบ ลำดับการทำงาน และความสัมพันธ์ที่ต้องพึ่งพากัน
- ตรวจสอบเวลาการกู้คืนเทียบกับเกณฑ์ที่ตกลงกันไว้ แล้วปรับช่วงเวลาสำรองข้อมูล การทำซ้ำข้อมูล (replication) และระยะเวลาเก็บรักษา จนกว่าตัวเลขจะคงที่ตามเป้า
- ทดสอบความไม่สามารถแก้ไขได้ (immutability) และการกู้คืนจากแรนซัมแวร์ เพื่อให้วันที่เลวร้ายไม่กลายเป็นความสูญเสียทั้งหมด
- จัดทำเอกสารของสภาพแวดล้อม เพื่อให้ทีมของคุณกู้คืนได้เองโดยไม่ต้องโทรหาผม
02 · สิ่งที่คุณได้รับ
สิ่งที่เหลืออยู่กับคุณในตอนท้าย
- ระบบสำรองข้อมูลที่พิสูจน์แล้วว่ากู้คืนได้จริง พร้อมเวลาการกู้คืนที่จัดทำเป็นเอกสาร ซึ่งคุณนำไปแสดงต่อผู้บริหารหรือผู้ตรวจสอบได้
- ตัวเลข RTO และ RPO ที่ชัดเจนสำหรับแต่ละระบบ ตกลงกันไว้ล่วงหน้าและบรรลุได้จริงในการทดสอบ
- แผนการกู้คืนจากภัยพิบัติที่เป็นลายลักษณ์อักษร ซึ่งทีมของคุณทำตามได้เองโดยไม่ต้องโทรหาผม
- ความมั่นใจว่าแรนซัมแวร์หรือฮาร์ดแวร์เสียหมายถึงการกู้คืน ไม่ใช่การสร้างใหม่ตั้งแต่ต้น
03 · เครื่องมือและความรู้
สิ่งที่ผมใช้ในงานด้านนี้
04 · แนวทางการทำงานของผม
วางแผน กำหนดขอบเขต และรับผิดชอบจนจบ
เริ่มจากการพูดคุยกำหนดขอบเขตราว 30 นาที และผมส่งบทประเมินความเหมาะสมเป็นลายลักษณ์อักษรให้ภายในวันเดียวกัน เพื่อให้เราทั้งสองฝ่ายเข้าใจตรงกันว่าอะไรอยู่ในขอบเขตงาน และผลลัพธ์ที่ดีหน้าตาเป็นอย่างไร ก่อนจะแตะต้องสิ่งใดในระบบที่ใช้งานจริง ผมจะเขียนแผนการเปลี่ยนแปลงที่จัดทำเป็นเอกสารพร้อมแผนย้อนกลับ (rollback) ที่ระบุชัดเจนว่าตารางการป้องกัน ระยะเวลาเก็บรักษา และการทำซ้ำข้อมูลจะเปลี่ยนแปลงอย่างไร จากนั้นผมจึงดำเนินการเปลี่ยนแปลงภายในช่วงเวลาที่กำหนดไว้ ตรวจสอบการกู้คืนเทียบกับเกณฑ์ที่ตกลงกันด้วยการซ้อมกู้คืนจริง และรับผิดชอบการย้อนกลับเองหากเกณฑ์ใดไม่ผ่าน คุณจะได้ผลลัพธ์ที่ผ่านการทดสอบแล้ว ไม่ใช่ผลลัพธ์ที่ได้แต่หวัง
05 · คำถาม
คำถามที่ดี คำตอบที่ตรงไปตรงมา
คุณทำงานกับ Rubrik เท่านั้นหรือเปล่า
Rubrik คือเครื่องมือที่ผมรู้ลึกที่สุด จึงเป็นจุดที่ผมสร้างคุณค่าได้มากที่สุด แต่วิธีการ นั่นคือการกำหนดเป้าหมาย RTO และ RPO ที่เป็นจริงและพิสูจน์ด้วยการซ้อมกู้คืน ใช้ได้กับทุกแพลตฟอร์ม และหากเครื่องมืออื่นเหมาะกับสภาพแวดล้อมของคุณมากกว่า ผมจะบอกคุณตามตรง
การซ้อมกู้คืนคืออะไร และทำไมจึงสำคัญ
มันคือการกู้คืนจริง ผมนำระบบกลับมาจากข้อมูลสำรองและจับเวลา แทนที่จะเชื่อเพียงเพราะงานสำรองข้อมูลรายงานว่าสำเร็จ ข้อมูลสำรองที่คุณไม่เคยกู้คืนเลยก็เป็นแค่การคาดเดา การซ้อมกู้คืนเปลี่ยนมันให้กลายเป็นเวลาการกู้คืนที่รู้ค่าแน่นอน
คุณติดตั้งระบบนี้ได้โดยไม่กระทบระบบที่ใช้งานจริงไหม
ได้ การเปลี่ยนแปลงด้านการสำรองข้อมูลและ DR จะดำเนินการภายในช่วงเวลาที่กำหนดไว้ ตามแผนการเปลี่ยนแปลงที่จัดทำเป็นเอกสารพร้อมแผนย้อนกลับ การซ้อมกู้คืนจะทำกับสำเนาที่กู้คืนมาแล้ว ไม่ใช่ระบบที่ใช้งานจริงของคุณ ดังนั้นการทดสอบการกู้คืนจึงไม่ทำให้ระบบที่ใช้งานจริงเสี่ยง
06 · ประสบการณ์ที่เกี่ยวข้อง
งานในด้านใกล้เคียงที่ผมทำ
ต้องการให้ดูแลงานนี้ไหม
บอกผมว่าคุณกำลังพยายามย้ายอะไร และติดขัดตรงไหน แค่ไม่กี่ประโยคก็เริ่มได้แล้ว และข้อความจะส่งตรงถึงกล่องจดหมายของผม