การเก็บข้อมูลอะค่ะ จำเป็นต้องโดนตัดแบ่งใน several disks ในพาลาเรล
- high data transfer rate: large data access (heavy I/O op.)
- high I/O rate: small but frequent data accesses (light I/O op.)
- load balancing: across the disks
2 technique — data strip : performance , — redundancy : reliability
Raid 0 คือเรามีกระดาษยาว10 เมตร เราแบ่งให้เพื่อนคนละอัน ข้อดีคือโปรเซสเร็วแต่ถ้าหายแล้วคือหายเลย
Raid 1 คือเรามีกระดาษทั้งหมด 10 แผ่นให้เพื่อนซีร้อคสิบชุดแล้วเอาไปเก็บ ข้อดีคือข้อมูลไม่หายแต่โปรเซสช้า
ดังนั้นเลยมี Raid 0+1 คือให้เรด0แบ่งเป็นสองชุด
Raid 1+0 คือให้เรด1 แบ่งเป็นหลายๆบล้อคข้อเสียคือถ้าเจ๊งหนึ่งอันเจ๊งหมด
Raid 2 เกิดเพราะว่าถ้าอันไหนเจ๊งเราจำไม่ได้ ถูกกว่าmirroring แต่แพง และยังมีพวก overlap dataอีกด้วย พอเจ๊งอันนึงมันจะไม่ consistent กัน ตัว valueที่ผิดจะบอกว่าดิสก์ไหนเสีย
Raid 3,4,5 จะเพิ่มredundancy ขึ้นๆ เรียกว่า parity
Raid 3 จะคล้ายกับเรด0 แต่เพิ่ม parity ขึ้นมา มันจะอ่านหมด เขียนหมดแต่จะขอรีเควสได้แค่หนึ่งครั้งใช้ในวิดิโอ
Raid 4 — no longer use
Raid 5 — ช้า แบ่งเป็นแต่ละอันเซฟไว้แยกๆกัน ในแต่ละด้านในของดิสก์ดังนั้นจะโปรเซสช้า เช่นในดิสก์4จะเซฟ 1–4ไว้ด้วย
raid 3,4,5 จะเจ๊งได้แค่ครั้งเดียวไม่งั้นจะกู้คืนข้อมูลไม่ได้
Raid 6 — คล้ายเรดห้าแต่ว่า fault tolerance มากกว่าเพราะเซฟของraid 5 เพิ่มมาตัวนึง ข้อเสียคือถ้าดิสมันน้อยจะไม่มีประสิทธิภาพ
Galios Fields = เกิดจากการที่ parities ถูกมีตัวเลขที่ไม่คงที่ มันจะใช้ 4 operation ในการคำนวนซึ่งจะใช้ในกระบวนการ hardware XORs ,shift registers
MTTF = Mean Time To Failure เวลาที่มันจะเจ๊ง
MTTR = เวลาที่จะซ่อม
MTTDL = เวลาที่ดาต้าจะหาย
สูตรคือ MTTDL = MTTF/n
STORAGE System
Requirement — Reliability = no data loss, Available = 24/7, Manageability = be retrieved effieciently, Scalability = expansions
Nodes can be decoupled from storage nodes
DAS = Direct attached storage (host-centric)
SAN = Storage Area Network (network-centric)
DAS — limited scalability, complex manageability, limited performance, file sharing must be used. มันคือ external drive/ USB/eSATA (SAS — Serial Attached SCSI)
NAS — file-based data storage sevice ex. NFS/SMB/CIFS/SAMBA in the Raid มี ip address เอง และ good scalability จะมอง OS เป็น file server สามารถ map network และแชร์ในเซฟเวอร์ มักจะอยุ่ในรูปแบบ low-volume access to a large amount of storage by many users
SAN — Storage Area Network (client orientedในรูปแบบของดิสก์) แล้วฟอแมทเป็นรูปแบบของไฟล์ petabytes of storage and multiple simultaneous such as audio/video streaming
TCP/IP มีโอเวอเฮดเยอะ การจะลดได้คือ specific protocol และ increase performance ใช้ Fibre channel
มีแบบ SAN+NAS head ด้วยนะโดยใช้ SAN disks ผ่านStandard Ethernet โดยใช้ appliance ที่เรียกว่า NAS head
Storage virtualiztion เช่น Dropbox/iclound สามารถทำกับ1.โฮสได้ผ่าน logical volume management for logical view2. Switch-based สามารถทำได้กับ san switches ในแต่ละเซฟจะถูกเซฟใน logical unit number ข้อเสียคือแพง ข้อดีคือเก็บข้อมูลได้เยอะ redundancyด้วย
Data ถูกเก็บไวใน distributed system เรียก Data as a service(DaaS) มีหลากหลายก้อปปี้ และไม่มีโอเวอเฮดคือฮาร์ดแวร์ถูกรักษาไว้ให้กับ provider มีความเป็น high performance, CDN style delivery, performance ที่ถูกใช้โดยอินเตอร์เน็ตจะทำให้ latency ช้ากว่า SAN, adaptable, Pay per use,Flexible (amazonS3) and duplicated only one copy ส่วนข้อเสียคือถูกเก็บใน third pary machine ซึ่งอาจเก็บไว้ในตปทที่กดหมายต่างกัน และก็ confidentiality.
CEPH = free software storage platform ที่จะเก็บดาต้าไว้ในหนึ่ง distributed computer cluster, provide interfaces for object, block, file level ส่วนเป้าหมายหลักของมันคือ ไว้ completely distribute, no single failure สามารถทำ replicate (raid 1)หรือerasuring coding (raid 3–6)