Veri Ambarı ve Veri Rafı ve Veri Gölü
Veri gölü ve veri ambarı terimleri çoğu zaman karıştırılır ve zaman zaman birbirinin yerine kullanılır. Aslında her ikisi de büyük veri kümelerini depolamak için kullanılsa da, veri gölleri ve veri ambarları farklıdır (ve tamamlayıcı olabilirler).
- Veri Gölü - yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış her türlü veriyi içerebilen büyük bir veri havuzudur.
- Veri ambarı - belirli bir amaç için zaten işlenmiş yapılandırılmış, filtrelenmiş veriler için bir depodur. Başka bir deyişle, veri ambarı iyi organize edilmiş ve iyi tanımlanmış veriler içerir.
- Veri rafı - tedarik zinciri yönetimi uygulaması gibi belirli bir amaç için belirli bir kurumsal iş birimi tarafından kullanılan bir veri ambarı alt kümesidir.
Veri gölü teriminin yaratıcısı James Dixon, farklılıkları benzetme yoluyla açıklar: "Bir veri rafını şişelenmiş su deposu olarak düşünürsek - temizlenmiş, paketlenmiş ve kolay tüketim için yapılandırılmış - veri gölü daha doğal bir haldeki büyük bir su kütlesidir. Veri gölünün içeriği bir kaynaktan akarak gölü doldurur ve gölün çeşitli kullanıcıları incelemeye, dalmaya veya numune almaya gelebilir."
Veri gölü, bir veri ambarıyla birlikte kullanılabilir. Örneğin, bir veri gölünü veri ambarı için bir iniş ve hazırlama deposu olarak kullanabilirsiniz. Veri gölünü, bir veri ambarına veya diğer veri yapılarına beslemeden önce verileri seçmek veya temizlemek için kullanabilirsiniz.
Kürate edilmemiş veri gölleri, verilere yönetişim veya kalite kararları uygulanmadığında veri bataklığına dönüşme riskiyle karşı karşıya kalır; bu durum, toplanan verilerden alınan kararların geçerliliğine güvenmeyi zorlaştıran şekilde karışık kaliteli verilerin bir araya getirilmesiyle veri toplamanın değerini önemli ölçüde düşürür.
Aşağıdaki diyagram tipik bir veri gölü teknoloji yığınını temsil etmektedir. Veri gölü; ölçeklenebilir depolama ve işlem kaynakları; verileri yönetmek için veri işleme araçları; veri bilimciler, iş kullanıcıları ve teknik personel için analitik ve raporlama araçları; ve ortak veri yönetişimi, güvenlik ve operasyon sistemlerini içerir.
Bir veri gölünü kurumsal bir veri merkezinde veya bulutta uygulayabilirsiniz. Erken benimseyenlerin çoğu veri göllerini şirket içinde dağıttı. Veri gölleri yaygınlaştıkça, ana akım benimseyenlerin birçoğu değer elde etme süresini hızlandırmak, toplam sahip olma maliyetini azaltmak ve iş çevikliğini iyileştirmek için bulut tabanlı veri göllerine yönelmektedir.
Şirket İçi Veri Gölleri CAPEX ve OPEX Yoğundur
Ticari sunucular ve yerel (dahili) depolama kullanarak bir kurumsal veri merkezinde veri gölü uygulayabilirsiniz. Günümüzde şirket içi veri göllerinin çoğu, popüler bir yüksek performanslı bilgi işlem çerçevesi olan Hadoop'un ticari veya açık kaynaklı bir sürümünü veri platformu olarak kullanmaktadır.
Büyük veri kümelerini depolayıp işleyebilen ölçeklenebilir ve dayanıklı bir Hadoop kümesi oluşturmak için yüzlerce veya binlerce sunucuyu bir araya getirebilirsiniz. Aşağıdaki diyagram, Apache Hadoop üzerindeki şirket içi veri gölü için bir teknoloji yığınını göstermektedir.
Teknoloji yığını şunları içerir:
-
Hadoop MapReduce:
Büyük ticari donanım kümelerinde büyük miktarda veriyi güvenilir ve hata toleranslı bir şekilde paralel olarak işleyen uygulamalar yazmayı kolaylaştıran bir yazılım çerçevesi.
-
Hadoop YARN:
İş planlama ve küme kaynak yönetimi için bir çerçeve.
-
Hadoop Dağıtık Dosya Sistemi (HDFS):
Ucuz dahili disk sürücüleriyle düşük maliyetli sunucularda çalışmak için özel olarak tasarlanmış yüksek performanslı bir dosya sistemi.
Şirket içi veri gölleri yüksek performans ve güçlü güvenlik sağlar, ancak bunların dağıtımı, yönetimi, bakımı ve ölçeklendirilmesi oldukça pahalı ve karmaşıktır. Şirket içi veri gölünün dezavantajları şunlardır:
Uzun süreli kurulum
Kendi veri gölünüzü oluşturmak önemli zaman, çaba ve para gerektirir. Sistemi tasarlamanız ve mimarisini oluşturmanız; güvenlik ve idari sistemleri tanımlamanız ve uygulamanız; işlem, depolama ve ağ altyapısını temin etmeniz, kurmanız ve test etmeniz; ve tüm yazılım bileşenlerini belirlemeniz, kurmanız ve yapılandırmanız gerekir.
Yüksek CAPEX
Önemli miktarda ön ekipman harcamaları, kötü yatırım getirisi ve uzun geri ödeme süreleriyle dengesiz iş modelleriyle sonuçlanır. Sunucular, diskler ve ağ altyapısının tamamı, en yüksek trafik taleplerini ve gelecekteki kapasite gereksinimlerini karşılamak için aşırı mühendislik edilmiştir; bu nedenle her zaman boşta kalan işlem kaynakları ve kullanılmayan depolama ve ağ kapasitesi için ödeme yaparsınız.
Yüksek OPEX
Yinelenen güç, soğutma ve raf alanı giderleri; aylık donanım bakımı ve yazılım destek ücretleri; ve sürekli donanım yönetimi maliyetleri yüksek ekipman işletme giderlerine yol açar.
Yüksek risk
İş sürekliliğinin sağlanması (canlı verilerin ikincil bir veri merkezine kopyalanması), çoğu işletmenin ulaşamayacağı maliyetli bir önerimdir. Birçok işletme verileri bant veya diske yedekler. Bir felaket durumunda sistemleri yeniden oluşturmak ve operasyonları geri yüklemek günler veya haftalar alabilir.
Karmaşık sistem yönetimi
Şirket içi veri gölü işletmek, değerli (ve pahalı) BT personelini daha stratejik girişimlerden uzaklaştıran kaynak yoğun bir önerimdir.
Bulut Veri Gölleri Ekipman Maliyetini ve Karmaşıklığını Ortadan Kaldırır
Ekipman giderlerinden ve güçlüklerden kaçınmak ve büyük veri girişimlerini hızlandırmak için bir genel bulutta veri gölü uygulayabilirsiniz. Bulut tabanlı veri gölünün genel avantajları şunlardır:
Hızlı değer elde etme süresi
Altyapı tasarım çabalarını ve donanım tedariki, kurulum ve devreye alma görevlerini ortadan kaldırarak dağıtım sürelerini aylardan haftaya indirebilirsiniz.
CAPEX yok
Ön sermaye harcamalarından kaçınabilir, giderleri iş gereksinimleriyle daha iyi hizalayabilir ve sermaye bütçesini diğer programlar için serbest bırakabilirsiniz.
Ekipman işletme gideri yok
Sürekli ekipman işletme giderlerini (güç, soğutma, gayrimenkul), yıllık donanım bakım ücretlerini ve yinelenen sistem yönetimi maliyetlerini ortadan kaldırabilirsiniz.
Anlık ve sınırsız ölçeklenebilirlik
Hızla gelişen iş gereksinimlerini karşılamak ve müşteri memnuniyetini iyileştirmek için talep üzerine işlem ve depolama kapasitesi ekleyebilirsiniz.
Bağımsız ölçeklendirme
Dahili depolamaya sahip sunuculara dayanan şirket içi Hadoop uygulamasından farklı olarak, bulut uygulamasıyla maliyetleri optimize etmek ve kaynakları maksimum düzeyde kullanmak için işlem ve depolama kapasitesini bağımsız olarak ölçeklendirebilirsiniz.
Daha düşük risk
Bir felaket durumunda dayanıklılığı artırmak ve sürekli erişilebilirliği sağlamak için verileri bölgeler arasında çoğaltabilirsiniz.
Basitleştirilmiş operasyonlar
BT personelini işi destekleyen stratejik görevlere odaklanmaları için serbest bırakabilirsiniz (bulut sağlayıcı fiziksel altyapıyı yönetir).
Birinci Nesil Bulut Depolama Hizmetleri Veri Gölleri İçin Çok Maliyetli ve Karmaşıktır
Şirket içi veri gölüyle karşılaştırıldığında, bulut tabanlı veri gölü dağıtımı, ölçeklendirilmesi ve işletilmesi çok daha kolay ve daha az maliyetlidir. Bununla birlikte, AWS S3, Microsoft Azure Blob Storage ve Google Cloud Platform Storage gibi birinci nesil bulut nesne depolama hizmetleri doğası gereği maliyetlidir ve karmaşıktır. Birçok işletme, veri gölü girişimleri için daha basit ve daha uygun fiyatlı depolama hizmetleri aramaktadır.
Pahalı ve kafa karıştırıcı hizmet katmanları
Eski bulut satıcıları birkaç farklı türde (katman) depolama hizmeti satar. Her katman, farklı bir amaç için tasarlanmıştır; örneğin etkin veriler için birincil depolama, felaket kurtarma için etkin arşiv depolama veya uzun vadeli veri saklama için etkin olmayan arşiv depolama. Her birinin benzersiz performans ve dayanıklılık özellikleri, SLA'ları ve fiyatlandırma programları vardır. Birden fazla fiyatlandırma değişkeniyle karmaşık ücret yapıları, bilinçli seçimler yapmayı, maliyetleri öngörmeyi ve bütçeleri yönetmeyi zorlaştırır.
Satıcıya bağımlılık
Her hizmet sağlayıcı benzersiz bir API destekler. Hizmetleri değiştirmek maliyetli ve zaman alıcı bir önerimdir; mevcut depolama yönetim araçlarınızı ve uygulamalarınızı yeniden yazmanız veya değiştirmeniz gerekir. Dahası, eski satıcılar verilerinizi bulutlarından dışarı taşımak için aşırı veri aktarımı (çıkış) ücretleri uygular; bu da sağlayıcıları değiştirmeyi veya farklı sağlayıcılardan yararlanmayı pahalı hale getirir.
Katmanlı Depolama Hizmetlerinden Kaçının
Birinci nesil bulut depolama sağlayıcıları kafa karıştırıcı katmanlı depolama hizmetleri sunar. Her depolama katmanı belirli bir veri türü için tasarlanmıştır ve kendine özgü performans özellikleri, SLA'lar ve fiyatlandırma planları (karmaşık ücret yapılarıyla) bulunur.
Her satıcının portföyü biraz farklı olsa da bu katmanlı hizmetler genellikle üç farklı veri sınıfı için optimize edilmiştir.
Etkin Veri
İşletim sistemi, bir uygulama veya kullanıcılar tarafından kolayca erişilebilen canlı veri. Etkin veri sık sık erişilir ve katı okuma/yazma performansı gereksinimleri vardır.
Etkin Arşiv
Zaman zaman erişilen ve anında çevrimiçi olarak kullanılabilen veriler (çevrimdışı veya uzak bir kaynaktan geri yüklenmez). Örnekler arasında hızlı felaket kurtarma için yedek veriler veya kısa sürede erişilebilen büyük video dosyaları sayılabilir.
Etkin Olmayan Arşiv
Nadiren erişilen veriler. Örnekler arasında yasal uyumluluk için uzun vadeli saklanan veriler sayılabilir. Tarihsel olarak etkin olmayan veriler banda arşivlenir ve tesis dışında depolanır.
Belirli bir uygulama için en iyi depolama sınıfını (ve en iyi değeri) belirlemek, eski bir bulut depolama sağlayıcısıyla gerçek bir zorluk olabilir. IDrive® e2'de bulut depolamanın basit olması gerektiğine inanıyoruz. Kafa karıştırıcı depolama katmanları ve karmaşık fiyatlandırma planlarıyla eski bulut depolama hizmetlerinin aksine, herhangi bir bulut depolama gereksinimini karşılayan tek bir ürün sunuyoruz; öngörülebilir, uygun fiyatlı ve basit fiyatlandırmayla.
Veri Gölleri İçin IDrive® e2 Sıcak Bulut Depolama
IDrive® e2 sıcak bulut depolama, herhangi bir amaç için son derece ekonomik, hızlı ve güvenilir bulut nesne depolamadır. Kafa karıştırıcı depolama katmanları ve karmaşık fiyatlandırma planlarıyla birinci nesil bulut depolama hizmetlerinden farklı olarak IDrive® e2'yi anlamak ve ölçeklendirmek son derece uygun maliyetlidir.
IDrive® e2'nin veri gölleri için temel avantajları şunlardır:
Emtia fiyatlandırması
IDrive® e2 sıcak bulut depolama, düz $0,004/GB/ay maliyetiyle sunulmaktadır. Amazon S3 Standard için $0,023/GB/ay, Google Multi-Regional için $0,026/GB/ay ve Azure RA-GRS Hot için $0,046/GB/ay ile karşılaştırın.
AWS, Microsoft Azure ve Google Cloud Platform'dan farklı olarak depodan veri almak için ekstra ücret (çıkış ücreti) almıyoruz. Ayrıca API çağrıları için ekstra ücret almıyoruz.
Üstün performans
IDrive® e2'nin paralel sistem mimarisi, önemli ölçüde daha hızlı ilk bayta ulaşma süreleriyle birinci nesil bulut depolama hizmetlerinden daha hızlı okuma/yazma performansı sunar.
Güçlü veri dayanıklılığı ve koruması
IDrive® e2 sıcak bulut depolama, aşırı veri dayanıklılığı, bütünlüğü ve güvenliği sağlamak için tasarlanmıştır. İsteğe bağlı veri değiştirilemezliği özelliği kazara silmeleri ve idari hataları önler; kötü amaçlı yazılım, hata ve virüslere karşı koruma sağlar; ve yasal uyumluluğu iyileştirir.
Apache Hadoop Veri Gölleri İçin IDrive® e2 Sıcak Bulut Depolama
Veri gölünüzü Apache Hadoop üzerinde çalıştırıyorsanız, aşağıdaki diyagramda gösterildiği gibi IDrive® e2 sıcak bulut depolamayı HDFS'e uygun fiyatlı bir alternatif olarak kullanabilirsiniz. IDrive® e2 sıcak bulut depolama, AWS S3 API ile tamamen uyumludur.
Seçim özgürlüğünü artırmak ve satıcıya bağımlılıktan kaçınmak için IDrive® e2 sıcak bulut depolamayı çok bulutlu veri gölü uygulamasının bir parçası olarak kullanabilirsiniz. Çok bulutlu yaklaşım, en iyi sağlayıcıları kullanarak veri gölü işlem ve depolama kaynaklarını bağımsız olarak ölçeklendirmenizi sağlar.
Ayrıca özel bulutunuzu doğrudan IDrive® e2'ye bağlayabilirsiniz. Birinci nesil bulut depolama sağlayıcılarından farklı olarak, IDrive® e2 ile asla veri aktarımı (çıkış) ücreti ödemezsiniz. Başka bir deyişle, verileri IDrive® e2'den serbestçe taşıyabilirsiniz.
Ekonomik İş Sürekliliği ve Felaket Kurtarma
IDrive® e2, dayanıklılık ve yüksek erişilebilirlik için birden fazla coğrafi olarak dağıtılmış veri merkezinde barındırılmaktadır. Aşağıda gösterildiği gibi iş sürekliliği, felaket kurtarma ve veri koruması için verileri IDrive® e2 bölgeleri arasında çoğaltabilirsiniz.
Örneğin, üç farklı IDrive® e2 veri merkezinde (bölgede) verileri şu şekilde çoğaltabilirsiniz:
- Etkin veri depolaması için IDrive® e2 Veri Merkezi 1 (birincil depolama).
- Yedekleme ve kurtarma için etkin arşiv olarak IDrive® e2 Veri Merkezi 2 (Veri Merkezi 1'e erişilemez durumda ise sıcak yedek).
- Değiştirilemez veri deposu olarak IDrive® e2 Veri Merkezi 3 (idari hatalar, kazara silme ve fidye yazılımına karşı verileri korumak için). Değiştirilemez bir veri nesnesi, IDrive® e2 dahil hiç kimse tarafından silinemez veya değiştirilemez.