Vraag Proxy voor een lokale mirror van S3-directory's


We hebben een kantoor dat een toenemende vraag heeft naar toegang tot grote bestanden vanuit onze eigen Amazon S3-directory's. Snel toegang hebben tot deze is belangrijk voor ons bedrijf, dus we denken dat het tijd is om kopieën van de bestanden ter plaatse te bewaren. Dit is niet mijn vakgebied, dus ik hoop op wat advies.

Een "normale" cache zal op zichzelf niet voldoende zijn, omdat we zelfs de eerste aanvraag voor een bepaald bestand willen versnellen. De AWS CLI heeft de mogelijkheid om een ​​lokale map gesynchroniseerd met S3 te houden, dus een idee is om die op een schema uit te voeren tijdens tijden met weinig verkeer, en vervolgens een proxy te configureren om die map als de cache te behandelen, als dat mogelijk is.

Een ander idee is om getverzoeken uit te voeren aan een caching proxy vanuit een script om de cache warm te houden, volgens een vergelijkbaar schema.

Een waarschuwing is dat de S3-items privé zijn, dus we ondertekenen hun URL's voordat we elk verzoek indienen. Dit betekent dat de proxy de lokale kopie moet kunnen leveren op basis van de URL Exclusief eventuele queryparameters. Beide URL's moeten bijvoorbeeld worden omgezet naar hetzelfde cachegeheugen / gespiegelde bestand:

  • https://example.com/asset1.txt?signature=1
  • https://example.com/asset1.txt?signature=2

De grootte van de cache bevindt zich in terabytes met één cijfer en verwerkt het verkeer voor ongeveer 300 actieve gebruikers.

Dus tenslotte, mijn vragen:

  • Is een van deze benaderingen gezond?
  • Kan iemand u aanbevelen om proxysoftware te configureren die op de manier is die wij nodig hebben?
  • Zijn er bronnen die ik kan raadplegen om hardwarevereisten voor deze belasting te bepalen?
  • Nog andere gedachten / suggesties?

7
2018-02-13 18:59


oorsprong


aws.amazon.com/storagegateway - ceejayoz
Dat is een interessant aanbod dat ik nog niet had gezien, @ceejayoz. Dank je. Het lijkt erop dat, als we dat zouden gebruiken, het de AWS CLI-synchronisatie zou vervangen in de eerste optie die ik noemde. Ik zal dat toevoegen aan onze lijst met opties. - Eric Simonton


antwoorden:


Als je alleen je lokale repository wilt synchroniseren met cloudgebaseerde objectopslag, zou ik Rclone of CloudBerry willen bekijken. Rclone heeft een opdrachtregelinterface om mappen en bestanden tussen de clouds te synchroniseren. Het werkt voor de meest populaire cloudopslag zoals Azure, AWS (zowel S3 als Glacier), etc. https://rclone.org/

Als u bovendien een back-up van alle gegevens in de cloud wilt maken, kunt u virtuele tapebibliotheek-back-ups maken met extra opslag naar de cloud. Dus als u een back-up van uw bestaande infrastructuur wilt maken, kunt u ransomware-bestendige back-ups maken met automatische offload naar de cloud. Het heeft dedupe en compressie, maar voor zover ik weet, geeft Starwind het nu gratis. https://www.starwindsoftware.com/starwind-virtual-tape-library 

Beide oplossingen zijn volwassen en betrouwbaar, u hoeft alleen de gewenste optie te kiezen. Ik hoop dat het nuttig was.


5
2018-05-15 10:23



U kunt ook de AWS S3-synchronisatie opdracht als alles wat u wilt doen, wordt gesynchroniseerd met behulp van een opdrachtregelinterface. Ik doe dat om een ​​kopie van een S3-bucket op mijn pc te maken. - Tim
Hoe zit het met iets als automatisering in AWS S3-synchronisatie? Kan ik synchronisatie plannen via de opdrachtprompt? - Stuka
Op mijn pc gebruik ik Windows Task Scheduler om een ​​batchbestand uit te voeren dat de synchronisatie van aws s3 uitvoert. Op Unix zou je cron gebruiken. - Tim


Afhankelijk van uw vereisten AWS Storage Gateway kan je voorzien van wat je nodig hebt. Storage Gateway is een AWS-aanbod dat wordt geïmplementeerd in uw lokale omgeving als een virtuele machine.

Er zijn twee smaken van Storage Gateway die onmiddellijk voor de geest komen als mogelijk geschikt:

  • File Gateway presenteert een S3-bucket als een NFS-mount en bevat transparante lokale caching.

  • Volume Gateway - Cached Volumes presenteert als een iSCSI-doel en omvat ook lokale caching van vaak gebruikte gegevens.

Er zijn enkele nadelen aan Storage Gateway:

  • Het is NIET ontworpen om multi-master-scenario's te ondersteunen, dus vergrendelingsmechanismen zijn geschikt voor de Storage Gateway (in plaats van de onderliggende S3-bucket). Van de twee zou een multi-master scenario meer geschikt zijn voor File Gateway omdat het a ondersteunt RefreshCache API oproep die de metadata in uw lokale VM bijwerkt met objecten die zijn toegevoegd / verwijderd / vervangen sinds de gateway als laatste de inhoud van de bucket heeft vermeld.

  • Volume Gateway biedt geen toegang tot de onderliggende S3-bucket. Dus terwijl File Gateway wordt ondersteund door een klantgestuurde S3-bucket, wordt Volume Gateway ondersteund door een AWS-gestuurde S3-bucket. Dit betekent dat u voor Volume Gateway de S3-bucket niet ziet in uw account en dat u geen toegang hebt tot de gegevens die erop staan ​​als een normaal S3-object. (Ik kan geen documentatie vinden die dit ondersteunt, maar ik weet zeker dat dit klopt)

Er zijn andere soorten opslaggateway waarover u meer kunt lezen hoe AWS Storage Gateway werkt.

Als je dit nog niet gebruikt Directe verbinding, dan wilt u misschien overwegen om het te gebruiken voor hoge bandbreedte, lage latentietoegang tot AWS-services. (Mijn gok is dat je hem al gebruikt gezien de hoeveelheid data die je noemde)

Bewerk 2018-05-21: Opslag Gateway Prijzen Met Storage Gateway betaalt u de onderliggende opslagruimte (grootte van gegevens + aanvragen) en gegevensoverdracht. Dat is het. Elke andere oplossing die S3 gebruikt voor opslag kost u hetzelfde.


-1
2018-04-30 06:52



AWS Gateway is te duur voor wat het IMHO doet. - NISMO1968
Als u niet wilt stemmen, geef me dan een korte opmerking met een toelichting, zodat ik het in de toekomst nog beter kan doen. Ook als het vanwege de prijs is, denk ik echt dat een van ons iets mist en als ik het ben die iets mist, leg het dan uit. Ik hoor en leer zoveel als al het andere. - Alex Hague