SRE

ミッション

エムスリーのインフラストラクチャー全体の生産性・可用性・コストパフォーマンスを向上することで、各サービスの価値提供をより促進する。

担当事業、サービス

特定の事業ではなく、エムスリーのインフラストラクチャーの全体の構築・運用・改善を担当します。

担当業務例
  • 権限付与・ACL 設定といった運用作業とその自動化・効率化
  • AWS, GCP, オンプレミス 全体のネットワークの可用性・コストパフォーマンス改善
  • 共通インフラ機能(メール送信, SAML 等)の運用、改善
  • オンプレミス → クラウド 移行に伴い発生する技術的諸課題の解決
  • RDBMS の可用性・運用課題への対処および根本解決
  • Microservice (> 数百 service)の可視化・安定化のための改善
  • 各プロダクトの設計に対するレビュー・助言
技術スタック
  • 環境: AWS, オンプレミス, GCP
  • OS: Linux
  • 仮想化・コンテナ技術: ECS, Docker Swarm, KVM
  • DB: 主に PostgreSQL, 一部で Oracle, MySQL
  • KVS: Redis, Memcached
  • 監視・ログ処理: CloudWatch, Grafana, Prometheus, Nagios, Elasticsearch, Kibana, Fluentd 等
  • 構成管理: Terraform, Ansible
チーム体制

弊社の成長し続ける事業は数百もの microservice によって支えられています。 SRE チーム(2020/04 現在 10 名弱)は全社的にそれらの開発・構築・運用を支える存在です。 また、垂直分業はしておらず、各自が自走するプロフェッショナルとして本質的な課題を解決することが期待されます。 構築・運用フェーズといったロールでの分離はなく、課題に対するアプローチの考案から実装・実現まで各自が担います。 加えて、得意分野やニーズを踏まえつつも、多様な技術・種類の課題に対して機動的に取り組みます。 プロダクト課題や SRE 発の課題を解決する上で、各プロダクトの開発チームと協業することも日常的にあります。

得られる経験・スキル
  • 大規模な microservice 環境における実践的な構築・運用・改善の経験・実績
  • AWS, オンプレミス, GCP のマルチクラウド環境に対する知見・スキル
  • 売上・機能規模の大きいサービスのオンプレミス → クラウド移行の経験
応募条件(必須)
  • Linux, Docker いずれもセットアップ・運用・課題解決できる能力
  • クラウドまたはオンプレミス環境にて何かしらのアプリケーションをデプロイ・運用・監視した経験
  • AWS または GCP の基礎知識
  • TCP/IP, HTTP, TLS の動作原理の理解と問題発生時の解決能力
  • いずれかのプログラム言語に対する基本的な読み書きとトラブルシュート能力
    なお、選考プロセスにおいてプログラミング能力を確認することがあります。
応募条件(できれば)
  • AWS, GCP におけるマルチアカウント・マルチクラウド環境の整備・運用経験
  • Terraform および Ansible によるインフラ構築・運用経験
  • Linux, 言語処理系レベルのトラブルシュート能力
  • ネットワーク(VLAN, 動的ルーティング)の構築・運用経験
  • オンプレミスのハードウエアや KVM の運用経験
  • PostgreSQL の高可用性構成の構築および無停止での DB 移行の実戦経験
  • Web サービスの SLI, SLO の定義および監視運用の実経験