SRE(Site Reliability Engineer)

ミッション

エムスリーが提供するサービス全般の信頼性を高め、スケーラビリティと高速なシステム・デリバリーを実現することで、ユーザーにより早く安定した価値を届ける。

担当事業、サービス

エムスリーが提供する事業・サービス全般。例)m3.com、MR君、AskDoctors

担当業務

エムスリーが提供するサービス全般の信頼性指標(SLI)を定義し、信頼性目標(SLO)を達成するための活動を推進することが主なミッションである。

  • サービス横断でSLIやエラーバジェットを管理する基盤システムの開発・構築
  • オンプレミスとクラウドに跨る監視システムの構築、改善
  • CI/CDプロセスやツールの改善。効率化、高速化や信頼性の向上
  • Webアプリケーションの負荷対策やパフォーマンスチューニング
  • トイル(〜単純で労働集約的な運用業務)の削減。運用の効率化や自動化
  • 開発・運用改善のためのソフトウェアの開発、検証、導入
  • サービス障害時の緊急対応
技術スタック

OS: Linux
クラウド: AWS, GCP
開発ツール: Git, GitLab, Jenkins
仮想化技術: Docker, KVM
開発言語: Java, Ruby, Node.js, Go, Perl, Bash
Webサーバ: Apache, Nginx
DB: Oracle, PostgreSQL, MySQL
KVS: Redis, Memcached
監視ツール:, Grafana, Prometheus, Nagios
ログ管理: Elasticsearch, Kibana, Fluentd
構成管理: Ansible, Terraform, Packer
アーキテクチャ: Microservices

チーム体制

エンジニアリング組織は全体で約65名です。その中で、SREチームは6名で活動しています。SLI/SLOはサービスに紐づくため、サービス側のエンジニアとも協力してSLIのモニタリングを行っています。定期的なミーティングも行い、SLOの達成状況を確認しています。

得られる経験・スキル
  • GitLabやJenkinsを用いたCI/CDの実践
  • Fluentdなどを使ったログ収集、管理の技術
  • KibanaやGrafana, CloudWatchなどによるシステム指標の可視化技術
  • AnsibleやTerraformを用いたInfrastructure as Codeの実践スキル
  • オンプレミスとパブリッククラウド両方に関わるシステム設計、構築、運用の経験
  • Microservicesシステムに対する監視や運用の技術
  • DockerやECSを用いたシステムの構成技術や運用ノウハウ
応募条件(必須)
  • Linuxシステムに対する基礎的な知識、理解
  • TCP/IPやHTTP通信の基礎知識
  • Webシステムのサーバサイドにおける開発、または運用の1年以上の実務経験
  • 何らかのプログラミング言語の1年以上の利用経験

下記いずれか:

  • Oracle, PostgreSQL, MySQLの経験
  • AWS, GCPなどクラウド上でのシステム設計、開発、運用の経験
  • Java, Ruby, Python製Webアプリケーションの開発や性能チューニングの経験
  • DockerやKubernetesを用いたシステム設計、開発、運用の経験
応募条件(できれば)
  • AnsibleやTerraformなどのツールによるInfrastructure as Codeの実施経験
  • Perl, Ruby, Goいずれかの言語でのライブラリ等の開発経験
  • Linuxシステムに対する深い理解
  • DBMSに対する深い理解