hadoopとは コンピュータの人気・最新記事を集めました - はてな (original) (raw)

(

コンピュータ

)

はどぅーぷ

Apacheプロジェクトが開発している大規模データを分散処理するオープンソースソフトウェアである。Googleが開発したGFS(Google File System)とMapReduceの論文がベースとなっている。

大規模データを分散処理するためのMapReduce、大規模データを保存するための分散ファイルシステムの2つのシステムから構成されている。

YahooやFacebook, Amazonなど多数の企業で採用されており、多数の実績を積んでいる。

名前の由来は,開発者の子供の黄色い象のぬいぐるみの名前らしい
http://weblogs.java.net/blog/tomwhite/archive/2006/02/hadoop.html

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

関連ブログ

MicroAd Developers Blog1年前

S3互換ストレージ Apache Ozoneについてはじめに マイクロアドのシステム開発部でインフラエンジニアをしているキガワです。現在マイクロアドではデータプラットフォーム事業を支える大規模な基盤(以下データ基盤)を移行計画中です。 現在のデータ基盤はHadoopエコシステムで実現されており、次期データ基盤ではコンピューティングとストレージを分離する構成を検討中です。 コンピューティング部分についてはマイクロアドで書かれた以前のブログ記事があるので、興味がある方はそちらをご覧ください。 ストレージ部分についてはS3互換のストレージ製品を検討しており、今回はその中で検証したApache Ozoneについて概要をご紹介します。 はじめに Apac…

#Apache Ozone#hadoop

ネットで話題

もっと見る

1895ブックマークNTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮shiumachi.hatenablog.com

818ブックマーク「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮shiumachi.hatenablog.com

756ブックマークいまさら聞けないHadoopとテキストマイニング入門atmarkit.itmedia.co.jp

520ブックマークHadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)techblog.yahoo.co.jp

470ブックマーク機械学習、どこから手を付ける? ~初期コストゼロで試せるBigInsightsで、Hadoop&Sparkのエコシステムをフル活用~ - はてなニュースhatenanews.com

442ブックマークグーグル発「Hadoop」、日本企業も利用へxtech.nikkei.com

405ブックマーククックパッドとHadoop - クックパッド開発者ブログtechlife.cookpad.com

404ブックマークHadoopの解析資料オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さ...preferred.jp

400ブックマーク『モバゲーの大規模データマイニング基盤におけるHadoop活用』-Hadoop Conference Japan 2011- #hcj2011www.slideshare.net

関連ブログ

やっさんメモ2年前

TiDBをHadoop管理者視点でデータ基盤としての使い所を考えてみるこの記事は MicroAd Advent Calendar 2022 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2022 の25日目の記事です。 今年のアドカレも最終日になりました。 とは言え、Distributed computing Advent Calendar 2022 の方はエントリが結構残ってるので、引き続き空いてる枠への参加をお待ちしてます! qiita.com qiita.com 今回は、Hadoopクラスタ管理者の視点で、データ基盤としてTiDBの使い所について考えてみ…

#アドカレ#データ基盤#TiDB#hadoop

おくみん公式ブログ2年前

TreasureData Tech Talk 2022で発表してきました #tdtechtalk先日行われたTreasure Dataのイベントにて登壇させていただきました。タイトルは『Hive Distributed Profiling System in Treasure Data』。

#hadoop#Java

やっさんメモ2年前

BigData向けワークロード(Spark/Flink)に適したKubernetesカスタムスケジューラ Apache YuniKorn についてこの記事は Distributed computing Advent Calendar 2022 の5日目の記事です1。 qiita.com 今回は、今年の5月にApache Software Foundation (ASF)のTop-Level Project (TLP)2になった Apache YuniKorn について紹介します。 yunikorn.apache.org YuniKornの概要 YuniKornの由来と読み方 なぜYuniKornが必要なのか? どこが使ってるのか? リリース状況 YuniKornの特徴 アプリを考慮したスケジューリング 階層型のリソースキュー ジョブオー…

#アドカレ#hadoop#データ基盤

t-matsu200のブログ【開発業務の備忘録】2年前

【Docker】コンテナ上にHadoop + Spark実行環境を構築する+ 案件でHadoopを扱う事になりそうなので、勉強のためにDockerコンテナでHadoop + Spark環境を構築してみました。擬似分散モードでの起動を想定しています。 ソースコードはgit hubに上げてあります。 github.com Hadoopのインストール 公式サイトからファイルをダウンロードする必要があります。 配布されているHadoopのバージョンは以下URLから確認できます。 ftp.kddilabs.jp Sparkのインストール Sparkも公式サイトからダウンロードします。 ダウンロードするHadoopのバージョンと同じ物をChoose a package type…

#hadoop#Spark#Docker

JBS Tech Blog2年前

Amazon EMR Serverlessをさわってみたはじめに 前提知識(Amazon EMR) Amazon EMR Serverlessとは? Amazon EMR Serverlessをさわってみた 事前準備 関連AWSリソースの準備 データの準備 クエリの準備 EMR ServerlessでHiveアプリケーションを作成して実行する EMRアプリケーションの作成 ジョブの実行 さいごに はじめに こんにちは!クラウドプラットフォーム部の土井です。 今年6月にAmazon EMR ServerlessがGAとなったので遅ればせながらですが、既存のAmazon EMRサービスとの違いにも簡単に触れつつ触ってみたいと思います。 前提知識(Ama…

#Amazon EMR#Amazon EMR Serverless

MicroAd Developers Blog3年前

CDH (Hadoop) 入門はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another R…

#インフラ#データ基盤

t-matsu200のブログ【開発業務の備忘録】3年前

【Python】PyWebHdfsでHDFSを操作するPythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…

#HDFS#hadoop#Python

やっさんメモ4年前

Cloudera Hue をCDHから切り離してDockerで運用出来ないか検討してみるqiita.com 1日遅れになってしまいましたが、、、 この記事は MicroAd (マイクロアド) Advent Calendar 2020 - Qiita の20日目の記事です。 昨日は dai08srhg - Qiita のEmbulkの話でした。 (´-`).。oO(EmbulkはHiveやHDFS系のプラグインがアップデートあると嬉しいなぁと思う今日この頃) qiita.com さて、本題ですが、今回はHueとDockerを使った話です。 Cloudera Hueは、 CDHに含まれているコンポーネントの一つ ですが、Hueは他のコンポーネントに比べて他のコンポーネントと協調して動…

#cdh#hadoop

やっさんメモ4年前

所属していないクラスタに対してDispCpやhdfs dfsを使う場合のTipsこの記事は Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020 の11日目の記事です。 qiita.com クラスタ間でHDFSファイルを移動したいというのは割とよくある話です。 そこでHDFSファイルを大量に移動する際は、DistCpを使うことになります。 ただ、移動元も移動先にも所属していないクライアントから通常DistCpは使えません(クラスタの設定情報がないので)。 設定をどうにかして渡せば、多分出来るだろうなぁと思いつつも「まぁ移動先のクラスタクライアントにSSHしたらいいか。」で…

#hadoop#distcp

肉球でキーボード1日前

GlueJobのicebergテーブル処理テストをローカルで実行するAWS Glue Jobによるicebergテーブル操作 AWS Glueではicebergテーブルフォーマットがサポートされています。 AWS Glue での Iceberg フレームワークの使用 - AWS Glue iceberg形式は大規模なデータセットを効率的に処理を行うことができる、データレイクに保存されてるデータ処理に向いたテーブル形式です。 iceberg形式の主要な特徴として以下が挙げられます Apache Iceberg - Apache Iceberg™ SQL操作 データの追加・更新・削除をSQLコマンドで実行可能 スキーマ進化 テーブルスキーマの柔軟な変更が可能 隠れ…

ts0818のブログ5日前

Dockerコンテナのログの扱いでFluentdを導入する手順を整理するwww.itmedia.co.jp 米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。 「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 - ITmedia NEWS この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表…

Python転職初心者向けエンジニアリングブログ14日前

代表的な大規模データセットのクエリエンジン:応用情報技術者試験(レベル3)シラバス(変更箇所)大規模データセットのクエリエンジンは、大量のデータに対して迅速かつ効率的にクエリを実行するためのシステムやソフトウェアのことを指します。これらのエンジンは、データの分析やレポーティング、リアルタイム処理などのニーズに応えるために設計されています。以下に、いくつかの代表的なクエリエンジン、機能、そしてその適用例について詳しく説明します。 代表的な大規模データセットのクエリエンジン Apache Hive 概要: Hiveは、Hadoopの上に構築されたデータウェアハウスシステムで、SQLライクなクエリ言語(HiveQL)を使用してHadoop上のデータを操作できます。 特徴: データをテーブル形…

Python転職初心者向けエンジニアリングブログ14日前

GlusterFSの主要機能:応用情報技術者試験(レベル3)シラバス(変更箇所)GlusterFSは、オープンソースの分散ファイルシステムで、大規模なストレージを効率的に管理・提供するためのソリューションです。GlusterFSは、スケーラブルで高可用性のファイルストレージを実現し、異なるストレージノードにデータを分散して保存します。この特性により、大量のデータを扱う環境やビッグデータアプリケーションでの使用に適しています。 GlusterFSの基本概念 分散ファイルシステム GlusterFSは、データを複数のノードに分散して保存することで、単一障害点を排除します。これにより、データの可用性と耐障害性が向上します。 ボリューム GlusterFSでは、データを保存する単…

Python転職初心者向けエンジニアリングブログ14日前

Cephの基本概念:応用情報技術者試験(レベル3)シラバス(変更箇所)Ceph(セフ)は、オープンソースの分散ストレージシステムで、スケーラブルで高可用性のストレージを提供することを目的としています。Cephは、オブジェクトストレージ、ブロックストレージ、ファイルシステムの機能を統合しており、様々なデータストレージのニーズに対応できる柔軟性を持っています。 Cephの基本概念 分散アーキテクチャ Cephは、複数のノードにデータを分散して保存します。これにより、単一障害点を排除し、データの可用性と耐障害性を高めます。 オブジェクトストレージ Cephは、オブジェクトストレージとしてデータを管理します。データはオブジェクトとして扱われ、それぞれにユニークなIDが付…

Python転職初心者向けエンジニアリングブログ14日前

HDFSの基本概念:応用情報技術者試験(レベル3)シラバス(変更箇所)Hadoop Distributed File System (HDFS)は、Apache Hadoopプロジェクトの一部として開発された、分散ファイルシステムです。HDFSは、ビッグデータのストレージと処理に特化して設計されており、大量のデータを効率的に管理・保存するための機能を提供します。以下に、HDFSの主要な特性や仕組みについて詳しく説明します。 HDFSの基本概念 分散ストレージ HDFSは、データを複数のサーバーに分散して保存します。このため、単一のノードに依存せず、データの冗長性と可用性を高めます。ファイルは複数のブロックに分割され、それぞれが異なるノードに保存されます。 ブロッ…

Python転職初心者向けエンジニアリングブログ14日前

ELT:応用情報技術者試験(レベル3)シラバス(変更箇所)ELT(Extract, Load, Transform)は、データ処理の手法の一つで、特にビッグデータやデータウェアハウスにおいて用いられます。ELTはデータを収集して保存した後、必要に応じてデータを変換するというアプローチを取ります。以下にELTの各ステップについて詳しく説明します。 ELTのプロセス Extract(抽出) データをさまざまなソース(データベース、API、ログファイル、スプレッドシートなど)から抽出します。この段階では、データをそのままの状態で取得し、後で使用するために一時的なストレージやデータウェアハウスに保存します。 Load(ロード) 抽出したデータを目的のストレー…

JBS Tech Blog17日前

パブリックアクセスを制限したAzure HDInsightの構成についてAzure HDInsightは、パブリックネットワークからのアクセス許可を前提とした構成が既定の構成とされています。一方で、実運用では外部からインターネット経由での通信を許可せず、プライベート通信に限定するようなケースも存在するかと思います。今回は、Azure HDInsightへのインバウンド通信をプライベートネットワークに限定する場合の、リソース構成について説明します。 Azure HDInsightの構成 Inboundの場合 Outboundの場合 Outbound選択時の通信について 留意点 検証 事前準備 HDInsightクラスター作成 プライベートDNSゾーン作成 「<HDI…

流沙河鎮19日前

Current 2024「DebeziumとKafka ConnectによってSlackは如何にしてCDCへ移行したか」まとめCurrent 2024 のセッション「Change Data Capture & Kafka How Slack Transitioned to CDC with Debezium & Kafka Connect」を日本語でまとめます。 可能な限り正確に内容を拾えるようにリスニングに努めたつもりですが、もし誤りがあればご指摘ください。 Current とは? Leveraging Iceberg Puffin Files to Accelerate Queries スピーカー セッションまとめ Viteess から Debezium, Kafka までのアーキテクチャ Debezium 運用…

qyr12’s diary21日前

Hadoop-as-a-Service (HaaS)調査レポート:市場規模、シェア、動向、予測2024-2030「GlobalInfoResearch」グローバル市場調査レポート出版社であるGlobaI Info Researchがリリースされました「Hadoop-as-a-Service (HaaS)の世界市場2024年:メーカー、地域別、タイプ、用途別、2030年までの予測」レポートには、世界市場、主要地域、主要国におけるHadoop-as-a-Service (HaaS)の販売量と販売収益を調査しています。同時に、Hadoop-as-a-Service (HaaS)の世界主要メーカー(ブランド)、市場シェア、売上、価格、収入、および収入の競争状況にも焦点を当てています。日本語タイトル:Hadoop-as-a-Service (HaaS)…

qyresearch-newsの日記22日前

世界のビッグデータ分析と分散コンピューティング市場調査:産業動向、シェア、市場規模、予測の分析レポート20242024年9月26日に、QYResearchは「ビッグデータ分析と分散コンピューティング―グローバル市場シェアとランキング、全体の売上と需要予測、2024~2030」の調査資料を発表しました。本レポートは、ビッグデータ分析と分散コンピューティングの世界市場について分析し、主な売上、動向、市場規模、主要企業の市場シェアとランキングに焦点を当てています。また、地域別、国別、製品タイプ別、用途別の分析も行っています。ビッグデータ分析と分散コンピューティングの市場規模を2019年から2030年までの売上に基づいて推計と予測しています。定量分析と定性分析の両方を提供することで、企業がビジネス成長戦略を策…

ネットワールド らぼ23日前

AWS Athena : ELBアクセスログのクエリ方法こんにちは!ネットワールド西日本技術部の小川です。今回は、AWSのElastic Load Balancing (ELB)アクセスログを AWS Athena を利用してログを見やすく方法を紹介します。 S3バケットの作成 ELBのアクセスログ設定 S3 URI のコピー AWS Athena 設定 ログのフィルタリング方法 S3バケットの作成 アクセスログを保管するS3バケットを作成します。 S3バケット作成前に、コンソール画面がELB と同じリージョンであることを確認します。(※ELBは同じリージョンのS3バケットにアクセスログを出力します。) S3 を検索して、[S3]をクリックします。…

たけぞう瀕死ブログ1ヶ月前

Trino 458リリースノート日本語訳予想はしていましたが、やはりこの頻度はまあまあきつい…。あと細かい改善やリファクタリング、バグ修正などはリリースノートに載らないのでcoreや使っているコネクタだけでもコミットログまでちゃんと見ないとダメかも。 原文はこちら: https://trino.io/docs/current/release/release-458.html General 冗長なDISTINCTを含むクエリのパフォーマンスを改善(入力がすでにAggregateされている場合に不要なDISTNCTを削除する最適化が追加された) (#23087) JDBC OpenTelemetryトレーシングをサポート (#2345…

Coincheck Tech Blog1ヶ月前

わずか数名と数ヶ月で実現した、金融機関のデータ基盤リプレイスとデータドリブンな組織への貢献コインチェック株式会社(以下、コインチェック) データ基盤グループの岩瀬です。今回は、暗号資産交換業者であるコインチェックで実施したデータ基盤のリプレイス事例と、そこから連続するデータ基盤拡充の取り組み、データドリブンな組織への貢献についてご紹介します。 TL; DR 暗号資産取引所を運営するコインチェックでは、運用されていたデータ基盤を、限られた技術リソースと短期限でモダンにリプレイスし、結果 インフラコスト90%削減 を実現しました。 Treasure Data で構築されていたデータ基盤の移行先として Google Cloud を選定し、3ヶ月で既存と同等のシステムを構築 して並列運用を…

WWY719のブログ1ヶ月前

Azure HDInsight のチュートリアルについてこんばんは。 本日は Azure HDInsight のお話です。 Azure HDInsight って、ものすごく高価なリソースなので、個人で作成したり、検証したりすることは難しいんですよね。 なので、見聞きしただけのことでも、書いておこうかと思います。 HDInsight とか、Databricks もそうなんですが、基本的に Azure のリソースは Microsoft Learn という公式サイトにその仕様や使い方が記載されています。 そこには、チュートリアルと称して、実際のリソースを使用して、特定の動作をさせるための手順が記載されたページが存在します。 特定のシナリオしかサポートされ…