了解HBase
HBase快速入門
1. 快速啟動HBase
Apache HBase配置
1. Apache HBase配置文件
2. HBase基礎條件
3. HBase運行模式
4. 開始運行HBase
5. HBase默認配置
6. HBase配置示例
7. HBase重要配置
8. HBase動態(tài)配置
升級HBase
1. HBase版本號和兼容性
2. HBase回滾：版本恢復
3. HBase升級路徑
HBase Shell
1. 使用Apache HBase Shell
2. HBase shell 技巧
HBase數據模型
1. HBase概念視圖
2. HBase物理視圖
3. HBase命名空間
4. HBase表、行與列族
5. HBase數據模型操作
6. HBase版本
7. HBase排序順序、列元數據以及聯合查詢
HBase和Schema設計
1. HBase模式(Schema) 創(chuàng)建
2. HBase表格模式經驗法則
Thumb的RegionServer大小規(guī)則
1. HBase列族數量
2. Rowkey（行鍵）設計
3. HBase版本數量
4. HBase支持的數據類型
5. HBase生存時間（TTL）
6. 保留已刪除的HBase單元格
7. HBase二級索引和備用查詢路徑
8. HBase限制因素
9. HBase模式（Schema）設計案例
10. HBase操作和性能配置選項
11. HBase特殊情況
HBase和MapReduce
1. HBase、MapReduce和CLASSPATH
2. MapReduce掃描緩存
3. 捆綁HBase MapReduce作業(yè)
4. HBase作為MapReduce作業(yè)數據源和數據接收器
5. 在批量導入時直接寫入HFiles
6. RowCounter示例
7. Map-Task分割
8. HBase MapReduce示例
Apache HBase安全
1. 為Web UI使用安全HTTP（HTTPS）
2. 將SPNEGO用于Web UI的Kerberos身份驗證
3. 客戶端安全訪問Apache HBase
4. 用戶訪問Apache HBase的簡單方法
5. 安全訪問HDFS和ZooKeeper
6. HBase數據安全
7. HBase安全配置示例
HBase架構
1. HBase架構概述
2. HBase目錄表
3. HBase客戶端
4. HBase客戶端請求過濾器
5. HBase架構：Master
HBase架構：RegionServer
1. RegionServer接口、進程與協(xié)處理器
2. HBase塊緩存
3. RegionServer Offheap讀/寫路徑
4. RegionServer拆分實現
HBase使用Write Ahead Log（WAL）
1. HBase使用WAL的目的
2. HBase：WAL供應方
3. HBase：MultiWAL支持
4. HBase：WAL拆分
5. HBase：WAL壓縮
6. WAL耐久性
7. HBase：禁用WAL
HBase區(qū)域
1. HBase區(qū)域數量
2. HBase區(qū)域服務器分配
3. HBase區(qū)域服務器位置
4. HBase區(qū)域拆分
5. HBase自定義拆分策略
6. HBase手動拆分區(qū)域
7. HBase在線區(qū)域合并
Store
1. MEMSTORE
2. Scans
3. HBase使用StoreFile（HFile）
4. 塊和KeyValue
HBase批量加載
1. HBase批量加載架構
2. HDFS
HBase：Timeline-consistent高可用讀取
1. HBase時間軸一致性（Timeline Consistency）
2. HBase時間軸一致性的權衡取舍
3. HBase時間軸一致性：將寫入傳播到區(qū)域副本
4. HBase時間軸一致性：存儲文件TTL
5. HBase時間軸一致性：META表區(qū)域的區(qū)域復制
6. HBase時間軸一致性：內存報告
7. HBase時間軸一致性：輔助副本故障切換
8. HBase時間軸一致性：配置屬性
9. HBase時間軸一致性：創(chuàng)建具有區(qū)域復制的表
10. HBase時間軸一致性：讀取API和用法
HBase：存儲中型對象（MOB）
1. HBase：為MOB配置列
2. HBase：配置MOB壓縮策略
3. HBase：配置MOB壓縮可合并閾值
4. HBase：測試MOB
5. HBase：配置MOB緩存
HBase：MOB優(yōu)化任務
HBase內存壓縮
啟用HBase內存壓縮
HBase備份與還原
1. HBase備份與還原策略
2. HBase備份與還原的首次配置
3. HBase備份和還原命令
4. HBase備份圖像管理
HBase同步復制
Apache HBase API
Apache HBase外部API
1. HBase：REST服務器
2. 將Java數據對象（JDO）與HBase一起使用
3. HBase與Scala一起使用
4. HBase與Jython一起使用
HBase：Thrift API和過濾器語言
1. HBase：常規(guī)過濾字符串語法
2. HBase：復合過濾器和運算符
3. HBase：過濾器計算順序
4. HBase：過濾器比較運算符
5. HBase比較器
6. HBase過濾器語言示例
7. HBase單個過濾器語法
HBase和Spark
1. HBase：基本Spark
2. Spark Streaming
3. 使用Spark將數據批量加載到HBase
4. SparkSQL / DataFrames
Apache HBase協(xié)處理器
1. Apache HBase協(xié)處理器概述
2. Apache HBase協(xié)處理器的類型
3. Apache HBase加載協(xié)處理器
4. HBase觀察者協(xié)處理器示例
5. HBase部署協(xié)處理器的準則
6. HBase限制協(xié)處理器的使用
Apache HBase性能調整
1. HBase性能調整：操作系統(tǒng)
2. HBase性能調整：網絡
3. HBase性能調整：Java GC
4. HBase性能調整：配置
5. HBase性能調整：架構設計
6. HBase性能調整：一般模式
7. HBase相關內容
8. 從HBase讀取
9. 從HBase刪除
10. HDFS的工作方式
11. Amazon EC2
12. 配置HBase和MapReduce
故障排除和調試Apache HBase
1. 故障排除和調試HBase：日志
2. 故障排除和調試HBase：資源
3. 故障排除和調試HBase：工具
  1. 內置工具
  2. 外部工具
4. 故障排除和調試HBase：客戶端
5. 故障排除和調試HBase：MapReduce
6. 故障排除和調試HBase：NameNode
7. 故障排除和調試HBase：網絡
8. 故障排除和調試HBase：RegionServer
9. 故障排除和調試HBase：Master
10. 故障排除和調試HBase：ZooKeeper
11. 故障排除和調試HBase：Amazon EC2
12. 故障排除和調試HBase：HBase和Hadoop版本問題
13. 故障排除和調試HBase：HBase和HDFS

閱讀(14.4k) 書簽贊(0) 我要糾錯

HBase基礎條件

2021-02-25 15:08 更新

在本節(jié)中，我們列出了使用HBase時所需要的服務和一些必需的系統(tǒng)配置。

安裝Java

Java是Hadoop和HBase主要先決條件。首先應該使用"java -verion"檢查java是否存在在您的系統(tǒng)上。 java -version 命令的語法如下。

$ java -version

如果一切正常，它會得到下面的輸出。

java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

如果Java還沒有安裝在系統(tǒng)中，請你安裝Java！

HBase版本與JDK

在下表中你可以看到HBase版本與其對應支持的JDK版本：

HBase版本	JDK 7	JDK 8
2.0	不支持	支持
1.3	支持	支持
1.2	支持	支持
1.1	支持	使用JDK 8運行將會正常工作，但是沒有得到很好的測試。

注意：HBase不會使用Java 6構建或編譯，并且，您必須在群集的每個節(jié)點上設置JAVA_HOME，hbase-env.sh 提供了一個方便的機制來做到這一點。

操作系統(tǒng)

SSH: （必須的）HBase廣泛使用安全Shell（ssh）命令和實用程序在集群節(jié)點之間進行通信。集群中的每臺服務器都必須運行ssh，以便可以管理Hadoop和HBase后臺進程。您必須能夠使用共享密鑰而不是密碼，通過SSH（包括本地節(jié)點）從主服務器和任何備份主服務器連接到所有節(jié)點。您可以在Linux或Unix系統(tǒng)中的“Procedure：Configure Passwordless SSH Access ”（配置無密碼SSH訪問）中看到這種設置的基本方法。如果群集節(jié)點使用OS X，請參閱Hadoop wiki上的，SSH：設置遠程桌面和啟用自登錄。
DNS: HBase使用本地主機名來自行報告其IP地址。正向和反向DNS解析必須在0.92.0之前的HBase版本中工作。hadoop-dns-checker 工具，可以用來驗證DNS在集群上是否正常工作。項目README文件提供了有關使用的詳細說明。; 在hbase-0.96.0之前，HBase只使用IP地址127.0.0.1來引用localhost，而這是不可配置的。有關更多詳細信息，請參閱Loopback IP。
NTP: 群集節(jié)點上的時鐘應該同步。少量的變化是可以接受的，但是大量的不同會導致不穩(wěn)定和意外的行為。如果在群集中看到無法解釋的問題，則時間同步是首先要檢查的事項之一。建議您在群集上運行網絡時間協(xié)議（NTP）服務或其他時間同步機制，并且所有節(jié)點都查找相同的服務以進行時間同步。請參閱Linux文檔項目（TLDP）中的基本NTP配置以設置NTP。

文件和進程數限制（ulimit）

Apache HBase是一個數據庫。它需要能夠一次打開大量的文件。許多Linux發(fā)行版限制了允許單個用戶打開的文件數量1024（或者256，在舊版本的OS X上）。當以運行 HBase 的用戶身份登錄時，您可以通過在服務器上運行ulimit -n命令來檢查服務器上的限制。您也可能會注意到以下錯誤：

2010-04-06 03：04：37,542信息org.apache.hadoop.hdfs.DFSClient：異常increateBlockOutputStream java.io.EOFException
2010-04-06 03：04：37,542 INFO org.apache.hadoop.hdfs.DFSClient：放棄塊blk_-6935524980745310745_1391901

建議將ulimit提高到至少10,000，但更可能是10,240，因為該值通常以1024的倍數表示。每個ColumnFamily至少有一個StoreFile，如果該區(qū)域處于加載狀態(tài)，則可能有多于六個的StoreFile。所需的打開文件的數量取決于ColumnFamilies的數量和區(qū)域的數量。以下是計算RegionServer上打開的文件的潛在數量的粗略公式。

計算打開文件的潛在數量：

（每個ColumnFamily的StoreFiles）x（每個RegionServer的區(qū)域）

例如，假設一個模式的每個區(qū)域有3個ColumnFamilies，每個ColumnFamily平均有3個StoreFiles，每個RegionServer有100個區(qū)域，則JVM將打開3 * 3 * 100 = 900文件描述符，不包括打開的JAR文件、配置文件等等。打開一個文件不需要很多資源，而且允許用戶打開太多文件的風險很小。

另一個相關設置是允許用戶同時運??行的進程數量。在Linux和Unix中，使用該ulimit -u命令設置進程的數量。這不應與nproc命令混淆，該命令控制給定用戶可用的CPU數量。在負載下，ulimit -u太低會導致OutOfMemoryError異常。

為運行HBase進程的用戶配置文件描述符和進程的最大數量是操作系統(tǒng)配置，而不是HBase配置。確保為實際運行HBase的用戶更改設置也很重要。要查看哪個用戶啟動了HBase，以及該用戶的ulimit配置，請查看該實例的HBase日志的第一行。

示例：ulimit在Ubuntu上的設置

要在Ubuntu上配置ulimit設置，請編輯：/etc/security/limits.conf，它是一個由四列組成的空格分隔的文件。在以下示例中，第一行將用戶名為hadoop的操作系統(tǒng)用戶的打開文件數（nofile）的軟限制和硬限制設置為32768。第二行將同一用戶的進程數設置為32000。

hadoop  -  nofile 32768
hadoop  -  nproc 32000

這些設置僅適用于可插入身份驗證模塊（PAM）環(huán)境指示使用它們的情況。要配置PAM以使用這些限制，請確保/etc/pam.d/common-session文件包含以下行：

session required  pam_limits.so

Linux Shell

所有HBase附帶的shell腳本都依賴于 GNU Bash shell。

Windows

在HBase 0.96之前，在Microsoft Windows上運行HBase僅限于測試目的。不建議在Windows計算機上運行生產系統(tǒng)。

Hadoop

下表總結了每個HBase版本支持的Hadoop版本?；贖Base的版本，您應該選擇最合適的Hadoop版本。參考更多關于Hadoop環(huán)境配置的內容！

建議使用 Hadoop 2.x：Hadoop 2.x 速度更快，包括短路讀取功能，這將有助于提高您的 HBase 隨機讀取配置文件；Hadoop 2.x 還包括重要的 bug 修復，可以改善您的整體 HBase 體驗；HBase 不支持使用早期版本的 Hadoop 運行；有關特定于不同 HBase 版本的要求，請參見下表；Hadoop 3.x 仍處于早期訪問版本中，尚未被 HBase 社區(qū)對生產用例進行充分測試。

使用以下的注解來解釋下面的這個表格：

Hadoop版本支持矩陣：

“S”=支持
“X”=不支持
“NT”=未測試

	HBase的-1.1.x中	HBase的-1.2.x的	HBase的-1.3.x的	HBase的-2.0.x版本
Hadoop-2.0.x-alpha	X	X	X	X
Hadoop-2.1.0-beta	X	X	X	X
Hadoop-2.2.0	NT	X	X	X
Hadoop-2.3.x	NT	X	X	X
Hadoop-2.4.x	S	S	S	X
Hadoop-2.5.x	S	S	S	X
Hadoop-2.6.0	X	X	X	X
Hadoop-2.6.1+	NT	S	S	S
Hadoop-2.7.0	X	X	X	X
Hadoop-2.7.1+	NT	S	S	S
Hadoop-2.8.0	X	X	X	X
Hadoop-2.8.1	X	X	X	X
Hadoop-3.0.0	NT	NT	NT	NT

Hadoop Pre-2.6.1 和 JDK 1.8 Kerberos

在 Kerberos 環(huán)境中使用 pre-2.6.1 Hadoop 版本和 JDK 1.8 時，HBase 服務器可能因 Kerberos keytab relogin 錯誤而失敗并中止。JDK 1.7 (1.7. 0_80) 的后期版本也有問題。在這種情況下考慮升級到Hadoop 2.6.1+。

Hadoop 2.6.x

如果您計劃在 HDFS 加密區(qū)域的頂部運行 HBase，則基于 2.6.x 行的 Hadoop 發(fā)行版必須具有 HADOOP-11710 應用。如果不這樣做，將導致群集故障和數據丟失。此修補程序存在于Apache Hadoop 2.6.1+版本中。

Hadoop 2.7.x

Hadoop 2.7.0版本未經測試或不受支持，因為Hadoop PMC明確將該版本標記為不穩(wěn)定。

Hadoop 2.8.x

Hadoop 2.8.0和2.8.1版本未經測試或不受支持，因為Hadoop PMC明確標記版本不穩(wěn)定。

更換與 HBase 捆綁的 Hadoop

因為 HBase 依賴于Hadoop，它將Hadoop jar的一個實例捆綁在其 lib 目錄下。捆綁的 jar 僅用于在獨立模式下使用。在分布式模式下，群集上的 Hadoop 版本與 HBase 下的內容相匹配是至關重要的。將在 HBase lib 目錄中找到的 hadoop jar 替換為您在群集上運行的 hadoop jar，以避免版本不匹配問題。確保在整個集群中替換 HBase 中的 jar。

dfs.datanode.max.transfer.threads

HDFS DataNode在任何時候都會有一個文件數上限。在進行任何加載之前，請確保您已經配置了Hadoop的conf / hdfs-site.xml，并將該dfs.datanode.max.transfer.threads值設置為至少如下的值：

<property>
  <name>dfs.datanode.max.transfer.threads</name>
  <value>4096</value>
</property>

進行上述配置后，務必重新啟動HDFS。

沒有這個配置就會造成奇怪的故障。其中一種表現是對缺失區(qū)塊的投訴。例如：

10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block
          blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live nodes
          contain current block. Will get new block locations from namenode and retry...

ZooKeeper要求

動物園管理員3.4.x 是必需的。HBase 使用的多功能, 只可從動物園管理員3.4.0。hbase.zookeeper.useMulti 配置屬性默認為 true。參考 HBASE-12241 (在采用deadserver的復制隊列時會中斷復制的regionServer的崩潰) 和 HBASE-6775 (在可用于HBASE-6710 0.92 / 0.94兼容性修補程序時使用ZK.multi)。該屬性被棄用，并且在 HBase 2.0 中始終啟用 useMulti。

以上內容是否對您有幫助：

在文檔使用的過程中是否遇到以下問題：