什么时候该用ASSERT?

—————————————————-
Michael to pongba

有下面2种方法:

方法一:Section *pImageSection = new Section(pImage);

assert(pImageSection);

方法二:略

ps:现在项目组代码用第一方法,并且也不写日志,每一次客户端down了,定位问题都要很久,让人很崩溃。并且到处都是assert。

我个人认为,用assert的地方,是比较严重的错误,甚至不能够让程序再运行下去。

如果到处用asset也太残忍了,有的时候应该温柔的跳过,然后写日志,返回。告诉我哪里运行失败了。

—————————————————-

下面是我对这个问题的回答:

首先需要指出一个非常重要、讨论前必须明确的问题,assert一般不应该直接用,而应该包装一下,比如微软就有ASSERT宏,可以跟踪line file这些有用信息,另外可以通过条件编译取消ASSERT。每次定位很久,只能说这种编程common sense还没有建立起来。

原文虽然说得很简单,其实涉及了几个方面,一个是版本管理发布,一个是错误处理机制,一个是如何写日志,我们一个个讨论。

首先是什么情况下用ASSERT,什么情况下应该处理wrong case?

一个成熟的代码里面,大概有百分之三十到七十的代码都是为了查错,fault tolerance。比如你写一个API或者对外使用的函数,别人要调用,你要确保传入的指针不为空,传入的参数合法,这时候都不应该,注意是不应该使用ASSERT,因为这些情况out of your control。

什么情况可以使用ASSERT,应该是那些绝少发生的例子,而且你可以控制的那些代码段落,比如Object* p = new Object,返回空指针,这种情况下多半是内存申请出错,即使你容错了,后面的逻辑也不会正常,这时候就应该停止运行报错了。还有就是你的内部函数(注意是你程序的内部哦),因为内部函数的代码责任其实是你自己的,你传错参数只能说水平太差怨不得别人。也许有人会说,同组里别的程序员万一也调用了这个函数怎么办?这种情况当然是会有的,其实也没法避免,但可以用ASSERT以及Code review这些手段来规范,同一个程序组里面的问题属于内部矛盾好解决多了。

所以,大的原则可以是这样:内部函数尽量简化容错机制,稍微苛刻一些,而对外接口则尽量容忍,出错处理也要温柔。

第二个问题,ASSERT该怎么写?

我已经提到,不要直接使用assert,最好包装一下,加入#ifdef _DEBUG这种条件编译选项,保证Release版本不弹出ASSERT。这里其实也涉及到版本管理问题,一个商业产品发布一般包含两个版本(Release版以及Debug checked版本),即使是Windows操作系统也是如此。在Release版本要Disasble assert,这时候如果出错可以用后面的Crash Dump机制捕捉跟踪,而且要说明的是Release版本一样要附带PDB文件(或者Linux同类文件),保证Crash Dump可以定位。Debug版本也要发给用户,用户可以通过它返回更详细信息。每个Build出来的Release、Debug都应该妥善备份,将来客户提交Bug,对应版本以及PDB,就可以准确定位,不会出现很难差错的现象。

另外也可以加入日志log选项。在这里跑一下题,日志记录也是个大问题,要考虑多线程以及性能问题,其实不是加入日志系统就万事大吉了,说句难听的,对于那些2B Number One的人来讲,任何一个好东西都可能被他们用到烂。一般ASSERT跑出来,对于客户来说就等同于Crash了,所以可以参考一下Google的Crash Report开源项目,比如Windows下可使用Crash Dump机制来捕捉崩溃时调用栈,这样即使Fail Soon Fail Fast也不会很难看。这些手段都是common sense的东西,一个正常的软件开发公司应该积累下这些代码财富才对。

奇怪的C语言特性

Most from http://stackoverflow.com/questions/1995113/strangest-language-feature

下面列出的特性未必奇怪,有的算是有趣。

1)a[2] 等价于 2[a]

"aabbccdd"[5] 等价于 5["aabbccdd"]

这条特性可以用于使用数组、指针、字符串,但不能用在变量定义时。K&R C Programming language 217页对此有介绍。

2)二元、三元复合字符

http://en.wikipedia.org/wiki/Digraphs_and_trigraphs

字符串字面值??!将被认为是|,所以两个问号同时出现在字符串的时候一定要小心。二元复合字符在C99被引入,如<:等价于[

3)Duff’s Device

http://en.wikipedia.org/wiki/Duff%27s_device

特点是switch与while交错出现。代码类似

image

4)同名同姓现象

image

在《C陷阱与缺陷》中有详细解释。

5)a[i++]= i;

这个好像是依赖特定编译器实现,我在Xcode实验结果为先对a[i]赋值i,然后操作i++。此类代码一定要小心。如果你在做code review发现++ –出现在其它表达式中或者作为参数出现,一定要立刻马上把它移出来作为单独语句,小心驶得万年船。

6)sizeof

sizeof(x), x可以是一个表达式或者类型名,如果是表达式,不做运算,int x = 1; size_t sz = sizeof(x++); X不会增加。T *p = NULL; p = malloc(sizeof *p); p并没有提领,K&R圣书也有讲。

sizeof unary-expr; sizeof(typename);一元表达式可以没有括号,圣书里面语法部分提到。如size_t f = sizeof 99;

7)宏定义要小心

例如:#define FOO(a,b) (a+b)/(1-a)如果这样调用FOO(bar++,4),自增两次,当然,把宏展开就非常清楚了。

参考资料:

http://www.steike.com/code/useless/evil-c/

《C陷阱与缺陷》

一些关于c语言中malloc以及free的资料-留存

Advanced C Programming Memory Management II (malloc, free, alloca, obstacks, garbage collection) http://www.mpi-inf.mpg.de/departments/rg1/teaching/advancedc-ws08/script/lecture09.pdf

在这个网页上的pdf slide都非常不错,值得推荐http://www.mpi-inf.mpg.de/departments/rg1/teaching/advancedc-ws08/literature.html

 

A Memory Allocator by Doug Lea

http://gee.cs.oswego.edu/dl/html/malloc.html

Simple Memory Allocation Algorithms

http://www.osdcom.info/content/view/31/39/

Simple Memory Allocation Algorithms

http://goog-perftools.sourceforge.net/doc/tcmalloc.html

http://en.wikipedia.org/wiki/Dynamic_memory_allocation

http://en.wikipedia.org/wiki/Malloc

https://users.cs.jmu.edu/bernstdh/web/common/lectures/slides_cpp_dynamic-memory.php

http://www.flounder.com/inside_storage_allocation.htm

http://blog.codingnow.com/2010/05/memory_proxy.html#more

http://www.ibm.com/developerworks/linux/library/l-memory/

C语言中的lvalue, rvalue

lvalue算是C语言里面不怎么太容易说清楚的概念,我们上学的时候多半称之为left-value左值,对应的还有在C++标准中的rvalue,也就是右值。

在wiki百科上http://en.wikipedia.org/wiki/Value_%28computer_science%29 解释了一些。

首先什么是value?value也好object也好在计算机内部的表示都是0和1,没有什么区别,某一块内存地址的数据,按照整数解释是一个值,按照class CObject解释又是另外一个值,浮点数也好字符串也好,如果光看这个内存地址里面的数据是没法看出什么究竟的。所以需要编译器做一些处理在某个地方记录下来类型信息。

image

上面文字翻译成中文就是lvalue是程序运行时可以通过地址(address)信息编程存取的值(比如通过&操作符),意味着他们是变量或者可以提领(dereferenced,通常用*操作符)某一块特定内存位置。在C++标准中说明:不是lvalue的值就是rvalue。我们不能把rvalue作为lvalue使用,但是反过来可以,比如int a = b; 其中变量b可以为lvalue。

在伟大的K&R第二版中197页写道:一个对象是被命名的存储区域或者被指向一块存储区域(an object is a named or pointed to region of storage);一个lvalue是一个指向对象的表达式(an lvalue is an expression referring to an object),(!!注意lvalue是一个表达式,这在后面例子中会体现出来)。。。lvalue这个名字来自赋值表达式E1 = E2,其中左边的操作数E1必须是一个lvalue。

在Dan Saks的文章中提到,一个rvalue之所以不引用一个object,不是因为不能,而是因为不需要(Conceptually, an rvalue is just a value; it doesn’t refer to an object. In practice, it’s not that an rvalue can’t refer to an object. It’s just that an rvalue doesn’t necessarily refer to an object. Therefore, both C and C++ insist that you program as if rvalues don’t refer to objects.)

我们拿int n = 1; 来做说明,如果1是一个lvalue,那么产生的汇编代码类似下面这样:

one: .word 1
      …
      mov (one), n

实际上对于大多数机器而言,其实是对n直接操作,类似:

mov #1, n

在这里1没有像我们想象的那样指向一个object(如one),而是直接就操作了。甚至还有的机器产生汇编代码如:

clr n
     inc n

先把n清零,然后增加n的值,这里面根本就没有出现1。

MSDN博客上http://blogs.msdn.com/vcblog/archive/2009/02/03/rvalue-references-c-0x-features-in-vc10-part-2.aspx

有一篇非常详细的文字解释c++中的lvalue,rvalue,有兴趣的可以去看看。其中最为重要的一句话就是“another way to determine whether an expression is an lvalue is to ask "can I take its address?".  If you can, it’s an lvalue.  If you can’t, it’s an rvalue. ”翻译为中文就是“决定一个表达式是否是lvalue的方法可以是:我能不能获取它的地址?如果可以,那就是lvalue,否则就是rvalue。”另外需要着重说明的是,lvalue一定可以获取地址,但不要求是可以修改的(如const,如后面提到的字符串字面值)。

加法操作一直返回一个rvalue,比如m+ 1 = n; 这就没法编译通过,因为 m + 1 这个表达式是一个rvalue。

针对lvalue中的l,我们也可以认为是location,其实也就是能不能获取地址的另一种意思,这也就是为何数字型字面值以及非引用型函数不是lvalue的原因。

char(*pchar)[] = &("aabbccddee");

有些文章说字符串字面值(string literals)算是lvalue,但是不能改变这个值,上面的代码就是一个演示。

*&("aabbccddee") = ‘a’;

这个赋值语句在VC6下编译通过(这是错误的!),在Xcode中出错提示“对read-only location赋值”,在VC2008下提示"left operand must be l-value"。所以还是建议大家用新版本的编译器来学习工作,否则很容易造成误解。

下面我举几个例子,大家看看能否判断是lvalue还是rvalue。

obj , *ptr , ptr[index] , ++x, 1729 , x + y , std::string("meow") , x++

在VC6中编写一个最简单的操作台程序,输入下面代码:

int main(int argc, char* argv[])
    {
        int obj = 0;
        int* ptr = &obj;
        int x = 1;
        int* ptr2 = &(++x);
        int* ptr3 = &(x++);
        return 0;
    }

编译结果是testconsole1.cpp(12) : error C2102: ‘&’ requires l-value,第12行就是int* ptr3 = &(x++);

稍微修改一下这段代码让它做一下deference操作:

int main(int argc, char* argv[])
{
    int x = 1;   
    *&(++x) = 9;
    *&(x++) = 10;
    return 0;
}

同样也是在x++这一行编译不通过。尽管x++或者++x并没有修改x的内存位置,但x++这种形式就是rvalue,没法对这个表达式进行提领(*)操作。很有意思吧,这里面应该还有更说得通的理由,希望有高人指点一下。(在msdn blog上的解释是x++这种形式会产生临时对象,但那是针对C++而言,不知道对于C来说是不是也是同一种解释)

既然是表达式,函数也是表达式一种形式,是不是也可以作为lvalue出现呢?stackoverflow上有一个问题里面举了一个很有意思的例子http://stackoverflow.com/questions/579421/often-used-seldom-defined-terms-lvalue

#include "stdafx.h"
      static int aa = 0;
      int* func() {  
         aa++;
         return &aa;
       }
int main(int argc, char* argv[])
{
    *func() = 42;
    printf("%d", aa);
    return 0;
}

在VC6下运行结果为43(?!),而VC2008以及Mac XCode3.1运行结果为42,在这里VC6好像是有一些问题啊。当然我们期望aa结果应该是42.

相关参考文档:ISO C99标准

The New C Standardhttp://www.coding-guidelines.com/cbook/cbook1_2.pdf

C Programming Language》K&R第二版

http://publications.gbdirect.co.uk/c_book/

http://www.cs.dartmouth.edu/~chris/cs23/summit-intro/

http://www.embedded.com/story/OEG20010518S0071